Hauptanwendungsfälle: Modell das für die Anliegenerkennung und Textklassifizierung feinabgestimmt wurde. Es basiert auf der Variation RoBERTa des Grundlagenmodells BERT und kann Anliegen auch in komplexen Emails erkennen, wenn man nur den Namen des Intents angibt (zero shot).
Inputlänge: 512 Tokens (ca. 384 Wörter)
Sprachen: Englisch, Französisch, Deutsch, Spanisch, Griechisch & 10 weitere
Modellgröße: ~355 Millionen Parameter
Hauptanwendungsfälle: Modell das für die Anliegenerkennung und Textklassifizierung feinabgestimmt wurde. Es basiert auf der Variation RoBERTa des Grundlagenmodells BERT und kann Anliegen auch in komplexen Emails erkennen, wenn man nur den Namen des Intents angibt (zero shot).
Inputlänge: 512 Tokens (ca. 384 Wörter)
Sprachen: Englisch, Französisch, Deutsch, Spanisch, Griechisch & 10 weitere
Modellgröße: ~355 Millionen Parameter
Die F1-Werte für die einzelnen Anliegen variieren nur verhältnismäßig wenig (0,69–0,93). Jedoch zeigen nur zwei Anliegen, “Paket ist nicht angekommen” und “Ich möchte mein Geld erhalten”, ein ausgewogenes Erkennungsmuster von Recall und Precision. Diese Anliegen weisen auch die höchsten F1-Werte auf und werden mit 93% bzw. 88% auch sehr gut erkannt.
Gut schneiden auch die Anliegen “Passwort ändern” und “Bitte keine Werbung mehr” ab, eher mäßig dagegen “Account oder Kundenkonto löschen” und “Produkt defekt/mangelhaft”. In allen vier Fällen generalisiert das Modell zu wenig, so dass zwar kaum falsch-positive Treffer ausgegeben werden (Precision bei >87% – lila), dafür werden aber weniger als drei viertel der eigentlichen Ziele zurückgegeben ( Recall <75% – gold).
Das gegenteilige Muster findet sich bei dem ebenfalls nur mäßig abschneidenden Anliegen “Zählerstand übermitteln, erfassen”. In diesem Fall generalisiert das Modell zu sehr, so dass zwar die alle Ziele erkannt werden (Recall 100% – gold), allerdings auch viele falsche Treffer gemeldet werden, wodurch die Precision (lila) vergleichsweise niedrig ausfällt.
Insgesamt liegen nur drei von sieben Anliegen knapp unter einem F1-Wert von 0,75, was im Kern bedeutet, dass einer von vier Treffern ein falsch-positiver ist und eines von vier Zielen nicht gefunden wird. Das heißt, dass dieses Modell recht gut geeignet für die Anliegenerkennung in Kundenservice-Emails scheint, zumal sich die Ergebnisse durch weitere Verbesserungsmaßnahmen (Training, Feinabstimmung, etc.) eventuell noch signifikant verbessern lassen könnten.
Bei den Tests variierten wir die folgenden drei Parameter: Wir testeten verschiedene Formulierungen der Anliegen. Das betraf Aspekte wie Einfachheit der Formulierung oder positive vs. negative Aussagen zum Beispiel “Werbung stoppen” im Gegensatz zu “keine Werbung mehr”. Zusätzlich variierten wir den Grenzwert (0–1), ab dem eine Ähnlichkeit als Treffer gezählt wurde. Die beste Konfiguration zeigte hier den Wert 0,4. Letztlich wurde für jede Konfiguration noch getestet, ob und wie es sich auswirkt, wenn ein Text mehreren Anliegen gleichzeitig zugeordnet werden darf. In unseren Testreihen ergaben sich dadurch schlechtere Ergebnisse. Die oben gezeigten Ergebnissen stellen die beste Kombination der beschriebenen Parameter dar.
In unseren Tests zur Erkennung von Anliegen ergaben sich vergleichsweise lange Antwortzeiten mit einem Mittelwert von 1,28 Sekunden pro E-Mail. Das Modell ist damit für Echtzeitanwendungen nur eingeschränkt geeignet.
Median: N/A
Mittelwert: 1,28 Sek.
Minimum: N/A
Maximum: N/A
Diese Modell wurde lokal auf unseren Servern ausgeführt, daher ergaben sich keine direkten Kosten. In der Praxis hängt der Preis sehr stark von der Einrichtung und der verwendeten Hardware ab. Im Allgemeinen sind größere Modelle teurer als kleinere: XLM-RoBERTa-large-XNLI kann mit einer Größe von ~355 Millionen Parametern eher als klein angesehen werden.
Aufgrund der vielversprechenden Qualität und der wahrscheinlich sehr geringen Kosten, können wir, trotz der vergleichsweise langen Antwortzeiten, eine eingeschränkte Produktempfehlung für dieses Modell aussprechen, wenn Sie Anliegenerkennung von deutschen Kundenanfragen (E-Mail) wünschen. Insbesondere kann sich die Anwendung lohnen, wenn ein VIER-eigenes Hosting dringend notwendig ist, zum Beispiel aus Datenschutzgründen.