Hauptanwendungsfälle: Ein Embeddingmodell, das den Eingabetext mit Textreferenzen vergleicht und die Ähnlichkeit berechnet. Damit können beispielsweise Suchfunktionen (in Wissensdatenbanken), Anliegenerkennung und Textklassifikation realisiert werden.
Inputlänge: 8191 Tokens (ca. 6143 Wörter)
Sprachen: Hauptsächlich Englisch. Zusätzlich auch Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Mandarin und vermutlich viele weitere.
Modellgröße: ~350 Millionen Parameter
Hauptanwendungsfälle: Ein Embeddingmodell, das den Eingabetext mit Textreferenzen vergleicht und die Ähnlichkeit berechnet. Damit können beispielsweise Suchfunktionen (in Wissensdatenbanken), Anliegenerkennung und Textklassifikation realisiert werden.
Inputlänge: 8191 Tokens (ca. 6143 Wörter)
Sprachen: Hauptsächlich Englisch. Zusätzlich auch Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Mandarin und vermutlich viele weitere.
Modellgröße: ~350 Millionen Parameter
Die F1-Werte für die einzelnen Anliegen variieren sehr stark (0,33–0,88). Nur die Anliegen “Passwort ändern” und “Paket ist noch nicht angekommen” zeigen ausgewogene Erkennungsmuster mit entsprechend hohen F1-Werten. Schlecht bis sehr schlecht schneiden dagegen “Account oder Kundenkonto löschen” und “Zählerstand übermitteln, erfassen” ab. In beiden Fällen generalisiert das Modell zu sehr, sodass zwar alle Ziele erkannt werden (hoher Recall – gold), allerdings auch viele falsche Treffer gemeldet werden, wodurch die Precision (lila) vergleichsweise niedrig ausfällt. Dasselbe Muster ist auch bei “Bitte keine Werbung mehr” und “Ich möchte mein Geld erhalten” zu beobachten, allerdings etwas schwächer ausgeprägt.
Das gegenteilige Muster, also eine zu geringe Generalisierung, finden wir lediglich bei “Produkt defekt/mangelhaft”. Zwar werden hier kaum falsch-positive Treffer ausgegeben (Precision bei 81% – lila), dafür werden aber nur gut die Hälfte (55%) der eigentlichen Ziele zurückgegeben (niedriger Recall – gold).
Insgesamt liegen fünf von sieben Anliegen unter einem F1-Wert von 0,75, was im Kern bedeutet, dass einer von vier Treffern ein falsch-positiver ist und eines von vier Zielen nicht gefunden wird. Das heißt, dass dieses Modell ohne größere Verbesserungsmaßnahmen (Training, Feinabstimmung, etc.) erhebliche Schwierigkeiten dabei hat, die Anliegen von Kunden in Emails zu erkennen.
Bei den Tests wurden verschiedene Verfahren miteinander verglichen. So wurden im Bezug auf die Ähnlichkeitsmetrik drei Varianten untersucht, die entweder den maximalen Ähnlichkeitswert pro Kategorie, den durchschnittlichen Ähnlichkeitswert pro Kategorie oder den Mittelwert der beiden vorigen Methoden verwenden. In unseren Test ergab der durchschnittliche Ähnlichkeitswert die besten Ergebnisse. Zusätzlich untersuchten wir auch den Einfluss des Grenzwert der Ähnlichkeitsmetrik, welcher sich mit 0.9 als optimal erwies. Daneben testeten wir zwei Versionen von Trainings-/Evalutationscorpora, eines das analog zu den Beispielen von OpenAI konstruiert wurde und eines, dass gemäß unserer Expertise optimiert wurde. Die optimierten Corpora führten zu besseren Ergebnissen. Letztlich untersuchten wir auch, ob eine Bereinigung der Mails und eine Aufspaltung in einzelne Sätze bei dem Testset zu besseren Ergebnissen führen würde. Diese Vorverabeitungen führten in unseren Tests jedoch nicht zu einer verbesserten Anliegenerkennungen. Die oben gezeigten Ergebnissen stellen die beste Kombination der beschriebenen Parameter dar.
In unseren Tests zur Erkennung von Anliegen zeigten sich erhebliche Schwankungen in den Antwortzeiten (0,002–4 Sekunden). Grundsätzlich aber sind die Antwortzeiten mit einem Mittelwert von 0,43 Sekunden relativ kurz. Das Modell ist dadurch auch für Echtzeitanwendungen geeignet.
Die Anliegenerkerkennung für die 790 Texte kosteten 0,06€, also rund 1 Cent pro für 130 Kundenanfragen (ohne Datenbereinigung). Damit sind die Kosten für Ada Embedding sehr gering.
Trotz der recht kurzen Antwortzeiten und des sehr günstigen Preises kann aufgrund der allenfalls mittelmäßigen Qualität keine klare Produktempfehlung für dieses Modell ausgesprochen werden, wenn die Erkennung von Anliegen in deutschen Kundenanfragen per E-Mail im Fokus steht. Allerdings kann sich die Anwendung lohnen, wenn große Mengen an Texten eher grob (vor-)klassifiziert werden müssen, da sich das Modell bequem über eine API ansprechen lässt und die Kosten sehr gering ausfallen. Zusätzlich könnte sich die Qualität durch Feinabstimmung auch noch steigern lassen.