von Aleph Alpha
von Aleph Alpha
Hauptanwendungsfälle: Ein Embeddingmodell, das den Eingabetext mit Textreferenzen vergleicht und die Ähnlichkeit berechnet. Damit können beispielsweise Suchfunktionen (in Wissensdatenbanken), Anliegenerkennung und Textklassifikation realisiert werden.
Inputlänge: 2048 Tokens (ca. 1536 Wörter)
Sprachen: Englisch, Deutsch, Französisch, Italienisch und Spanisch
Modellgröße: ~13 Milliarden Parameter
Hauptanwendungsfälle: Ein Embeddingmodell, das den Eingabetext mit Textreferenzen vergleicht und die Ähnlichkeit berechnet. Damit können beispielsweise Suchfunktionen (in Wissensdatenbanken), Anliegenerkennung und Textklassifikation realisiert werden.
Inputlänge: 2048 Tokens (ca. 1536 Wörter)
Sprachen: Englisch, Deutsch, Französisch, Italienisch und Spanisch
Modellgröße: ~13 Milliarden Parameter
Die F1-Werte für die einzelnen Anliegen variieren sehr stark (0,24–0,9). Einzig das Anliegen “Passwort ändern” zeigt ein ausgewogenes Erkennungsmuster mit entsprechend hohem F1-Wert. Schlecht bis sehr schlecht schneiden dagegen “Account oder Kundenkonto löschen” und “Bitte keine Werbung mehr” ab. In beiden Fällen generalisiert das Modell zu sehr, so dass zwar alle Ziele erkannt werden (hoher Recall – gold), allerdings auch viele falsche Treffer gemeldet werden, wodurch die Precision (lila) vergleichsweise niedrig ausfällt. Das gegenteilige Muster, also eine zu geringe Generalisierung, finden wir bei “Produkt defekt/mangelhaft” und schwächer auch bei “Zählerstand übermitteln, erfassen”. Zwar werden hier keine falsch-positiven Treffer ausgegeben (Precision bei 100% – lila), dafür werden aber 39% bzw. 70% der eigentlichen Ziele zurückgegeben (niedriger Recall – gold).
Insgesamt liegen drei von sieben Anliegen unter einem F1-Wert von 0,75, was im Kern bedeutet, dass einer von vier Treffern ein falsch-positiver ist und eines von vier Zielen nicht gefunden wird. Das heißt, dass dieses Modell ohne größere Verbesserungsmaßnahmen (Training, Feinabstimmung, etc.) erhebliche Schwierigkeiten dabei hat, die Anliegen von Kunden in deren Emails zu erkennen.
Bei den Test variierten wir folgende Parameter: Im Bezug auf die Ähnlichkeitsmetrik stehen drei Varianten zur Verfügung, die entweder den maximalen Ähnlichkeitswert pro Kategorie, den durchschnittlichen Ähnlichkeitswert pro Kategorie oder den Mittelwert der beiden vorigen Methoden verwenden. In unseren Test ergab der Mittelwert die besten Ergebnisse. Daneben testeten wir zwei Versionen von Trainings-/Evalutationscorpora, eines das analog zu den Beispielen von Aleph Alpha konstruiert wurde und eines, dass gemäß unserer Expertise optimiert wurde. Die optimierten Corpora führten zu besseren Ergebnissen. Letztlich untersuchten wir auch, ob eine Bereinigung der Mails und eine Aufspaltung in einzelne Sätze bei dem Testset zu besseren Ergebnissen führen würde. Diese Vorverabeitungen führten in unseren Tests jedoch nicht zu einer verbesserten Anliegenerkennungen. Die oben gezeigten Ergebnissen stellen die beste Kombination der beschriebenen Parameter dar.
Grundsätzlich sind die Antwortzeiten mit einem Mittelwert von 0,12 Sekunden relativ kurz und auch für Echtzeitanwendungen geeignet.
Median: N/A
Mittelwert: 0,12 Sek.
Minimum: N/A
Maximum: N/A
Die Anliegenerkerkennung für die 790 Texte kosteten 1,11€, also rund 1 Cent pro für 7 Kundenanfragen (ohne Datenbereinigung). Damit sind die Kosten für Luminous Base Embedding für ein reines Embeddingmodell eher hoch.
Trotz der recht kurzen Antwortzeiten können wir aufgrund der allenfalls mittelmäßigen Qualität und des vergleichsweise hohen Preises keine klare Produktempfehlung für dieses Modell aussprechen, wenn ihr Anliegenerkennung von deutschen Kundenanfragen (E-Mail) wünscht. Allerdings kann sich die Anwendung lohnen, wenn ein in Deutschland gehostetes Modell gewünscht wird, dass sich über eine API ansprechen lässt, sofern sich die Qualität durch Feinabstimmung noch steigern lässt.