Für die Untersuchung der Anliegeneerkennung haben wir einen Use Case gewählt, der in der Praxis mit unseren Kunden umgesetzt wird. Als Datengrundlage dienen 790 E-Mailanfragen von Endkunden an den Kundenservice. Die Anfragen sind sehr variantenreich, von förmlich bis umgangssprachlich und enthalten zum Teil auch ganze Mailkonversationen. In den Mails sind insgesamt 7 verschiedene Anliegen enthalten.
Alle potentiell interessanten Modelle wurden einem Vortest mit 5 Nachrichten unterzogen. Für die ausführlichen Tests wurden nur Modelle in Betracht gezogen, die bei den Vortests akzeptable Resultate erzielten.
Für die Untersuchung der Anliegeneerkennung haben wir einen Use Case gewählt, der in der Praxis mit unseren Kunden umgesetzt wird. Als Datengrundlage dienen 790 E-Mailanfragen von Endkunden an den Kundenservice. Die Anfragen sind sehr variantenreich, von förmlich bis umgangssprachlich und enthalten zum Teil auch ganze Mailkonversationen. In den Mails sind insgesamt 7 verschiedene Anliegen enthalten.
Alle potentiell interessanten Modelle wurden einem Vortest mit 5 Nachrichten unterzogen. Für die ausführlichen Tests wurden nur Modelle in Betracht gezogen, die bei den Vortests akzeptable Resultate erzielten.
Um einen besseren Überblick über die Qualität der verschiedenen Modelle zu erhalten, geben wir in der folgenden Grafik den F1-Wert als aussagekräftigste Metrik zur Beurteilung der Leistung der Modelle an. Zu sehen ist die Qualität für die 7 getesteten Anliegen.
Das Modell mit der besten Leistung ist GPT-3.5 Turbo. Bei diesem LLM haben wir den Namen des Anliegens mit einem Beispiel in den Prompt eingefügt. Das Modell hat eine oder mehrere Zahlen als Ergebnis ausgegeben. Es gibt zwei weitere generative Modelle (Sprache rein - Sprache raus) in der Übersicht, FLAN-T5-XXL, das bei den meisten Anliegen ähnliche Ergebnisse wie GPT-3.5 Turbo zeigt, und FLAN-T5-XL, das ebenfalls sehr gute Ergebnisse zeigt, sogar im Vergleich zu seinem größeren Bruder. Die FLAN-Modelle können lokal ausgeführt werden, erfordern allerdings recht leistungsfähige GPUs.
Die zwei Modelle, die speziell für die Erkennung von Anliegen trainiert wurden (zero-shot, also nur mit Benennung des Anliegen), zeigen unterschiedliche Leistungen. Während mDeBERTa-v3-base-MNLI-XNLI bei den meisten Anliegen eine eher schlechte Erkennungsrate zeigt, liefert XLM-RoBERTa-large-XNLI vielversprechende Ergebnisse. Beide Modelle sind deutlich kleiner als die FLAN Modelle und damit effizienter zu nutzen.
Die beiden getesteten Embedding-Modelle wurden mit je 10 Beispielen pro Anliegen angelernt. Diese Modelle vergleichen die Embeddings der Testmails mit den Embeddings der Lernbeispiele. Diese beiden Embedding-Modelle zeigten in diesem Modellvergleich die schlechtesten Ergebnisse, abgesehen von weiteren kleinen Open-Source-Modellen, die zwar den Vortest bestanden haben, aber im Testdurchlauf so schlecht abgeschnitten haben, dass sie hier gar nicht gesondert aufgeführt sind.
Bei der Antwortgeschwindigkeit liegen die Embedding-Modelle und die FLAN-Modelle weit vorne. GPT-3.5 Turbo liegt mit ca. 0.6 Sekunden pro Bearbeitung im Mittelfeld während die lokal ausgeführten Modelle XLM-RoBERTa-large-XNLI und mDeBERTa-v3-base-MNLI-XNLI rund doppelt so lange benötigen. Weit abgeschlagenen ist BART-large-MNLI mit extrem langen Antwortzeiten. Die lokalen Modelle liefen auf einem A40 GPU (bzw. A100 für FLAN-XXL) ohne jegliche Optimierung, so dass die Geschwindigkeit für den Einsatz im Live-Betrieb höchstwahrscheinlich verbessert werden könnte, wenn etwas Aufwand betrieben wird.
Mittel: 0,6 Sek.
Median: 0,59 Sek.
Mittel: 0,12 Sek.
Median: N/A
Mittel: 0,52 Sek.
Mean: 0,43 Sek.
Mittel: 6,67 Sek.
Median: 5,44 Sek.
Mittel: 1,26 Sek.
Median: N/A
Mittel: 1,28 Sek.
Median: N/A
Mittel: 0,08 Sek.
Median: 0,07 Sek.
Mittel: 0,12 Sek.
Median: 0,10 Sek.
Angegeben sind jeweils die Kosten für 790 Mails (komplette Threads).
Die Kosten für GPT-3.5 Turbo sind entsprechend der möglichen Leistungen am höchsten. Dies ist unter anderem darauf zurückzuführen, dass es sich bei diesem Modell um ein Sprachgenerierungsmodell handelt, das deutlich mehr Rechenleistung erfordert, als reine Embedding oder Klassifizierungsmodelle. Das OpenAI-Embedding-Modell (Ada) ist wesentlich günstiger, während das Aleph-Alpha-Embedding-Modell (Luminous Base Embedding) laut den offiziellen Preisen des Unternehmens fast gleich viel kostet wie GPT-3.5 Turbo. Die anderen Modelle wurden lokal ausgeführt, so dass der Preis sehr stark von der Einrichtung und der verwendeten Hardware abhängt. Im Allgemeinen sind größere Modelle teurer als kleinere. Während mDeBERTa-v3-base-MNLI-XNLI eine Größe von 100 Millionen Parametern hat, weist XLM-RoBERTa-large-XNLI eine Größe von 355 Millionen Parametern auf, FLAN-T5-XL hat 3 Milliarden Parameter und FLAN-T5-XXL hat 11 Milliarden Parameter.
Kosten: 1,20€
Kosten: 1,11€
Kosten: 0,06€
Kosten: lokal
Kosten: lokal
Kosten: lokal
Kosten: lokal
Kosten: lokal
Hosting: Europa via Microsoft Azure
Hosting: Deutschland
Hosting: Europa via Microsoft Azure
Hosting: VIER Frankfurt
Hosting: VIER Frankfurt
Hosting: VIER Frankfurt
Hosting: VIER Frankfurt
Hosting: VIER Frankfurt
Bei GPT-3.5 Turbo ist der Aufwand am geringsten. Das Modell ist durch einen Prompt einfach zu bedienen und braucht keine Feinabstimmung, um bereits nahezu perfekt zu funktionieren für die Anliegenerkennung. Ähnlich einfach ist es bei den FLAN-Modellen. Allerdings ist hier das Ergebnis nur gut, wenn der Prompt Englisch ist. Zudem müssen die FLAN-Modelle lokal aufgesetzt werden. Für die kleineren lokalen Modelle (mDeBERTa-v3-base-MNLI-XNLI und XLM-RoBERTa-large-XNLI) kommt noch hinzu, dass verschiedene Formulierungen der Anliegen sowie Cut-Off Werte für die Klassifikation bestimmt werden müssen. Das erfordert einiges an Testung. Auch bei den Embedding-Modellen ist das Testen und Optimieren der verschiedenen Cut-Off-Werte und der Formulierungen der Beispiele notwendig. Dafür müssen diese Modelle aber nicht lokal aufgesetzt werden.
Jedoch sind alle genannten Aufwände vergleichsweise gering gegenüber der Option ein Modell von Grund auf für die Anliegenerkennung zu trainieren.
Aufwand: gering
Aufwand: eher gering
Aufwand: eher gering
Aufwand: mittel
Aufwand: mittel
Aufwand: mittel
Aufwand: eher gering
Aufwand: eher gering
Empfehlung: ja (Anliegenerkennung wäre hier aber nicht der klassische Use-case, da es keine Sprachgenerierung erfordert)
Empfehlung: nein (es zeigt in manchen Anliegen sehr gute Ergebnisse, in anderen allerdings sehr schlechte, mehr Feinabstimmung könnte helfen, aber dann ist der Preis immer noch sehr hoch)
Empfehlung: nein (es zeigt in manchen Anliegen sehr gute Ergebnisse, in anderen allerdings sehr schlechte, mehr Feinabstimmung könnte helfen)
Empfehlung: nein
Empfehlung: nein
Empfehlung: ja
Empfehlung: ja (Anliegenerkennung wäre hier aber nicht der klassische Use-case, da es keine Sprachgenerierung erfordert)
Empfehlung: ja (Anliegenerkennung wäre hier aber nicht der klassische Use-case, da es keine Sprachgenerierung erfordert)