Das auf Huggingface verfügbare Modell Flan-t5-xxl ist ein großes Sprachmodell, das für verschiedene Aufgaben der Spracherzeugung geeignet ist. Es könnte als lokal laufendes Modell ein gutes Potenzial für unsere Aufgabe der Anliegenerkennung haben.
Das auf Huggingface verfügbare Modell Flan-t5-xxl ist ein großes Sprachmodell, das für verschiedene Aufgaben der Spracherzeugung geeignet ist. Es könnte als lokal laufendes Modell ein gutes Potenzial für unsere Aufgabe der Anliegenerkennung haben.
Hauptanwendungsfälle: Modell zur Sprachgenerierung, welches für Übersetzungen, Textzusammenfassungen, Sentimentanalyse oder Anliegenerkennung verwendet werden kann. Die Qualität der Sprachgenerierung liegt hinter größeren, moderneren Modellen zurück, während beispielsweise die Anliegenerkennung ähnlich gut ist.
Inputlänge: 512 Tokens (ca. 384 Wörter) ist Basis, bis zu 2048 Tokens (ca. 1536 Wörter) trainiert
Sprachen: Englisch, Französisch, Rumänisch, Deutsch
Modellgröße: ~11 Milliarden Parameter
Hauptanwendungsfälle: Modell zur Sprachgenerierung, welches für Übersetzungen, Textzusammenfassungen, Sentimentanalyse oder Anliegenerkennung verwendet werden kann. Die Qualität der Sprachgenerierung liegt hinter größeren, moderneren Modellen zurück, während beispielsweise die Anliegenerkennung ähnlich gut ist.
Inputlänge: 512 Tokens (ca. 384 Wörter) ist Basis, bis zu 2048 Tokens (ca. 1536 Wörter) trainiert
Sprachen: Englisch, Französisch, Rumänisch, Deutsch
Modellgröße: ~11 Milliarden Parameter
Die F1-Werte für die einzelnen Anliegen variieren ein wenig (0,75–1), jedoch auf einem hohem Niveau.
Vier von sieben Anliegen zeigen ein ausgewogenes Erkennungsmuster mit sehr hohen Werten bei Precision, Recall und F1: “Produkt defekt/mangelhaft”, “Paket ist nicht angekommen”, “Passwort ändern” und “Zählerstand übermitteln, erfassen”.
In zwei Fällen, “Ich möchte mein Geld erhalten” und “Bitte keine Werbung mehr” generalisiert das Modell zu wenig, so dass zwar kaum falsch-positive Treffer ausgegeben werden (Precision bei 95–100% – lila), dafür aber nur ein Bruchteil der eigentlichen Ziele zurückgegeben werden (niedrigerer Recall – gold). Im Falle des Anliegens “Account oder Kundenkonto löschen” sind die Verhältnisse eher umgekehrt, also eine Tendenz, dass das Modell zu sehr generalisiert und eher auch falsch positive Treffer liefert. Allerdings ist das Muster nicht markant, daher nur eine Tendenz.
Insgesamt zeigt das Modell eine überdurchschnittlich gute Erkennungsrate, wenngleich zwei Anliegen mit F-Werten von 0.75 und 0.8 anzeigen, dass die Anliegenerkennung nicht durch die Bank überragend ist. Nichtsdestotrotz ist dieses Modell sehr gut geeignet, die Anliegen von Kunden in Emails zu erkennen.
Bei den Test variierten wir lediglich einen Parameter, nämlich ob die Namen der Anliegen in Deutsch oder Englisch formuliert wurden. Englische Formulierungen führten hier zu den besseren Ergebnissen.
In unseren Tests zur Erkennung von Anliegen ergaben sich sehr kurze Antwortzeiten mit einem Mittelwert von 0,07 Sekunden pro E-Mail. Das Modell ist dadurch auch für Echtzeitanwendungen geeignet.
Median: 0,07 Sek.
Mittelwert: 0,08 Sek.
Minimum: N/A
Maximum: N/A
Diese Modell wurde lokal auf unseren Servern ausgeführt, daher ergaben sich keine direkten Kosten. In der Praxis hängt der Preis sehr stark von der Einrichtung und der verwendeten Hardware ab. Im Allgemeinen sind größere Modelle teurer als kleinere: Google-FLAN-T5-XXL kann mit einer Größe von ~11 Milliarden Parametern als groß angesehen werden.
Lokales Hosting möglich, GPU erforderlich
Aufgrund der überdurchschnittlich guten Qualität, der sehr kurzen Antwortzeiten und der Möglichkeit das Modell selbst zu hosten, können wir eine klare Produktempfehlung für dieses Modell aussprechen, wenn die Erkennung von Anliegen in deutschsprachigen Kunden-Emails gewünscht wird. Das gilt insbesondere dann, wenn die Antwortzeit relevant ist.