FLAN-T5-XL

von Google

Das auf Huggingface verfügbare Modell Flan-T5-XL ist ein großes Sprachmodell, das für verschiedene Aufgaben der Spracherzeugung geeignet ist. Da wir bei unseren Experimenten mit dem Flan-XXLl-Modell einen guten Eindruck gewonnen haben, möchten wir auch andere verfügbare Versionen testen.

FLAN-T5-XL

von Google

Hauptanwendungsfälle: Modell zur Sprachgenerierung, welches für Übersetzungen, Textzusammenfassungen, Sentimentanalyse oder Anliegenerkennung verwendet werden kann. Die Qualität der Sprachgenerierung liegt hinter größeren, moderneren Modellen zurück, während beispielsweise die Anliegenerkennung ähnlich gut ist.

Inputlänge: 512 Tokens (ca. 384 Wörter) ist Basis, bis zu 2048 Token (ca. 1536 Wörter) trainiert

Sprachen: Englisch, Französisch, Rumänisch, Deutsch

Modellgröße: ~3 Milliarden Parameter

Inputlänge: 512 Tokens (ca. 384 Wörter) ist Basis, bis zu 2048 Token (ca. 1536 Wörter) trainiert

Sprachen: Englisch, Französisch, Rumänisch, Deutsch

Modellgröße: ~3 Milliarden Parameter

Testergebnisse

Use case: Anliegenerkennung

Qualität

Die F1-Werte für die einzelnen Anliegen liegen durchweg auf hohem Niveau (0,8–1).

In vier Fällen scheint das Modell etwas zu wenig zu generalisieren, so dass zwar kaum falsch-positive Treffer ausgegeben werden (hohe Precision – lila), dafür werden aber nur ein Teil der eigentlichen Ziele zurückgegeben, (niedrigerer Recall – gold). Markant ist dieses Ungleichgewicht allerdings nur bei dem Anliegen “Ich möchte mein Geld erhalten”. Die ausgeglichensten Muster zeigen die Anliegen “Paket ist nicht angekommen” und “Passwort ändern”, die prinzipiell die geringste sprachliche Variation aufweisen.

Insgesamt zeigt sich aber eine solide Erkennungsgüte. Daher befürworten wir den Einsatz diese Modells für Erkennung von Anliegen in deutschen Texten, insbesondere Kundenservice-Emails.

Bei den Test variierten lediglich einen Parameter, nämlich ob die Namen der Anliegen in Deutsch oder Englisch formuliert wurden. Englische Anliegen führten hier zu den besseren Ergebnissen.

Studiendesign

Antwortzeit

In unseren Tests zur Erkennung von Anliegen ergaben sich sehr kurze Antwortzeiten mit einem Mittelwert von 0,1 Sekunden pro E-Mail. Das Modell ist dadurch auch für Echtzeitanwendungen geeignet.

Median: 0,10 Sek.
Mittelwert: 0,12 Sek.
Minimum: N/A
Maximum: N/A

Kosten

Diese Modell wurde lokal auf unseren Servern ausgeführt, daher ergaben sich keine direkten Kosten. In der Praxis hängt der Preis sehr stark von der Einrichtung und der verwendeten Hardware ab. Im Allgemeinen sind größere Modelle teurer als kleinere: Google-FLAN-T5-XL kann mit einer Größe von ~3 Milliarden Parametern als groß angesehen werden.

Hosting

Lokales Hosting möglich, GPU erforderlich

Produktempfehlung

Aufgrund der guten Qualität, der sehr kurzen Antwortzeiten und der Möglichkeit das Modell selbst zu hosten können wir eine klare Produktempfehlung für dieses Modell aussprechen, wenn die Erkennung von Anliegen in deutschsprachigen Kunden-Emails gewünscht wird. Das gilt insbesondere dann, wenn die Antwortzeit relevant ist.