Hauptanwendungsfälle: Ein mehrsprachiges Modell, das auf einer Weiterentwicklung der BERT-Architektur basiert. Es wurde explizit für die Anliegenerkennung und Textklassifizierung ohne Beispiele (zero shot) trainiert.
Inputlänge: 512 Tokens (ca. 384 Wörter) – theoretisch 24.528 Tokens, über 512 Tokens sind allerdings erhebliche Geschwindigkeitseinbußen zu erwarten.
Sprachen: Evaluiert für 15 Sprachen, darunter Englisch und Deutsch. In geringerem Umfang 85 weitere Sprachen.
Modellgröße: ~86 Millionen Parameter
Hauptanwendungsfälle: Ein mehrsprachiges Modell, das auf einer Weiterentwicklung der BERT-Architektur basiert. Es wurde explizit für die Anliegenerkennung und Textklassifizierung ohne Beispiele (zero shot) trainiert.
Inputlänge: 512 Tokens (ca. 384 Wörter) – theoretisch 24.528 Tokens, über 512 Tokens sind allerdings erhebliche Geschwindigkeitseinbußen zu erwarten.
Sprachen: Evaluiert für 15 Sprachen, darunter Englisch und Deutsch. In geringerem Umfang 85 weitere Sprachen.
Modellgröße: ~86 Millionen Parameter
Die F1-Werte für die einzelnen Anliegen variieren nur mäßig (0,46–0,8). Jedoch zeigt kein einziges Anliegen ein ausgewogenes Erkennungsmuster von Recall und Precision.
Gut schneidet das Anliegen “Paket ist nicht angekommen” ab, eher schlecht dagegen “Zählerstand übermitteln, erfassen”, “Account oder Kundenkonto löschen” und “Passwort ändern”. In allen vier Fällen generalisiert das Modell zu sehr, so dass zwar die meisten Ziele erkannt werden (Recall >80% – gold), allerdings auch viele falsche Treffer gemeldet werden, wodurch die Precision (lila) vergleichsweise niedrig ausfällt.
Das gegenteilige Muster findet sich bei den noch ganz gut abschneidenden Anliegen “Ich möchte mein Geld erhalten” und “Produkt defekt/mangelhaft” sowie dem schon ungenügend erkannten Anliegen “Bitte keine Werbung mehr”. In diesen drei Fällen generalisiert das Modell zu wenig, so dass zwar kaum falsch-positive Treffer ausgegeben werden (Precision bei >89% – lila), dafür werden aber nur rund die Hälfte der eigentlichen Ziele zurückgegeben ( 61%, 51%, 34% Recall – gold).
Insgesamt liegen sechs von sieben Anliegen unter einem F1-Wert von 0,75, was im Kern bedeutet, dass einer von vier Treffern ein falsch-positiver ist und eines von vier Zielen nicht gefunden wird. Zwei von sieben Anliegen sind sogar unter einem F-Wert von 0.5. Das heißt, dass dieses Modell ohne größere Verbesserungsmaßnahmen (Training, Feinabstimmung, etc.) erhebliche Schwierigkeiten dabei hat, die Anliegen von Kunden in E-Mails zu erkennen.
Bei den Test wurden mehrere Varianten untersucht. So wurden etwa verschiedene Formulierungen der Anliegen miteinander verglichen, was z.B. die Einfachheit der Formulierung betrifft. Auch wurde der Unterschied zwischen positiven vs. negativen Aussagen evaluiert - zum Beispiel “Werbung stoppen” im Gegensatz zu “keine Werbung mehr. Zusätzlich wurde untersucht, welcher Grenzwert am besten funktioniert, ab dem eine Ähnlichkeit als Treffer gezählt wurde. Die beste Konfiguration zeigte hier den Wert 0,4. Letztlich wurde für jede Konfiguration noch getestet, ob wie es sich auswirkt, wenn ein Text mehreren Anliegen gleichzeitig zugeordnet werden darf. In unseren Testreihen ergaben sich dadurch schlechtere Ergebnisse. Die oben gezeigten Ergebnissen stellen die beste Kombination der beschriebenen Parameter dar.
In unseren Tests zur Erkennung von Anliegen ergaben sich vergleichsweise lange Antwortzeiten mit einem Mittelwert von 1,26 Sekunden pro E-Mail, weswegen die Nutzung des Models in Echtzeitanwendungen nur eingeschränkt zu empfehlen ist.
Median: N/A
Mittelwert: 1,26 Sek.
Minimum: N/A
Maximum: N/A
Diese Modell wurde lokal auf unseren Servern ausgeführt, daher ergaben sich keine direkten Kosten. In der Praxis hängt der Preis sehr stark von der Einrichtung und der verwendeten Hardware ab. Im Allgemeinen sind größere Modelle teurer als kleinere: mDeBERTa kann mit einer Größe von 100 Millionen Parametern eher als klein angesehen werden.
Lokales Hosting möglich, GPU erforderlich
Trotz der wahrscheinlich sehr geringen Kosten können wir aufgrund der allenfalls mittelmäßigen Qualität und der vergleichsweise langen Antwortzeiten keine klare Produktempfehlung für dieses Modell aussprechen, wenn der Fokus auf der Erkennung von Anliegen in deutschsprachigen Kunden-Emails liegt. Allerdings kann sich die Anwendung lohnen, wenn große Mengen an Texten eher grob (vor-)klassifiziert werden müssen und ein VIER-eigenes Hosting dringend notwendig ist, zum Beispiel aus Datenschutzgründen, da die Kosten eher gering ausfallen. Zusätzlich könnte sich die Qualität durch Feinabstimmung auch noch steigern lassen.