Hauptanwendungsfälle: Ein allgemeines Sprachmodell, das auf der Transformer-Architektur beruht. Es wurde explizit für die Anliegenerkennung und Textklassifizierung ohne Beispiele (zero shot) trainiert.
Inputlänge: 1024 Tokens (ca.768 Wörter)
Sprachen: vorwiegend Englisch
Modellgröße: ~407 Millionen Parameter
Hauptanwendungsfälle: Ein allgemeines Sprachmodell, das auf der Transformer-Architektur beruht. Es wurde explizit für die Anliegenerkennung und Textklassifizierung ohne Beispiele (zero shot) trainiert.
Inputlänge: 1024 Tokens (ca.768 Wörter)
Sprachen: vorwiegend Englisch
Modellgröße: ~407 Millionen Parameter
Die F1-Werte für die einzelnen Anliegen variieren sehr stark (0,26–0,75), jedoch nur auf mäßigen bis niedrigen Niveau. Lediglich ein Anliegen, “Passwort ändern” weist ein ausgewogenes Erkennungsmuster von Recall und Precision auf.
In allen sechs anderen Fällen generalisiert das Modell zu wenig, so dass zwar kaum falsch-positive Treffer ausgegeben werden (Precision bei bis zu 100% – lila), dafür werden aber nur ein Bruchteil der eigentlichen Ziele zurückgegeben, (niedriger Recall – gold), bei “Produkt defekt/mangelhaft” gar nur 15%.
Insgesamt liegt nur das beste Anliegen bei einem F1-Wert von 0,75, was im Kern bedeutet,dass einer von vier Treffern ein falsch-positiver ist und eines von vier Zielen nicht gefunden wird. Drei Anliegen kommen sogar nicht einmal über einen F1-Wert von 0,5. Dieses Modell eignet sich damit nicht für die Erkennung von Anliegen von Kunden in Emails.
Bei den Test variierten wir die folgenden zwei Parameter: Wir testeten verschiedene Grenzwerte (0–1), ab denen eine Ähnlichkeit als Treffer gezählt wurde. Die beste Konfiguration zeigte hier den Wert 0,5. Zusätzlich wurde für jede Konfiguration noch getestet, ob und wie es sich auswirkt, wenn ein Text mehreren Anliegen gleichzeitig zugeordnet werden darf. In unseren Testreihen ergaben sich dadurch schlechtere Ergebnisse. Auf das Testen verschiedener Promptversionen, also Formulierungen der Anliegen, verzichteten wir, weil die bisherigen Ergebnisse nicht aussichtsreich genug waren. Die nebenstehend gezeigten Ergebnisse stellen die beste Kombination der beschriebenen Parameter dar.
In unseren Tests zur Erkennung von Anliegen ergaben sich ungewöhnlich lange Antwortzeiten mit einem Mittelwert von 5,44 Sekunden pro E-Mail, die damit für Echtzeitanwendungen vollkommen ungeeignet sind.
Diese Modell wurde lokal auf unseren Servern ausgeführt, daher ergaben sich keine direkten Kosten. In der Praxis hängt der Preis sehr stark von der Einrichtung und der verwendeten Hardware ab. Im Allgemeinen sind größere Modelle teurer als kleinere: BART-large-MNL kann mit einer Größe von ~407 Millionen Parametern eher als klein angesehen werden.
Aufgrund der extrem langen Antwortzeiten und der geringen Erkennungsqualität können wir keine Produktempfehlung für dieses Modell aussprechen, wenn Sie Anliegenerkennung von deutschen Kundenanfragen (E-Mail) wünschen.