GPT-3.5 ist das Modell, das hinter ChatGPT stand, als es veröffentlicht wurde. Es ist eines der leistungsfähigsten Modelle, die OpenAI anbietet, und auch eines der preiswertesten Modelle. Aus diesem Grund wird der Test zuerst mit GPT-3.5 durchgeführt.
GPT-3.5 ist das Modell, das hinter ChatGPT stand, als es veröffentlicht wurde. Es ist eines der leistungsfähigsten Modelle, die OpenAI anbietet, und auch eines der preiswertesten Modelle. Aus diesem Grund wird der Test zuerst mit GPT-3.5 durchgeführt.
Hauptanwendungsfälle: Kann für jede Aufgabe verwendet werden, die Sprachgenerierung erfordert. Zum Beispiel Zusammenfassungen, Chatbots, Voicebots, aber auch Intent- oder Sentimenterkennung.
Inputlänge: Zwei verschiedene Modelle mit 4.096 Tokens (ca. 3.072 Wörter) oder 16.385 Tokens (ca. 12.288 Wörter)
Sprachen: 95 natürliche Sprachen
Modellgröße: 110 Milliarden Parameter
Hauptanwendungsfälle: Kann für jede Aufgabe verwendet werden, die Sprachgenerierung erfordert. Zum Beispiel Zusammenfassungen, Chatbots, Voicebots, aber auch Intent- oder Sentimenterkennung.
Inputlänge: Zwei verschiedene Modelle mit 4.096 Tokens (ca. 3.072 Wörter) oder 16.385 Tokens (ca. 12.288 Wörter)
Sprachen: 95 natürliche Sprachen
Modellgröße: 110 Milliarden Parameter
Die Qualität der Zusammenfassungen von GPT-3.5 Turbo ist in allen Bewertungskategorien sehr gut, d.h. es werden flüssige, inhaltlich korrekte sowie prägnante Zusammenfassungen erzeugt. Zum besseren Verständnis der Ergebnisqualität stellen wir in der Grafik den Bewertungen der maschinellen Zusammenfassungen die Referenzzusammenfassungen (menschliche Expert:innen) derselben Texte gegenüber. In der Kategorie Flüssigkeit erhält GPT-3.5 Turbo sogar bessere Bewertungen als menschlich geschriebene Zusammenfassungen. Daher befürworten wir einen Einsatz auch für deutsche Texte und im speziellen auch für Transkripte mit zum Teil geringer Qualität.
In unseren Test zeigten sich erhebliche Schwankungen in den Antwortzeiten, mutmaßlich aufgrund der Auslastung der OpenAI-API. Ansonsten lagen die Antwortzeiten mit einem Mittelwert und Median von ungefähr 11 Sekunden im mittleren Bereich und sind für diese Komplexität der Aufgabe und die anvisierten Anwendungsfälle akzeptabel.
Median: 11,16 Sek.
Mittelwert: 11,54 Sek.
Minimum: 0,51 Sek.
Maximum: 22,72 Sek.
Die Zusammenfassung der 109 Transkripte kosteten rund 0,07€, also rund 1 Cent für 15 Transkripte. Die Kosten für GPT-3.5 Turbo sind damit sehr gering.
Die OpenAI-Version des Modells wird in den USA gehostet. Es gibt eine Version auf Azure, die in Europa gehostet wird. Wir haben bereits Zugang zu dieser Version und können sie für Produktzwecke nutzen.
Aufgrund der guten Qualität, der akzeptablen Geschwindigkeit und des geringen Preises können wir eine klare Produktempfehlung für dieses Modell aussprechen, wenn Zusammenfassungen von deutschen Gesprächen bzw. Gesprächstranskripten gewünscht werden. Das Modell überzeugt durch ein Gesamtpaket an vollständigen, flüssig formulierten und gut strukturierten Zusammenfassungen, die nur noch etwas kürzer und prägnanter sein könnten.
Die F1-Werte für alle Anliegen sind extrem hoch (0.93–1), d.h. alle Anliegen werden präzise und zuverlässig erkannt. Das ist auch an den ebenfalls hohen Werten für Precision und Recall zu sehen. Daher befürworten wir einen Einsatz auch für deutsche Texte, insbesondere Emails im Kundenservice.
Allgemeine Erkenntnisse während des Tests waren, dass es besser funktioniert, wenn nicht explizit nach der Erkennung mehrerer Anliegen gefragt wird. Wenn das Modell sich sicher ist, dass mehrere Anliegen in einem Text existieren, dann erkennt es sie sowieso. Ein Prompt in Deutsch und Englisch gemischt (Anliegen / Beschreibungen in Deutsch, Rest in Englisch) funktioniert besser als ein komplett deutscher Prompt. Ein Beispiel erhöht die Genauigkeit marginal, das Modell ist auch zero-shot (nur mit Benennen des Anliegens) bereits sehr gut. Die Temperature als Modelleinstellung hat in unseren Beispielen keinen großen Unterschied gemacht. Wir würden eine geringe Temperature von 0.3 empfehlen.
In unseren Tests zur Anliegenerkennung zeigten sich Schwankungen in den Antwortzeiten in Form von wenigen verzögerten Antworten, mutmaßlich der Auslastung der OpenAI-API. Grundsätzlich aber sind die Antwortzeiten mit einem Mittelwert von 0,6 Sekunden relativ kurz und auch für Echtzeitanwendungen geeignet.
Median: 0,59 Sek.
Mittelwert: 0,6 Sek.
Minimum: 0,5 Sek.
Maximum: 3,49 Sek.
Die Anliegenerkerkennung für die 790 Texte kosteten 0,89€, also rund 1 Cent pro für 10 Kundenanfragen (ohne Datenbereinigung). Generell sind die Kosten für GPT-3.5 eher gering.
Die OpenAI-Version des Modells wird in den USA gehostet. Es gibt eine Version auf Azure, die in Europa gehostet wird. Wir haben bereits Zugang zu dieser Version und können sie für Produktzwecke nutzen.
Aufgrund der überdurchschnittlich guten Qualität, der recht kurzen Antwortzeiten und des geringen Preises können wir eine klare Produktempfehlung für dieses Modell aussprechen, wenn die Anliegenerkennung von deutschen Kundenanfragen per E-Mail gewünscht ist.