Wir haben getestet, wie gut verschiedene Large Language Modelle (LLMs) Zusammenfassungen erstellen können. Dafür haben wir automatisch erstellte Transkripte von 109 Callcenter-Telefonaten als Grundlage genommen. Wir haben explizit Transkripte ausgewählt, die keine optimale Qualität haben, um es den Modellen schwerer zu machen.
Vorab wurden die Modelle jedoch einem Vortest mit zwei beispielhaften Transkripten geprüft. Nur Modelle, die hier gut waren, sind in den ausführlichen Test genommen worden. Nachfolgend finden Sie die Ergebnisse der Modelle für den Anwendungsfall Zusammenfassung im Vergleich zueinander.
Jeder der 109 Dialoge wurde zusätzlich von einer menschlichen Expert:in zusammengefasst, um einen Referenzwert für die maschinellen Zusammenfassungen zu erhalten.
Wir haben getestet, wie gut verschiedene Large Language Modelle (LLMs) Zusammenfassungen erstellen können. Dafür haben wir automatisch erstellte Transkripte von 109 Callcenter-Telefonaten als Grundlage genommen. Wir haben explizit Transkripte ausgewählt, die keine optimale Qualität haben, um es den Modellen schwerer zu machen.
Vorab wurden die Modelle jedoch einem Vortest mit zwei beispielhaften Transkripten geprüft. Nur Modelle, die hier gut waren, sind in den ausführlichen Test genommen worden. Nachfolgend finden Sie die Ergebnisse der Modelle für den Anwendungsfall Zusammenfassung im Vergleich zueinander.
Jeder der 109 Dialoge wurde zusätzlich von einer menschlichen Expert:in zusammengefasst, um einen Referenzwert für die maschinellen Zusammenfassungen zu erhalten.
GPT-4 erreicht in allen Kategorien höhere Werte als die Referenzzusammenfassungen und ist in allen Kategorien zudem sehr nahe der möglichen Höchstbewertung. Das zeigt, dass das Zusammenfassen kurzer Texte mit teils geringer Qualität genau den Kompetenzbereich dieses Sprachgenerierungsmodells trifft.
Die Qualität der Zusammenfassungen von Claude 2 bewegen sich in etwa auf dem Niveau der menschengeschriebenen Referenz. Zwar werden die Texte von Claude 2 im Allgemeinen besser bewertet und sind auch flüssiger zu lesen, allerdings wurden in den Tests einige Zahlenreihen fehlerhaft in die Zusammenfassung übernommen. Auch die Prägnanz liegt ein wenig unter den menschlichen Vergleichswerten.
Abgesehen von der Kategorie "Flüssigkeit", wo alle Modelle etwas über den Referenzzusammenfassungen rangieren, bleiben die übrigen Modelle in den anderen Kategorien etwas darunter. GPT-3.5 Turbo, Claude v1 und Llama2-7B-Chat sind dabei etwa gleichauf. Allen gemein ist, dass sie vor allem bei der Prägnanz, d.h. der Kürze der Zusammenfassung und bei der Struktur der Texte, weniger gut bewertet werden als die Referenz. Auch sind bei allen drei Modellen mehr falsche Informationen (Halluzinationen) in den Zusammenfassungen enthalten als bei den Referenzen, wenngleich auch sehr wenige. Die Qualität aller drei Modelle ist allerdings auch als sehr gut einzuschätzen.
Luminous Supreme Control zeigt dagegen noch größere Schwächen, indem es mehr falsche Informationen in die Zusammenfassungen einbaut (Halluzinationen) und relevante Inhalte vergisst (Vollständigkeit). Dadurch fällt die allgemeine Bewertung letztlich auch geringer aus. In Bezug auf Flüssigkeit, Struktur und Relevanz ist es auf dem Niveau der drei vorhergenannten Modelle.
Erwähnenswert ist, dass sowohl Llama2-7B-Chat als auch Luminous Supreme Control in unseren Tests einige Totalausfälle produzierten, bei denen zum Beispiel der Dialog nur wiederholt statt zusammengefasst wurde. Weiterhin produziert Llama2-7B-Chat derzeit nur englische Zusammenfassungen von deutschen Texten, die je nach Verwendung noch übersetzt werden müssen.
Die Bewertung erfolgte anhang einer Likert-Skala. Angegeben sind jeweils die erreichten Punkte. Als Vergleich dazu die Ergebnisse menschengeschriebener Referenzzusammenfassungen:
Keine Halluzinationen: 4,82
Vollständigkeit: 4,85
Struktur: 4,97
Flüssigkeit: 4,89
Relevanz: 4,78
Allgemeine Bewertung: 4,79
Keine Halluzinationen: 4,05
Vollständigkeit: 4,19
Struktur: 4,314
Flüssigkeit: 4,31
Relevanz: 3,88
Allgemeine Bewertung: 3,86
Keine Halluzinationen: 4,30
Vollständigkeit: 4,51
Struktur: 4,64
Flüssigkeit: 4,60
Relevanz: 4,42
Allgemeine Bewertung: 4,36
Keine Halluzinationen: 4,06
Vollständigkeit: 4,39
Struktur: 4,09
Flüssigkeit: 4,29
Relevanz: 3,59
Allgemeine Bewertung: 3,78
Keine Halluzinationen: 3,46
Vollständigkeit: 3,34
Struktur: 4,06
Flüssigkeit: 4,08
Relevanz: 3,72
Allgemeine Bewertung: 3,25
Keine Halluzinationen: 4,12
Vollständigkeit: 4,20
Struktur: 4,01
Flüssigkeit: 4,12
Relevanz:3,69
Allgemeine Bewertung: 3,64
Bei den Antwortzeiten brauchen die GPT-Modelle mit 10–11 Sekunden am längsten. Claude v1, Claude 2 und Luminous Supreme Control rangieren im Mittelfeld und sind annähernd doppelt so schnell mit 6–7 Sekunden. Das lokal ausgeführte Llama2-7B-Chat Modell zeigt hier die kürzesten Antwortzeiten, wobei erwähnt werden muss, dass sich in einem Anwendungssetup etwas längere Antwortzeiten ergeben würden. Auch ist eine etwaige Übersetzung der englischen Zusammenfassung des Llama2-7b-Chat-Modells nicht in den Antwortzeiten reflektiert.
Grundsätzlich sind aber für den hier vorliegenden Anwendungsfall alle Antwortzeiten absolut akzeptabel. Qualität ist hier weitaus wichtiger als Geschwindigkeit.
Mittel: 10,2 Sek.
Median: 9,7 Sek.
Mittel: 11,54 Sek.
Median: 11,16 Sek.
Mittel: 6,67 Sek.
Median: 6 Sek.
Mittel: 6,87 Sek.
Median: 7 Sek.
Mittel: 10,02 Sek.
Median: 6,6 Sek.
Mittel: 3,58 Sek.
Median: 3,18 Sek.
(für 109 Transkripte)
Die Kosten für GPT-3.5 Turbo sind mit Abstand die geringsten. Claude v1 und Claude 2 sind rund zehnmal so teuer, dafür liefert zumindest Claude 2 aber auch hochwertigere Zusammenfassungen. GPT-4 ist mit ca. 2 Cent pro Zusammenfassung wiederum doppelt so teuer wie Claude 2, liefer dafür aber auch eine überragende Qualität. Noch teuer ist nur Luminous Supreme Control mit ca. 3,5 Cent pro Zusammenfassung.
Llama2-7B-Chat wurde lokal ausgeführt, so dass der Preis sehr stark von der Einrichtung und der verwendeten Hardware abhängt. Im Allgemeinen ist das Betreiben von größeren Modelle teurer als das von kleineren.
Kosten: 2,22€ (2,37$), etwa 2 Cent pro Zusammenfassung
Kosten: 0,092 € (0,098 $), etwa 0,08 Cent pro Zusammenfassung
Kosten: 1,18 € (1,26 $), etwa 1 Cent pro Zusammenfassung
Kosten: 0,76 € (0,81 $), etwa 0,7 Cent pro Zusammenfassung
Kosten: 3,82€, etwa 3.5 Cent pro Zusammenfassung
Kosten: keine (eigene GPUs)
Hosting: Europa via Azure
Hosting: Europa via Azure
Hosting: derzeit nur US und UK, Zugriff aus Europa nur via VPN (01/2024)
Hosting: derzeit nur US und UK, Zugriff aus Europa nur via VPN (Stand: 01/2024)
Hosting: Deutschland
Hosting: VIER Frankfurt
Prinzipiell war der Aufwand für alle cloud-basierten Modelle sehr gering. Die Modelle sind durch einen Prompt einfach zu bedienen und brauchen kein Fine-Tuning, um bereits entsprechend hochwertige Zusammenfassungen zu erzeugen. Lediglich bei Luminous Supreme Control bedurfte es etwas mehr Prompt-Engineering. Letztlich mussten wir ein Beispiel einfügen, um die gewünschten Zusammenfassungen erzeugen zu können.
Auch für das Llama-7B-Chat Modell mussten wir den Prompt etwas optimieren. Zudem musste das Modell lokal aufgesetzt werden.
Jedoch sind alle genannten Aufwände vergleichsweise gering gegenüber der Option, ein Modell von Grund auf für die Zusammenfassung zu trainieren.
Aufwand: gering
Aufwand: gering
Aufwand: gering
Aufwand: gering
Aufwand: eher gering
Aufwand: mittel
Alle Zusammenfassungen waren sehr gut. Keine Ausfälle. Die Aufforderung muss deutsch sein, sonst sind die Zusammenfassungen viel schlechter.
Alle Zusammenfassungen relativ gut. Keine Totalausfälle.
Kürzere Zusammenfassungen, die sehr auf den Punkt waren. Keine Ausfälle. Eher grammatische Fehler als die anderen Modelle. Wenn Halluzinationen in den Zusammenfassungen waren, betrafen sie Zahlen.
Einige Zusammenfassungen waren eher ein kürzerer Dialog als eine tatsächliche Zusammenfassung. Könnte evtl. mit dem Prompt gelöst werden.
7 Texte konnten nicht bewertet werden, weil sie für das Kontextfenster zu lang waren. Von den 102 übrigen Texten hatte das Modell 4 Totalausfälle, wo es in einer Schleife gefangen war oder nur etwas aus dem Prompt wiederholt hat.
Vor dem Hintergrund der Größe des Modells waren die Zusammenfassungen auf Englisch gut. Allerdings gab es 9 Zusammenfassungen, bei denen das Modell nur Teile des Inputs wiederholt hat. Das ist sogar mehr als bei Luminous. Allerdings hatten die anderen Zusammenfassungen eine höhere Qualität.
(unperfekte deutsche Transkripte)
Empfehlung: ja
Empfehlung: ja
Empfehlung: ja
Empfehlung: ja
Empfehlung: vorsichtig ja, wenn ein Kunde unbedingt ein in Deutschland gehostetes Modell haben möchte
Empfehlung: vorsichtig ja, wenn ein Kunde unbedingt ein von uns gehostetes Modell haben möchte