Bisherige Studien zur Qualität von Textzusammenfassungen haben gezeigt, dass nicht nur die Größe des Large Language Models (LLM) ausschlaggebend ist, sondern auch, ob das Modell explizit auf menschliche Präferenzen trainiert wurde. LLMs, die darauf trainiert wurden, schneiden bei Zusammenfassungen sogar besser ab, als Modelle, die auf spezifische Textsorten, z.B. Zeitungsartikel, feingetuned wurden. Weiterhin zeigten Studien, dass maschinelle Auswertungen der Qualität von Textzusammenfassungen die menschlichen Bewertungen von Zusammenfassungen nicht ersetzten können, da die Ergebnisse stark auseinander gehen. Die einschlägigen Studien wurden mehrheitlich anhand englischer Zeitungsartikel durgeführt.
Wir haben uns entschieden, die Qualität der Zusammenfassung für einen Use Case zu prüfen, den wir so auch mit unseren Kunden umsetzten. Dafür haben wir maschinelle Transkripte von 109 Callcenter-Telefonaten als Grundlage genommen. Wir haben explizit Transkripte ausgewählt, die keine optimale Qualität haben, um es den Modellen schwerer zu machen. Aufgrund der Entstehung, als spontaner gesprochener Dialog, beinhalten die Daten eine Vielzahl von unvollständigen sprachlichen Strukturen im Unterschied beispielsweise zu einem redigierten Zeitungstext.
Bevor wir in einen detaillierten Test gegangen sind, haben wir die Qualität der Dialoge mit zwei beispielhaften Transkripten geprüft. Nur Modelle, die hier gut waren, sind in den ausführlichen Test genommen worden, dessen Ergebnisse hier aufgeführt werden.
Jeder der 109 Dialoge wurde zusätzlich von einer menschlichen Expert:in zusammengefasst, um einen Referenzwert für die maschinellen Zusammenfassungen zu erhalten. Zudem ließen wir von jedem getesteten LLM eine knappe Zusammenfassung in deutscher Sprache erzeugen.
Die Zusammenfassungen der LLMs und die Referenzusammenfassungen wurden von menschlichen Expert:innen in 6 Qualitätskriterien anhand einer 5-Punkte Skala (Likert) bewertet.
Zudem wurden sowohl die Antwortzeit des Modells untersucht, als auch die Kosten, die das Modell für den Anwendungsfall deutscher Zusammenfassungen verursacht hat.