Wir haben getestet, wie gut verschiedene Large Language Modelle (LLMs) Zusammenfassungen erstellen können. Dafür haben wir automatisch erstellte Transkripte von 109 Callcenter-Telefonaten als Grundlage genommen. Wir haben explizit Transkripte ausgewählt, die keine optimale Qualität haben, um es den Modellen schwerer zu machen.
Vorab wurden die Modelle jedoch einem Vortest mit zwei beispielhaften Transkripten geprüft. Nur Modelle, die hier gut waren, sind in den ausführlichen Test genommen worden.
So haben wir getestet:
Wir haben getestet, wie gut verschiedene Large Language Modelle (LLMs) Zusammenfassungen erstellen können. Dafür haben wir automatisch erstellte Transkripte von 109 Callcenter-Telefonaten als Grundlage genommen. Wir haben explizit Transkripte ausgewählt, die keine optimale Qualität haben, um es den Modellen schwerer zu machen.
Vorab wurden die Modelle jedoch einem Vortest mit zwei beispielhaften Transkripten geprüft. Nur Modelle, die hier gut waren, sind in den ausführlichen Test genommen worden.
So haben wir getestet:
Für die Untersuchung der Anliegeneerkennung haben wir einen Use Case gewählt, der in der Praxis mit unseren Kunden umgesetzt wird. Als Datengrundlage dienen 790 E-Mailanfragen von Endkunden an den Kundenservice. Die Anfragen sind sehr variantenreich, von förmlich bis umgangssprachlich und enthalten zum Teil auch ganze Mailkonversationen. In den Mails sind insgesamt 7 verschiedene Anliegen enthalten.
Alle potentiell interessanten Modelle wurden einem Vortest mit 5 Nachrichten unterzogen. Für die ausführlichen Tests wurden nur Modelle in Betracht gezogen, die bei den Vortests akzeptable Resultate erzielten.
So haben wir getestet:
Für die Untersuchung der Anliegeneerkennung haben wir einen Use Case gewählt, der in der Praxis mit unseren Kunden umgesetzt wird. Als Datengrundlage dienen 790 E-Mailanfragen von Endkunden an den Kundenservice. Die Anfragen sind sehr variantenreich, von förmlich bis umgangssprachlich und enthalten zum Teil auch ganze Mailkonversationen. In den Mails sind insgesamt 7 verschiedene Anliegen enthalten.
Alle potentiell interessanten Modelle wurden einem Vortest mit 5 Nachrichten unterzogen. Für die ausführlichen Tests wurden nur Modelle in Betracht gezogen, die bei den Vortests akzeptable Resultate erzielten.
So haben wir getestet: