AI Benchmark

Zusammenfassung

Wir haben getestet, wie gut verschiedene Large Language Modelle (LLMs) Zusammenfassungen erstellen können. Dafür haben wir automatisch erstellte Transkripte von 109 Callcenter-Telefonaten als Grundlage genommen. Wir haben explizit Transkripte ausgewählt, die keine optimale Qualität haben, um es den Modellen schwerer zu machen.  

 
Vorab wurden die Modelle jedoch einem Vortest mit zwei beispielhaften Transkripten geprüft. Nur Modelle, die hier gut waren, sind in den ausführlichen Test genommen worden. Nachfolgend finden Sie die Ergebnisse der Modelle für den Anwendungsfall Zusammenfassung im Vergleich zueinander.  

 
Jeder der 109 Dialoge wurde zusätzlich von einer menschlichen Expert:in zusammengefasst, um einen Referenzwert für die maschinellen Zusammenfassungen zu erhalten.

AI Benchmark

Zusammenfassung

Wir haben getestet, wie gut verschiedene Large Language Modelle (LLMs) Zusammenfassungen erstellen können. Dafür haben wir automatisch erstellte Transkripte von 109 Callcenter-Telefonaten als Grundlage genommen. Wir haben explizit Transkripte ausgewählt, die keine optimale Qualität haben, um es den Modellen schwerer zu machen.  

 
Vorab wurden die Modelle jedoch einem Vortest mit zwei beispielhaften Transkripten geprüft. Nur Modelle, die hier gut waren, sind in den ausführlichen Test genommen worden. Nachfolgend finden Sie die Ergebnisse der Modelle für den Anwendungsfall Zusammenfassung im Vergleich zueinander.  

 
Jeder der 109 Dialoge wurde zusätzlich von einer menschlichen Expert:in zusammengefasst, um einen Referenzwert für die maschinellen Zusammenfassungen zu erhalten.