AI Benchmark

Summarization

Wir haben getestet, wie gut verschiedene Large Language Modelle (LLMs) Zusammenfassungen erstellen können. Dafür haben wir automatisch erstellte Transkripte von 109 Callcenter-Telefonaten als Grundlage genommen. Wir haben explizit Transkripte ausgewählt, die keine optimale Qualität haben, um es den Modellen schwerer zu machen.  

 
Vorab wurden die Modelle jedoch einem Vortest mit zwei beispielhaften Transkripten geprüft. Nur Modelle, die hier gut waren, sind in den ausführlichen Test genommen worden. Nachfolgend finden Sie die Ergebnisse der Modelle für den Anwendungsfall Zusammenfassung im Vergleich zueinander.

AI Benchmark

Summarization

Wir haben getestet, wie gut verschiedene Large Language Modelle (LLMs) Zusammenfassungen erstellen können. Dafür haben wir automatisch erstellte Transkripte von 109 Callcenter-Telefonaten als Grundlage genommen. Wir haben explizit Transkripte ausgewählt, die keine optimale Qualität haben, um es den Modellen schwerer zu machen.  

 
Vorab wurden die Modelle jedoch einem Vortest mit zwei beispielhaften Transkripten geprüft. Nur Modelle, die hier gut waren, sind in den ausführlichen Test genommen worden. Nachfolgend finden Sie die Ergebnisse der Modelle für den Anwendungsfall Zusammenfassung im Vergleich zueinander.