Um zu prüfen, welche Modelle wir detailliert testen wollen, führen wir einen Pretest mit zwei Beispieltranskripten auf Deutsch durch. Das ist wichtig, weil Publikationen zu Zusammenfassungsevaluationen uns lediglich Auskunft darüber geben, ob die Modelle für normal geschriebene englische Sprache funktionieren. Diese Ergebnisse lassen sich nicht unbedingt auf die für uns relevanten Daten übertragen. Wenn die Modelle bei den beiden Test-Texten bereits keine sinnvollen Antworten geben, ergibt ein ausführlicher Test mit menschlichen Bewertern wenig Sinn.
Folgende Prompts haben wir standardmäßig mit den Modellen getestet. Teilweise haben wir auch noch ein modellspezifisches Refinement der Prompts durchgeführt. So ist es beispielsweise bei LLama2 wichtig, zusätzlich den System Prompt zu ändern. Folgende Prompts wurden standardmäßig getestet:
Deutsch 1:
Schreibe eine Zusammenfassung für den folgenden Text:
Deutsch 2:
Fasse den folgenden Text kurz zusammen:
Da manche Modelle nur auf Englische Prompts gut reagieren, aber Deutsch ebenso verstehen, haben wir auch diese Prompts getestet:
English 1:
Summarize the following text:
Englisch 2:
Summarize the following text in German:
Als Input für die Zusammenfassung haben wir zwei Demo-Transkripte gewählt, die verständlich und nicht zu lang sind:
Text 1:
Agent: das die Demo Sekretariat guten Tag Sie sprechen mit Frau Müller wie kann ich Ihnen weiterhelfen
Kunde: guten Tag Frau Müller hier ist der Herr Hempel
Agent: guten Tag Herr Hempel
Kunde: Frau Müller ich war gestern bei Ihnen bezüglich der Erweiterung unserer Verträge und ich bin mir nicht sicher ich glaube ich habe meine Tasche im Eingangs Bereich liegen lassen sind Sie so gut und schauen mal nach
Agent: ja na klar da gucke ich doch gleich einmal kleinen Moment bitte
Kunde: danke
Agent: du also wie Sie denn die Tasche aus Handy
Kunde: das ist eine dunkelbraune mit goldenen schnallen
Agent: Junke Braun hier mit goldenen Stein tatsächlich hier ist eine ich kann gerne einen Kurier vorbei schicken wir Ihnen die vorbei bringen
Kunde: an einen machen Sie sich keine Umstände wenn Sie noch bis 16 Uhr da sind komme ich kurz vorbei und hole sie da direkt ab
Agent: ja klar das können wir auch so machen
Kunde: alles klar dann bedanke ich mich schon mal bei Ihnen
Agent: sehr gerne Hempel dann bis nachher
Kunde: bis nachher Tschüss
Text 2:
Agent: Getränke Fritz mein Name ist Laiendecker guten Tag
Kunde: ja guten Tag Herr Laiendecker Meyer ist mein Name vom Demo Sekretariat
Kunde: gestern war von Ihnen ein Fahrer da und der hat ziemlich spät geliefert
Agent: nein
Kunde: heute früh fällt mir dann auf dass da etwas gilt
Agent: ok haben Sie eine Bestellnummer oder Lieferschein Nummer für mich
Kunde: ja dann gucke ich mal hier steht ja Lieferscheinnummer ist die 11 0 2
Agent: kann
Kunde: 4 5 8 7
Agent: so da finde ich die Firma Demo Sekretariat hier wohl
Kunde: nein
Agent: was fehlt denn
Kunde: es fehlte eine Kiste von dem Wolf Sekt und zwar den trockenen
Agent: ob ok da kümmere ich mich um eine Nachlieferung das sollte kein Problem sein
Kunde: ok wann kommt die den also heute wäre wäre schon schön
Agent: kann ich noch nicht sagen ich muss mir die Routen ansehen ich versuche mein Bestes aber ich kann Ihnen noch nicht sagen ob das heute klappt wenn dann wird es auf jeden Fall wieder später werden
Kunde: also also wäre schön wenn es heute klappt
Agent: ich kümmere mich darum
Kunde: super
Agent: ihr
Kunde: ich danke
Agent: gerne danke Ihnen auf Wiederhören
Detailliert getestet wurden lediglich Modelle, die den vorläufigen Test mit zwei Transkripten erfolgreich durchlaufen haben. Eine Menge anderer Modelle wurden nach dem Vortest bereits ausgeschlossen.
Mit einem Ampelsystem haben wir das Ergebnis des Vortests der einzelnen Modelle bewertet. Grün bewertete Modelle haben den Vortest gut absolviert und werden bzw. wurden im Nachgang dem ausführlichen Test unterzogen. Mit rot bewertete Modelle haben den Vortest nicht bestanden. Mit gelb markierte Modelle zeigten entweder mittelschwere Mängel oder konnten aus technischen Gründen nicht ausreichend geprüft werden.