To check which models we want to test in detail, we carry out a pre-test with two sample transcripts in German. This is important because publications on summary evaluations only tell us whether the models work for normal written English. These results are not necessarily transferable to the data relevant to us. If the models do not give meaningful answers for the two test texts, a detailed test with human raters makes little sense.
We have tested the following prompts with the models as standard. In some cases, we have also carried out a model-specific refinement of the prompts. With LLama2, for example, it is important to also change the system prompt. The following prompts were tested as standard:
German 1:
Schreibe eine Zusammenfassung für den folgenden Text:
German 2:
Fasse den folgenden Text kurz zusammen:
As some models only respond well to English prompts, but also understand German, we also tested these prompts:
English 1:
Summarize the following text:
Englisch 2:
Summarize the following text in German:
As input for the summary, we have chosen two demo transcripts that are understandable and not too long:
Text 1:
Agent: das die Demo Sekretariat guten Tag Sie sprechen mit Frau Müller wie kann ich Ihnen weiterhelfen
Kunde: guten Tag Frau Müller hier ist der Herr Hempel
Agent: guten Tag Herr Hempel
Kunde: Frau Müller ich war gestern bei Ihnen bezüglich der Erweiterung unserer Verträge und ich bin mir nicht sicher ich glaube ich habe meine Tasche im Eingangs Bereich liegen lassen sind Sie so gut und schauen mal nach
Agent: ja na klar da gucke ich doch gleich einmal kleinen Moment bitte
Kunde: danke
Agent: du also wie Sie denn die Tasche aus Handy
Kunde: das ist eine dunkelbraune mit goldenen schnallen
Agent: Junke Braun hier mit goldenen Stein tatsächlich hier ist eine ich kann gerne einen Kurier vorbei schicken wir Ihnen die vorbei bringen
Kunde: an einen machen Sie sich keine Umstände wenn Sie noch bis 16 Uhr da sind komme ich kurz vorbei und hole sie da direkt ab
Agent: ja klar das können wir auch so machen
Kunde: alles klar dann bedanke ich mich schon mal bei Ihnen
Agent: sehr gerne Hempel dann bis nachher
Kunde: bis nachher Tschüss
Text 2:
Agent: Getränke Fritz mein Name ist Laiendecker guten Tag
Kunde: ja guten Tag Herr Laiendecker Meyer ist mein Name vom Demo Sekretariat
Kunde: gestern war von Ihnen ein Fahrer da und der hat ziemlich spät geliefert
Agent: nein
Kunde: heute früh fällt mir dann auf dass da etwas gilt
Agent: ok haben Sie eine Bestellnummer oder Lieferschein Nummer für mich
Kunde: ja dann gucke ich mal hier steht ja Lieferscheinnummer ist die 11 0 2
Agent: kann
Kunde: 4 5 8 7
Agent: so da finde ich die Firma Demo Sekretariat hier wohl
Kunde: nein
Agent: was fehlt denn
Kunde: es fehlte eine Kiste von dem Wolf Sekt und zwar den trockenen
Agent: ob ok da kümmere ich mich um eine Nachlieferung das sollte kein Problem sein
Kunde: ok wann kommt die den also heute wäre wäre schon schön
Agent: kann ich noch nicht sagen ich muss mir die Routen ansehen ich versuche mein Bestes aber ich kann Ihnen noch nicht sagen ob das heute klappt wenn dann wird es auf jeden Fall wieder später werden
Kunde: also also wäre schön wenn es heute klappt
Agent: ich kümmere mich darum
Kunde: super
Agent: ihr
Kunde: ich danke
Agent: gerne danke Ihnen auf Wiederhören
Only models that successfully passed the preliminary test with two transcripts were tested in detail. A number of other models were already excluded after the preliminary test.
We used a traffic light system to evaluate the result of the pre-test of the individual models. Models rated green have passed the pre-test and will or have been subjected to the detailed test afterwards. Models marked red did not pass the pre-test. Models marked yellow either showed moderate defects or could not be tested sufficiently for technical reasons.