Vortest für Usecase Zusammenfassung

Um zu prüfen, welche Modelle wir detailliert testen wollen, führen wir einen Pretest mit zwei Beispieltranskripten auf Deutsch durch. Das ist wichtig, weil Publikationen zu Zusammenfassungsevaluationen uns lediglich Auskunft darüber geben, ob die Modelle für normal geschriebene englische Sprache funktionieren. Diese Ergebnisse lassen sich nicht unbedingt auf die für uns relevanten Daten übertragen. Wenn die Modelle bei den beiden Test-Texten bereits keine sinnvollen Antworten geben, ergibt ein ausführlicher Test mit menschlichen Bewertern wenig Sinn.

icon/VIER_Arrow_line_down/defaultInput Vortest Textzusammenfassungen

Input Vortest Textzusammenfassungen

Folgende Prompts haben wir standardmäßig mit den Modellen getestet. Teilweise haben wir auch noch ein modellspezifisches Refinement der Prompts durchgeführt. So ist es beispielsweise bei LLama2 wichtig, zusätzlich den System Prompt zu ändern. Folgende Prompts wurden standardmäßig getestet:

Deutsch 1:

Schreibe eine Zusammenfassung für den folgenden Text:

Deutsch 2:

Fasse den folgenden Text kurz zusammen:

Da manche Modelle nur auf Englische Prompts gut reagieren, aber Deutsch ebenso verstehen, haben wir auch diese Prompts getestet:

English 1:

Summarize the following text:

Englisch 2:

Summarize the following text in German:

Als Input für die Zusammenfassung haben wir zwei Demo-Transkripte gewählt, die verständlich und nicht zu lang sind:

Text 1:

Agent: das die Demo Sekretariat guten Tag Sie sprechen mit Frau Müller wie kann ich Ihnen weiterhelfen
Kunde: guten Tag Frau Müller hier ist der Herr Hempel
Agent: guten Tag Herr Hempel
Kunde: Frau Müller ich war gestern bei Ihnen bezüglich der Erweiterung unserer Verträge und ich bin mir nicht sicher ich glaube ich habe meine Tasche im Eingangs Bereich liegen lassen sind Sie so gut und schauen mal nach
Agent: ja na klar da gucke ich doch gleich einmal kleinen Moment bitte
Kunde: danke
Agent: du also wie Sie denn die Tasche aus Handy
Kunde: das ist eine dunkelbraune mit goldenen schnallen
Agent: Junke Braun hier mit goldenen Stein tatsächlich hier ist eine ich kann gerne einen Kurier vorbei schicken wir Ihnen die vorbei bringen
Kunde: an einen machen Sie sich keine Umstände wenn Sie noch bis 16 Uhr da sind komme ich kurz vorbei und hole sie da direkt ab
Agent: ja klar das können wir auch so machen
Kunde: alles klar dann bedanke ich mich schon mal bei Ihnen
Agent: sehr gerne Hempel dann bis nachher
Kunde: bis nachher Tschüss

Text 2:

Agent: Getränke Fritz mein Name ist Laiendecker guten Tag
Kunde: ja guten Tag Herr Laiendecker Meyer ist mein Name vom Demo Sekretariat
Kunde: gestern war von Ihnen ein Fahrer da und der hat ziemlich spät geliefert
Agent: nein
Kunde: heute früh fällt mir dann auf dass da etwas gilt
Agent: ok haben Sie eine Bestellnummer oder Lieferschein Nummer für mich
Kunde: ja dann gucke ich mal hier steht ja Lieferscheinnummer ist die 11 0 2
Agent: kann
Kunde: 4 5 8 7
Agent: so da finde ich die Firma Demo Sekretariat hier wohl
Kunde: nein
Agent: was fehlt denn
Kunde: es fehlte eine Kiste von dem Wolf Sekt und zwar den trockenen
Agent: ob ok da kümmere ich mich um eine Nachlieferung das sollte kein Problem sein
Kunde: ok wann kommt die den also heute wäre wäre schon schön
Agent: kann ich noch nicht sagen ich muss mir die Routen ansehen ich versuche mein Bestes aber ich kann Ihnen noch nicht sagen ob das heute klappt wenn dann wird es auf jeden Fall wieder später werden
Kunde: also also wäre schön wenn es heute klappt
Agent: ich kümmere mich darum
Kunde: super
Agent: ihr
Kunde: ich danke
Agent: gerne danke Ihnen auf Wiederhören

Detailliert getestet wurden lediglich Modelle, die den vorläufigen Test mit zwei Transkripten erfolgreich durchlaufen haben. Eine Menge anderer Modelle wurden nach dem Vortest bereits ausgeschlossen, darunter PaLM2 von Google.

Ergebnisse des Vortests

Mit einem Ampelsystem haben wir das Ergebnis des Vortests der einzelnen Modelle bewertet. Grün bewertete Modelle haben den Vortest gut absolviert und werden bzw. wurden im Nachgang dem ausführlichen Test unterzogen. Mit rot bewertete Modelle haben den Vortest nicht bestanden. Mit gelb markierte Modelle zeigten entweder mittelschwere Mängel oder konnten aus technischen Gründen nicht ausreichend geprüft werden.




Beispiel einer Kontaktbearbeitung

02 - CRM-Integration

Durch Anbindung externer Datenquellen können die Kundenanfragen mit Kontext angereichtert werden. So schaut die ACD z.B. im CRM oder ERP nach, ob es Infos zu dieser Rufnummer gibt.

So funktioniert's

Non-Voice-Kundenbefragung

Fragen festlegen

Die zu beantwortenden Fragen können Sie selbst festlegen. Die Fragen können geschlossen oder offen formuliert sein, z.B. zur Verständlichkeit der E-Mail, zu Reaktionszeiten etc.

Auswahl der Teilnehmenden

Die Auswahl der Teilnehmer:innen an der Befragung kann zufällig erfolgen, quoten- bzw. prozentbasiert (beispielsweise „jeder 3. Anrufer“ etc.) oder aufgrund von Kontakt-Informationen, die in Drittsystemen hinterlegt sind („Gold-Kunde“, Anrufer aus definierten Vorwahlbereichen u.v.m ).

Link zur Befragung schicken

Sie können Ihren Kund:innen beispielsweise im Rahmen einer Kampagne den Link zur Webbefragung etwa per E-Mail oder WhatsApp schicken oder bei aktuellen Anfragen regelmäßig im Anhang mitschicken. Um Mehrfachteilnahmen auszuschließen, stehen optional einmalige Transaktionsnummern (TAN) in den Links zur Verfügung.

Beantwortung der Fragen

Die Befragung erfolgt über ein Web-Formular, das im gewünschten Unternehmens-Layout gestaltet ist.

Auswertung

Die Ergebnisse werden automatisiert ausgewertet, grafisch aufbereitet und stehen passwortgeschützt und minutenaktuell online bereit.

Jetzt CEX Trendradar 2024 anfordern oder downloaden

Wirtschaftswissenschaftler Prof. Dr. Nils Hafner und Customer Experience-Experte Harald Henn stellen die wichtigsten Trends für das Customer Experience Management für das Jahr 2024 vor.  

 
Im CEX Trendradar 2024 erwarten Sie:  

  • eine Management Summary,  
  • die Beschreibung und Einordnung der 20 Einzeltrends,  
  • vier spannende Leuchtturmprojekte  
  • sowie das VIER CX-Leistungsspektrum.  

 
Den CEX Trendradar gibt es als Printversion oder zum Download.  

 
Jetzt gleich über dieses Formular anfordern!  

 
Sollte das Formular nicht angezeigt werden, laden Sie diese Seite bitte neu.

icon/VIER_Arrow_line_down/default 

Input Vortest Anliegenerkennung

Damit die Modelle die Anliegen erkennen können, haben wir einen Prompt formuliert, den wir bei GPT3.5 Turbo bereits auf Funktionalität getestet hatten:

prompt = """Please recognize if the following examples contain one of these intents:

  1. Produkt defekt/mangelhaft. This can contain every possible information that conveys that a product is damaged, defective, deficient or broken in any way. Example: "Hallo. Gestern kam die Dunstabzugshaube. Haben die heute ausgepackt. Wie auf den Fotos zu sehen ist , ist diese verbeult. Das ist so nicht in Ordnung. Was machen wir jetzt?"

  2. Paket nicht erhalten. This intent means that a recipient did not (yet) get a package or order or something similar as they expected. This may also concern a partial shipment. This is an example: Guten Tag - ich warte noch auf meine Bestellung?

  3. Ich möchte mein Geld erhalten. This intent means the sender wants to receive money from addressee, e.g. (partial) reimbursement (Erstattung) of (faulty) payment, reception of promised transfers/discounts etc. Also for reimbursement of shipment costs (Versandgebühren). Also for accepting money or complaints that money is not there yet. Example: "die obige Bestellung ist seit Monaten in Bearbeitung. Ich würde gern von diesem Kauf zurücktreten, wenn ich das richtig sehe, ist mein Konto mit diesem Betrag bereits belastet worden. Allerdings würde ich gerne mein Gutscheinguthaben zurückerhalten. Ich freue mich auf Ihre Nachricht.";

  4. Passwort ändern, neues Passwort bekommen

  5. Zählerstand übermitteln, erfassen. This intent means that someone wants to specify or transmit a meter reading. The meter reading may be the actual one or a past meter reading.

  6. Account oder Kundenkonto löschen. Example: Bitte löschen Sie alle meine Daten.

  7. Bitte keine Werbung, Newsletter der Emails mehr schicken. customers wants to be removed from the mailing list so that they will not receive any further advertising. A specific case might be to unsubscribe from a newsletter. Example: Bitte streichen Sie meine Mailanschrift aus Ihrer Kundenliste!

If you find one of the intents in the data, please indicate that with the according number 1,2,3,4,5,6 or 7. Your answer should only contain that number and no explanation.
If you find none of these intents, please indicate that with a 0.
Which intent do you find in the following messages: """

Für die Modelle, die eine zero-shot Erkennung haben, haben wir die Benennungen so getestet:

Produkt defekt oder mangelhaft, Paket nicht erhalten, möchte Geld bekommen, passwort ändern, Zählerstand, Konto oder Kundenkonto oder Account löschen, keine Werbung oder Newsletter oder Emails mehr schicken

Hinter dem Prompt oder den Benennungen der möglichen Anliegen haben wir diese Beispiele eingefügt:

  1. Produkt Defekt

ID778:
Max Mustermann
mustermann@test.com

Bestellnummer: 244555771 ==> www.collette.com Ticket: 1356686, außer dem fehlenden Ladegerät wurden noch weitere Mängel festgestellt: Achse verbogen und Tür lässt sich nicht schließen. Der Artikel wird zurückgeschickt! Mfg

  1. Paket nicht erhalten

ID6372:
"Sehr geehrter Herr oder Frau, Ich habe aber ein Problem mit der Bestellung Unten. DHL teilte mir mit, dass das Paket nicht zugestellt wurde, aber zur Abholung bereit war. Sie schickten sie an eine Abholort, die jedoch sehr weit von mir entfernt ist. Ich habe sie kontaktiert, um sie zu bitten, dass sie zur nahegelegenen Abholstation umgeleitet werden, wo normalerweise Pakete geliefert sind. Sie sagen, dass sie eine Anfrage gestellt haben, um dies zu tun, aber sie können nicht sicher sein, dass es geschehen wird. Sie sagen auch jetzt das ich nur zwei Tage habe es abzuholen, und in dieser Zeit werde ich nicht die Zeit haben (mehr als eine Stunde) um das zu tun. Das heißt, dass ich das Paket aufgrund eines DHL-Fehlers möglicherweise nicht geliefert wird. In so einem Fall habe ich das Produkt bestellt, bezahlt, und trotzdem nicht bekommen; was mache ich dann?
Danke für Ihre Hilfe.
Mit freundlichen Grüßen,
Max Mustermann


From: www.dhl.de <noreply@dhl.de>
Sent: Monday, August 19, 2019 15:10
To: DHL <dhl@dhl.com>
Subject: Ihre Bestellung wurde versendet
Ihre Bestellung wurde versendet | www.jekaterina.com - Ihre Online-Apotheke | Medikamente und Kosmetik zu günstigen Preisen | <www.bertie.com> <www.sybyl.com> Schmerzen • <www.veda.com> Erkältung • <www.eugenius.com> Beauty&Pflege • <www.cyndy.com> Reinhold&Darm Ihre Bestellung wurde versendet Sehr geehrter Herr Haywood Piras, den aktuellen Versandstatus Ihrer Lieferung können Sie hier unter Eingabe der Bestellnummer 42359160 und Ihrer E-Mail-Adresse einsehen. www.luciana.com> aktueller Versandstatus Alternativ finden Sie hier Ihre Sendungsnummer: 123851828758 Ihre Bestellung Bestellnummer: 42359160 Bestelldatum: Sonntag, 18. August 2019 Zahlungsweise: PayPal Lieferanschrift: Haywood PirasSteinhälde 237, 15913 Wußwerk <www.bertie.com> Zum Shop <www.kally.com> <www.leeann.com> <www.emerson.com> <www.giovanna.com> <www.hatice.com> <www.karleen.com> <www.brina.com> <www.ilan.com> <www.basti.com> <www.gritt.com> Sicher bezahlen <www.karrah.com> <www.zoe.com> <www.aysun.com> <www.goldie.com> <www.allegra.com> Schnell geliefert - kostenlos**Wählen Sie selbst! <www.timika.com> <www.rachel.com> ** Alle Bestellungen, die Mo-Fr bis 16:00 eingehen und ausschließlich Produkte mit dem Hinweis ""sofort lieferbar, solange der Vorrat reicht"" enthalten, verlassen in der Regel noch am selben Tag unser Haus. Gratis Versand gilt ab € 20,00 Warenwert. www.dorelia.com <www.cherelle.com> Bitte antworten Sie nicht auf diese Nachricht. Diese Systemnachricht wurde automatisch erstellt und Antworten auf diese E-Mailadresse können nicht bearbeitet werden. Wenn Sie uns kontaktieren möchten, nutzen Sie einfach die in dieser E-Mail angegebenen Kontaktmöglichkeiten. <www.chriss.com>"

  1. Geld zurück erhalten

ID24725:
"Mein Käthe Kruse Werksverkauf - Ihr Anliegen zum Stromvertrag - Kd. Nr. 4024388. Der Kunde teilt folgendes über den Mein-Käthe Kruse Werksverkauf-Messenger mit: Kundennummer: 4024388 Benutzernamen/Email-Adresse: max@mustermann.com Nachricht: Hi, Ich habe ein Guthaben €52,30 von rechnung datum 15.03.2018. Bitte überweisen Sie diese Guthaben von €52,30 zu mein konto? Die konto details haben Sie schon! Danke."

  1. Passwort ändern

ID105:
Hallo zusammen, bitte sagen Sie mir wo ich mein Benutzerkennwort ändern kann? Vielen Dank, Max Mustermann

  1. Account löschen

ID121:
"Name: Max Mustermann Email: max@mustermann.com Telefon: Nachricht: Schön Guten Morgen, Ich möchte gerne meine Daten und Account bei Unternehmen A löschen, Wo kann ich das machen?? MfG Max Mustermann"

 


CEX Trendradar - Jahresreport 2024

Ihre Entscheidungshilfe im Kundenmanagement

AI Benchmark

KI-Modelle

Hier finden Sie einen Überblick der von uns getesteten KI-Modelle mit einer ersten Einschätzung. Für die bessere Übersicht haben wir zwischen Open Source- und kommerziellen Modellen unterschieden.  

AI Benchmark

KI-Modelle

Hier finden Sie einen Überblick der von uns getesteten KI-Modelle mit einer ersten Einschätzung. Für die bessere Übersicht haben wir zwischen Open Source- und kommerziellen Modellen unterschieden.  

Test

GPT 3.5 Familie

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Hauptanwendungsfall

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Versionen

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Unterstützte Sprachen

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Parameter size(s)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Release Datum (Version)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Stärken des Modells

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Schwächen des Modells

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Allgemeine Preis- und Hosting Informationen

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Lizenz und Möglichkeiten/Einschränkungen für die kommerzielle Nutzung (DSGVO)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Lizenz und Möglichkeiten/Einschränkungen für die kommerzielle Nutzung (DSGVO)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Allgemeine Preis- und Hosting Informationen

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Schwächen des Modells

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Stärken des Modells

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Release Datum (Version)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Parameter size(s)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Zusammenfassung / Usecases