AI Modelle im Vergleich

AI Benchmark

Zusammenfassung

AI Benchmark

Hier finden Sie eine große Auswahl an Modellen, welche durch unsere Tests gelaufen sind.
Die Modelle sind unterteilt in Commercial und Open Source Modelle um Ihnen den optimalen Überblick zu gewährleisten.  
Überblicken Sie die stärken der Modelle schnell und einfach.

Zusammenfassung

AI Benchmark

Hier finden Sie eine große Auswahl an Modellen, welche durch unsere Tests gelaufen sind.
Die Modelle sind unterteilt in Commercial und Open Source Modelle um Ihnen den optimalen Überblick zu gewährleisten.  
Überblicken Sie die stärken der Modelle schnell und einfach.

Test

GPT 3.5 Familie

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Hauptanwendungsfall

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Versionen

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Unterstützte Sprachen

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Parameter size(s)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Release Datum (Version)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Stärken des Modells

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Schwächen des Modells

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Allgemeine Preis- und Hosting Informationen

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Lizenz und Möglichkeiten/Einschränkungen für die kommerzielle Nutzung (DSGVO)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Lizenz und Möglichkeiten/Einschränkungen für die kommerzielle Nutzung (DSGVO)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Allgemeine Preis- und Hosting Informationen

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Schwächen des Modells

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Stärken des Modells

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Release Datum (Version)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Parameter size(s)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Zusammenfassung / Usecases

Test purple

GPT 3.5 Familie

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Hauptanwendungsfall

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Versionen

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Unterstützte Sprachen

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Parameter size(s)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Release Datum (Version)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Stärken des Modells

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Schwächen des Modells

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Allgemeine Preis- und Hosting Informationen

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Lizenz und Möglichkeiten/Einschränkungen für die kommerzielle Nutzung (DSGVO)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Lizenz und Möglichkeiten/Einschränkungen für die kommerzielle Nutzung (DSGVO)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Allgemeine Preis- und Hosting Informationen

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Schwächen des Modells

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Stärken des Modells

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Release Datum (Version)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Parameter size(s)

GPT-3.5 Turbo ist ein allgemeines Sprachmodell, das Sprachlichen Input verstehen und sprachlichen Output erzeugen kann. Dieses Modell wurde war zeitweise die Basis von Chat-GPT. Es wurde optimiert um Antworten in sehr kurzer Zeit zu ermögliche, wodurch es für Echtzeitgespräche geeignet ist.

Zusammenfassung / Usecases

GPT-3.5 Turbo

von OpenAI

Das erste Modell, das wir bewerten, ist GPT-3.5, weil wir es für eines der besten Modelle halten, die es derzeit gibt, und weil es außerdem sehr erschwinglich ist. Die Zusammenfassungen der anderen Modelle werden mit den GPT-3.5-Zusammenfassungen zu vergleichen sein.

Qualität

Die Qualität der Zusammenfassungen von GPT3.5 Turbo ist in allen Bewertungskategorien sehr gut, d.h. es werden flüssige, inhaltlich korrekte sowie prägnante Zusammenfassungen erzeugt. Zum besseren Verständnis der Ergebnisqualität stellen wir in der Grafik den Bewertungen der maschinellen Zusammenfassungen die Referenzzusammenfassungen (menschliche Expert:innen) derselben Texte gegenüber. In der Kategorie Flüssigkeit erhält GPT3.5 Turbo sogar bessere Bewertungen als menschlich geschriebene Zusammenfassungen. Daher befürworten wir einen Einsatz auch für deutsche Texte und im speziellen auch für Transkripte mit zum Teil geringer Qualität.

Antwortgeschwindigkeit

In unseren Test zeigten sich erhebliche Schwankungen in den Antwortzeiten, mutmaßlich aufgrund der Auslastung der OpenAI-API. Ansonsten lagen die Antwortzeiten mit einem Mittelwert und Median von ungefähr 11 Sekunden im mittleren Bereich und sind für diese Komplexität der Aufgabe und die anvisierten Anwendungsfälle akzeptabel.  

 
Median: 11,16 Sek.  
Mittelwert: 11,54 Sek.  
Minimum: 0,51 Sek.  
Maximum: 22,72 Sek.

Kosten

Die Zusammenfassung der 109 Transkripte kosteten rund 0,07€, also rund 1 Cent für 15 Transkripte. Die Kosten für GPT3.5 Turbo sind damit sehr gering.

Aufwand für Setup

Der Aufwand für den Einstieg ist sehr gering. Sie müssen nur eine Aufforderung schreiben, und die Aufforderung kann ganz einfach sein. Es würde genügen, einfach zu schreiben "Fassen Sie den Text zusammen". Wir haben einige Feinabstimmungen vorgenommen, z.B. haben wir dem Modell gesagt, dass es die Namen des Agenten und des Kunden nicht verwenden soll, weil die Transkription so schlecht ist, dass man die falsch transkribierten Namen nicht in der Zusammenfassung haben möchte, sondern sie lieber "Agent" und "Kunde" nennen sollte, und wir haben auch den Hinweis gegeben, es sehr kurz zu halten.  

 
Die Rückmeldungen zu den Zusammenfassungen waren bereits sehr gut, aber einige Leute fanden es nicht gut, dass das Modell immer etwas wie "es gab ein positives 'Auf Wiedersehen'" hinzufügte, auch wenn dies nicht relevant ist. Außerdem empfanden einige die Zusammenfassungen als zu lang. Dies könnte über die Eingabeaufforderung angepasst werden.

Hosting

Die OpenAI-Version des Modells wird in den USA gehostet. Es gibt eine Version auf Azure, die in Europa gehostet wird. Wir haben bereits Zugang zu dieser Version und können sie für Produktzwecke nutzen.

Fazit und Produktempfehlung

Aufgrund der guten Qualität, der akzeptablen Geschwindigkeit und des geringen Preises können wir eine klare Produktempfehlung für dieses Modell aussprechen, wenn Zusammenfassungen von deutschen Gesprächen bzw. Gesprächstranskripten gewünscht werden. Das Modell überzeugt durch ein Gesamtpaket an vollständigen, flüssig formulierten und gut strukturierten Zusammenfassungen, die nur noch etwas kürzer und prägnanter sein könnten.

Vortest für Usecase Zusammenfassung

Um zu prüfen, welche Modelle wir detailliert testen wollen, führen wir einen Pretest mit zwei Beispieltranskripten auf Deutsch durch. Das ist wichtig, weil Publikationen zu Zusammenfassungsevaluationen uns lediglich Auskunft darüber geben, ob die Modelle für normal geschriebene englische Sprache funktionieren. Diese Ergebnisse lassen sich nicht unbedingt auf die für uns relevanten Daten übertragen. Wenn die Modelle bei den beiden Test-Texten bereits keine sinnvollen Antworten geben, ergibt ein ausführlicher Test mit menschlichen Bewertern wenig Sinn.

icon/VIER_Arrow_line_down/defaultInput Vortest Textzusammenfassungen

Input Vortest Textzusammenfassungen

Folgende Prompts haben wir standardmäßig mit den Modellen getestet. Teilweise haben wir auch noch ein modellspezifisches Refinement der Prompts durchgeführt. So ist es beispielsweise bei LLama2 wichtig, zusätzlich den System Prompt zu ändern. Folgende Prompts wurden standardmäßig getestet:

Deutsch 1:

Schreibe eine Zusammenfassung für den folgenden Text:

Deutsch 2:

Fasse den folgenden Text kurz zusammen:

Da manche Modelle nur auf Englische Prompts gut reagieren, aber Deutsch ebenso verstehen, haben wir auch diese Prompts getestet:

English 1:

Summarize the following text:

Englisch 2:

Summarize the following text in German:

Als Input für die Zusammenfassung haben wir zwei Demo-Transkripte gewählt, die verständlich und nicht zu lang sind:

Text 1:

Agent: das die Demo Sekretariat guten Tag Sie sprechen mit Frau Müller wie kann ich Ihnen weiterhelfen
Kunde: guten Tag Frau Müller hier ist der Herr Hempel
Agent: guten Tag Herr Hempel
Kunde: Frau Müller ich war gestern bei Ihnen bezüglich der Erweiterung unserer Verträge und ich bin mir nicht sicher ich glaube ich habe meine Tasche im Eingangs Bereich liegen lassen sind Sie so gut und schauen mal nach
Agent: ja na klar da gucke ich doch gleich einmal kleinen Moment bitte
Kunde: danke
Agent: du also wie Sie denn die Tasche aus Handy
Kunde: das ist eine dunkelbraune mit goldenen schnallen
Agent: Junke Braun hier mit goldenen Stein tatsächlich hier ist eine ich kann gerne einen Kurier vorbei schicken wir Ihnen die vorbei bringen
Kunde: an einen machen Sie sich keine Umstände wenn Sie noch bis 16 Uhr da sind komme ich kurz vorbei und hole sie da direkt ab
Agent: ja klar das können wir auch so machen
Kunde: alles klar dann bedanke ich mich schon mal bei Ihnen
Agent: sehr gerne Hempel dann bis nachher
Kunde: bis nachher Tschüss

Text 2:

Agent: Getränke Fritz mein Name ist Laiendecker guten Tag
Kunde: ja guten Tag Herr Laiendecker Meyer ist mein Name vom Demo Sekretariat
Kunde: gestern war von Ihnen ein Fahrer da und der hat ziemlich spät geliefert
Agent: nein
Kunde: heute früh fällt mir dann auf dass da etwas gilt
Agent: ok haben Sie eine Bestellnummer oder Lieferschein Nummer für mich
Kunde: ja dann gucke ich mal hier steht ja Lieferscheinnummer ist die 11 0 2
Agent: kann
Kunde: 4 5 8 7
Agent: so da finde ich die Firma Demo Sekretariat hier wohl
Kunde: nein
Agent: was fehlt denn
Kunde: es fehlte eine Kiste von dem Wolf Sekt und zwar den trockenen
Agent: ob ok da kümmere ich mich um eine Nachlieferung das sollte kein Problem sein
Kunde: ok wann kommt die den also heute wäre wäre schon schön
Agent: kann ich noch nicht sagen ich muss mir die Routen ansehen ich versuche mein Bestes aber ich kann Ihnen noch nicht sagen ob das heute klappt wenn dann wird es auf jeden Fall wieder später werden
Kunde: also also wäre schön wenn es heute klappt
Agent: ich kümmere mich darum
Kunde: super
Agent: ihr
Kunde: ich danke
Agent: gerne danke Ihnen auf Wiederhören

Detailliert getestet wurden lediglich Modelle, die den vorläufigen Test mit zwei Transkripten erfolgreich durchlaufen haben. Eine Menge anderer Modelle wurden nach dem Vortest bereits ausgeschlossen, darunter PaLM2 von Google.

Ergebnisse des Vortests

Mit einem Ampelsystem haben wir das Ergebnis des Vortests der einzelnen Modelle bewertet. Grün bewertete Modelle haben den Vortest gut absolviert und werden bzw. wurden im Nachgang dem ausführlichen Test unterzogen. Mit rot bewertete Modelle haben den Vortest nicht bestanden. Mit gelb markierte Modelle zeigten entweder mittelschwere Mängel oder konnten aus technischen Gründen nicht ausreichend geprüft werden.