Claude 2

von Anthropic

Das Modell wurde gerade veröffentlicht und erste Tests haben gezeigt, dass es besser sein könnte als die anderen Modelle, die wir zuvor getestet haben. Deshalb wollten wir es sofort ausprobieren, noch bevor der API-Zugang von Deutschland aus möglich ist.

Claude 2

von Anthropic

Hauptanwendungsfälle: Kann ähnlich wie GPT-4 für jegliche Form der Sprachgenerierung verwendet werden, beispielsweise zur kreativen Contenterstellung, Textzusammenfassung, Texteditierung, für tiefgehende Dialoge, Verständnis komplexer Zusammenhänge oder Coding.

Inputlänge: 100.000 Tokens (ca. 300 Seiten Fließtext)

Sprachen: optimal in Englisch, aber auch möglich in mindestens 43 weiteren Sprachen

Modellgröße: ~130 Milliarden Parameter

Inputlänge: 100.000 Tokens (ca. 300 Seiten Fließtext)

Sprachen: optimal in Englisch, aber auch möglich in mindestens 43 weiteren Sprachen

Modellgröße: ~130 Milliarden Parameter

Testergebnisse

Use case: Zusammenfassung

Qualität

Claude 2 bietet sehr gute Zusammenfassungen. In unserem Test wurden die Zusammenfassungen fast identisch zu menschlichen Zusammenfassungen bewertet, vor allem in den Kategorien “Vollständigkeit” und “Struktur”. Der hohe Wert bei “Keine Halluzinationen” zeigt, dass kaum falsche Informationen in den Zusammenfassungen auftauchen. Ferner betrafen diese ausschließlich Zahlen, also z.B. fehlerhafte Telefonnummern. Die zweite Kategorie, in der die Zusammenfassungen von Claude 2 ein wenig schlechter bewertet wurden als die menschlichen Zusammenfassungen, ist “Relevanz”, also dass die Zusammenfassung nur die wichtigsten Aspekte enthält und möglichst kurz ist. Dagegen schneidet Claude 2 bei “Flüssigkeit” deutlich besser und auch bei der allgemeinen Bewertung sichtbar besser ab als menschliche Zusammenfassungen.

Zwar sind die Bewertungen für GPT4 in allen Kategorien noch besser, aber Claude 2 ist hier auf einem Niveau mit menschlichen Zusammenfassungen. Das Modell kann aus der Qualitätsperspektive definitiv für die Zusammenfassung von deutschsprachigen unperfekten Transkripten eingesetzt werden.

Studiendesign

Antwortgeschwindigkeit

Die Antwortgeschwindigkeit war in unserem Test sehr gut für den Anwendungsbereich. Die Antwortzeit lag durchschnittlich bei ca. 6 Sekunden. Die Schwankungen waren deutlich geringer als bei den meisten anderen Modellen.

Median: 6 Sek.
Mittelwert: 6,67 Sek.
Minimum: 3 Sek.
Maximum: 15 Sek.

Kosten

Die Zusammenfassung der 109 Transkripte kosteten rund 1,26€, also rund 0,01 € pro Transkript. Die Kosten liegen deutlich höher als bei GPT3.5 Turbo, aber geringer als für GPT4 oder Luminous Surpreme Control.

Aufwand für Setup

Ähnlich wie bei ChatGPT und Claude v1 ist der Aufwand, um mit Claude 2 zu beginnen, sehr gering. Man kann eine (einfache) Eingabeaufforderung schreiben und loslegen.

Allerdings gibt es eine größere Hürde, um Zugang zu dem Modell im Allgemeinen zu erhalten. Wir haben vor einigen Monaten einen Antrag auf Zugang gestellt und ihn noch immer nicht erhalten, da das Modell derzeit nur in den USA und Großbritannien verfügbar ist.

Sobald der Zugang gewährt wird, ist die Einstiegshürde ähnlich niedrig wie bei ChatGPT.

Hosting

Claude 2 wird in den USA gehostet, aber sie stellen ihr Modell über Google Cloud zur Verfügung. Es sollte also möglich sein, später eine in der EU gehostete Version zu erhalten.

Produktempfehlung

Aufgrund der sehr guten Qualität, der vergleichsweise kurzen Antwortzeiten und des moderaten Peises, können wir eine klare Produktempfehlung für Claude 2 aussprechen, auch wenn deutschsprachige unperfekte Transkripte zusammengefasst werden sollen. Das Modell formuliert gut lesbare und strukturierte Zusammenfassungen, die alle wichtigen Informationen enthalten.

Achtung - das Modell ist bisher nicht für den europäischen Markt via API verfügbar.