Hier finden Sie einen Überblick der von uns getesteten KI-Modelle mit einer ersten Einschätzung. Für die bessere Übersicht haben wir zwischen Open Source- und kommerziellen Modellen unterschieden.
Hier finden Sie einen Überblick der von uns getesteten KI-Modelle mit einer ersten Einschätzung. Für die bessere Übersicht haben wir zwischen Open Source- und kommerziellen Modellen unterschieden.
Kommerzielle Modelle sind in der Regel nur über die Schnittstellen der jeweiligen Anbieter und evtl. deren Partner verfügbar. Auch eine Feinabstimmung für spezielle Anwendungen ist nur bei ausgewählten Modellen möglich.
Hauptanwendungsfälle: Kann für jede Aufgabe verwendet werden, die Sprachgenerierung erfordert. Zum Beispiel Zusammenfassungen, Chatbots, Voicebots, aber auch Intent- oder Sentimenterkennung.
Inputlänge: Zwei verschiedene Modelle mit 4.096 Tokens (ca. 3.072 Wörter) oder 16.385 Tokens (ca. 12.288 Wörter)
Sprachen: 95 natürliche Sprachen
Modellgröße: 110 Milliarden Parameter
Evaluiert in: VIER Zusammenfassung, VIER Anliegenerkennung, VIER Dialog
Hauptanwendungsfälle: Nutzbar für jede Aufgabe, die Sprachgenerierung erfordert. Sehr hohe Qualität bei Zusammenfassungen, Chatanwendungen, Anliegen- und Sentimenterkennung sowie Erstellung von Kreativcontent, Coding oder Allgemeinwissen. Ist in der Lage die Leistung anderer Modelle in Dialogaufgaben zu beurteilen. Kann zusätzlich auch Bilder als Eingabe verarbeiten.
Inputlänge: Drei verschiedene Modelle mit 8.192 Tokens (ca. 6.144 Wörter), 32.769 Tokens (ca. 24.576 Wörter) und 128.000 Tokens (über 300 Seiten Fließtext)
Sprachen: 95 natürliche Sprachen, ist in mind. 26 Sprachen besser als GPT-3.5 Turbo
Modellgröße: ~1,8 Billionen Parameter
Evaluiert in: VIER Zusammenfassungen, VIER Dialog
Hauptanwendungsfälle: Die Hauptaufgabe des Modells ist Sprachgenerierung. Es kann zusätzlich Anliegen und Sentiment erkennen und Texte optimaler (z.B. vereinfacht) formulieren, wenn es ein paar Beispiele bekommt. Für Chat-Anwendungen muss es zuvor noch feinabgestimmt werden, damit es keine unerwünschten Antworten mit diskriminierenden Inhalten oder Biases gibt.
Inputlänge: 2048 Tokens (ca. 1536 Wörter)
Sprachen: Englisch, Deutsch, Französisch, Italienisch und Spanisch
Modellgröße: ~70 Milliarden Parameter
Evaluiert in: VIER Zusammenfassungen
Hauptanwendungsfälle: Kann ähnlich wie GPT-4 für jegliche Form der Sprachgenerierung verwendet werden, beispielsweise zur kreativen Contenterstellung, Textzusammenfassung, Texteditierung, für tiefgehende Dialoge, Verständnis komplexer Zusammenhänge oder Coding.
Inputlänge: 100.000 Tokens (ca. 300 Seiten Fließtext)
Sprachen: optimal in Englisch, aber auch möglich in mindestens 43 weiteren Sprachen
Modellgröße: ~130 Milliarden Parameter
Evaluiert in: VIER Zusammenfassungen
Hauptanwendungsfälle: Ein allgemeines Modell zur Sprachgenerierung, das für jegliche Form der Sprachgenerierung verwendet werden, beispielsweise zur kreativen Contenterstellung, Textzusammenfassung, Texteditierung, für erweiterte Dialoge oder Verständnis komplexer Zusammenhänge.
Inputlänge: 9.000 Tokens (ca. 6750 Wörter)
Sprachen: Hauptsächlich Englisch. Zusätzlich auch Spanisch und Französisch. In geringerem Umfang auch Deutsch, Italienisch, Portugiesisch und evtl. weitere Sprachen.
Modellgröße: ~93 Milliarden Parameter (Schätzung, da unveröffentlicht)
Evaluiert in: VIER Zusammenfassungen
Hauptanwendungsfälle: Modell zur Sprachgenerierung in verschiedenen Kontexten, zum Beispiel für Zusammenfassungen, Coding, Dialogführung, Texteditierung oder Übersetzung. Ebenfalls nutzbar für die Erstellung kreativer Inhalte.
Inputlänge: 8192 Tokens (ca. 6144 Wörter)
Sprachen: mehr als 100 natürliche Sprachen
Modellgröße: ~340 Milliarden Parameter
Evaluiert in: -
Hauptanwendungsfälle: Modell zur Sprachgenerierung, das für allgemeine Chataufgaben verwendet werden kann. Es wurde speziell für Anwendungsfälle im Geschäftsbereich trainiert, wie Zuammenfassen oder (Re-)Formulierung von Texten sowie Informationsextraktion oder Anliegenerkennung.
Inputlänge: 4096 Tokens (ca. 3072 Wörter)
Sprachen: Hauptsächlich Englisch. In geringerem Umfang auch Deutsch, Französisch, Italienisch, Spanisch und Arabisch.
Modellgröße: ~52 Milliarden Parameter
Evaluiert in: -
Hauptanwendungsfälle: Ein Embeddingmodell, das den Eingabetext mit Textreferenzen vergleicht und die Ähnlichkeit berechnet. Damit können beispielsweise Suchfunktionen (in Wissensdatenbanken), Anliegenerkennung und Textklassifikation realisiert werden.
Inputlänge: 8191 Tokens (ca. 6143 Wörter)
Sprachen: Hauptsächlich Englisch. Zusätzlich auch Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Mandarin und vermutlich viele weitere.
Modellgröße: ~350 Millionen Parameter
Evaluiert in: VIER Anliegenerkennung
Hauptanwendungsfälle: Ein Embeddingmodell, das den Eingabetext mit Textreferenzen vergleicht und die Ähnlichkeit berechnet. Damit können beispielsweise Suchfunktionen (in Wissensdatenbanken), Anliegenerkennung und Textklassifikation realisiert werden.
Inputlänge: 2048 Tokens (ca. 1536 Wörter)
Sprachen: Englisch, Deutsch, Französisch, Italienisch und Spanisch
Modellgröße: ~13 Milliarden Parameter
Evaluiert in: VIER Anliegenerkennung
Alle quelloffenen Modelle können prinzipiell auf eigenen Servern betrieben werden und für spezielle Einsatzzwecke feinabgestimmt werden. Einige quelloffene Modelle sind auch bei Clouddiensten via API verfügbar.
Hauptanwendungsfälle: Modell zur Sprachgenerierung, das für allgemeine Chataufgaben verwendet werden kann. Die wichtigsten Anliegen der Kunden kann das Modell ebenfalls erkennen und Texte auf eine einfache Art zusammenfassen. Allerdings ist die Qualität in diesen Aufgaben der Größe entsprechend schlechter als bei den größeren Alternativen.
Inputlänge: 4096 Tokens (ca. 3072 Wörter)
Sprachen: Englisch
Modellgröße: ~7 Milliarden Parameter
Evaluiert in: VIER Zusammenfassungen
Hauptanwendungsfälle: Modell zur Sprachgenerierung, welches für allgemeine Chataufgaben verwendet werden kann und menschenähnlich kommuniziert. Das Modell basiert auf Llama2 und ist mit Chatkonversationen verbessert worden. Auch wenn es grundlegend die wichtigsten Anliegen erkennen - und beispielsweise Texte zusammenfassen kann, ist die Qualität doch durch die Größe beschränkt.
Inputlänge: 4096 Tokens (ca. 3072 Wörter)
Sprachen: vorwiegend Englisch
Modellgröße: ~7 Milliarden Parameter
Evaluiert in: -
Hauptanwendungsfälle: Modell zur Sprachgenerierung, welches für Übersetzungen, Textzusammenfassungen, Sentimentanalyse oder Anliegenerkennung verwendet werden kann. Die Qualität der Sprachgenerierung liegt hinter größeren, moderneren Modellen zurück, während beispielsweise die Anliegenerkennung ähnlich gut ist.
Inputlänge: 512 Tokens (ca. 384 Wörter) ist Basis, bis zu 2048 Tokens (ca. 1536 Wörter) trainiert
Sprachen: Englisch, Französisch, Rumänisch, Deutsch
Modellgröße: ~11 Milliarden Parameter
Evaluiert in: VIER Anliegenerkennung
Hauptanwendungsfälle: Modell zur Sprachgenerierung, welches für Übersetzungen, Textzusammenfassungen, Sentimentanalyse oder Anliegenerkennung verwendet werden kann. Die Qualität der Sprachgenerierung liegt hinter größeren, moderneren Modellen zurück, während beispielsweise die Anliegenerkennung ähnlich gut ist.
Inputlänge: 512 Tokens (ca. 384 Wörter) ist Basis, bis zu 2048 Token (ca. 1536 Wörter) trainiert
Sprachen: Englisch, Französisch, Rumänisch, Deutsch
Modellgröße: ~3 Milliarden Parameter
Evaluiert in: VIER Anliegenerkennung
Hauptanwendungsfälle: Modell das für die Anliegenerkennung und Textklassifizierung feinabgestimmt wurde. Es basiert auf der Variation RoBERTa des Grundlagenmodells BERT und kann Anliegen auch in komplexen Emails erkennen, wenn man nur den Namen des Intents angibt (zero shot).
Inputlänge: 512 Tokens (ca. 384 Wörter)
Sprachen: Englisch, Französisch, Deutsch, Spanisch, Griechisch & 10 weitere
Modellgröße: ~355 Millionen Parameter
Evaluiert in: VIER Anliegenerkennung
Hauptanwendungsfälle: Ein Modell zur Sprachgenerierung, das auf die allgemeine Beantwortung von (An-)Fragen feinabgestimmt wurde (instruction-tuned). Dadurch kann das Modell für verschiedene Aufgaben wie z.B. Anliegenerkennung, Zusammenfassung, (Re-)Formulierung oder Textklassifizierung eingesetzt werden.
Inputlänge: 8192 Tokens (ca. 6144 Wörter)
Sprachen: vorwiegend Englisch
Modellgröße: ~30 Millionen Parameter
Evaluiert in: -
Hauptanwendungsfälle: Modell zur Sprachgenerierung, das auf die allgemeine Beantwortung von (An-)Fragen feinabgestimmt wurde (instruction-tuned). Dadurch kann das Modell für verschiedene Aufgaben wie z.B. Anliegenerkennung, Zusammenfassung, (Re-)Formulierung oder Textklassifizierung eingesetzt werden. Dieses Modell basiert auf dem Open Source LLM Pythia von EleutherAI. Das Basismodell ist nur für Englisch trainiert, daher kann es derzeit nicht für deutschsprachigen Anwendungsfälle eingesetzt werden.
Inputlänge: 2048 Tokens (ca. 1536 Wörter)
Sprachen: Englisch
Modellgröße: ~12 Millionen Parameter
Evaluiert in: -
Hauptanwendungsfälle: Ein mehrsprachiges Modell, das auf einer Weiterentwicklung der BERT-Architektur basiert. Es wurde explizit für die Anliegenerkennung und Textklassifizierung ohne Beispiele (zero shot) trainiert.
Inputlänge: 512 Tokens (ca. 384 Wörter) – theoretisch 24.528 Tokens, über 512 Tokens sind allerdings erhebliche Geschwindigkeitseinbußen zu erwarten.
Sprachen: Evaluiert für 15 Sprachen, darunter Englisch und Deutsch. In geringerem Umfang 85 weitere Sprachen.
Modellgröße: ~86 Millionen Parameter
Evaluiert in: VIER Anliegenerkennung
Hauptanwendungsfälle: Ein allgemeines Sprachmodell, das auf der Transformer-Architektur beruht. Es wurde explizit für die Anliegenerkennung und Textklassifizierung ohne Beispiele (zero shot) trainiert.
Inputlänge: 1024 Tokens (ca.768 Wörter)
Sprachen: vorwiegend Englisch
Modellgröße: ~407 Millionen Parameter
Evaluiert in: VIER Anliegenerkennung
Hauptanwendungsfälle: Ein allgemeines Modell zur Sprachgenerierung, das auf Llama2 basiert und für die Verwendung in Chatkonversationen feinabgestimmt wurde. Es kann für Dialogsysteme, Textzusammenfassung oder Anliegenerkennung in englischer Sprache verwendet werden.
Inputlänge: 4096 Tokens (ca. 3072 Wörter)
Sprachen: vorwiegend Englisch
Modellgröße: ~13 Milliarden Parameter
Evaluiert in: -
Hauptanwendungsfälle: Modell zur Sprachgenerierung, das für die allgemeine Beantwortung von (An-)Fragen feinabgestimmt wurde (instruction-tuned). Dadurch kann das Modell für verschiedene Aufgaben wie z.B. Anliegenerkennung, Zusammenfassung, (Re-)Formulierung oder Textklassifizierung eingesetzt werden. Mögliche Anwendungsfälle sind allerdings durch die eher geringe Inputlänge eingeschränkt.
Inputlänge: 2048 Tokens (ca. 1536 Wörter)
Sprachen: Hauptsächlich Englisch. Zusätzlich auch Deutsch, Spanisch, Französisch. In geringerem Umfang auch Italienisch, Portugiesisch, Polnisch, Niederländisch, Rumänisch, Tschechisch und Schwedisch.
Modellgröße: ~40 Milliarden Parameter
Evaluiert in: -
Hauptanwendungsfälle: Modell zur Sprachgenerierung, das für allgemeine Chataufgaben verwendet werden kann. Das Modell kann für Dialogsysteme, Anliegenerkennung, oder Zusammenfassungen genutzt werden. Mögliche Anwendungsfälle sind allerdings durch die eher geringe Inputlänge eingeschränkt.
Inputlänge: 2048 Tokens (ca. 1536 Wörter)
Sprachen: Hauptsächlich Englisch. Zusätzlich auch Deutsch, Spanisch, Französisch. In geringerem Umfang auch Italienisch, Portugiesisch, Polnisch, Niederländisch, Rumänisch, Tschechisch und Schwedisch
Modellgröße: ~180 Milliarden Parameter
Evaluiert in: -
Hauptanwendungsfälle: Modell zur Sprachgenerierung, das für allgemeine Chataufgaben verwendet werden kann. Die wichtigsten Anliegen der Kunden kann das Modell ebenfalls erkennen und Texte auf eine einfache Art zusammenfassen. Die Qualität ist der Größe entsprechend besser als bei der kleineren Alternative (Llama2-7B-Chat).
Inputlänge: 4096 Tokens (ca. 3072 Wörter)
Sprachen: Hauptsächlich Englisch. In geringerem Umfang auch Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Niederländisch, Russisch, Chinesisch (Mandarin), Japanisch, Koreanisch, Arabisch, Hebräisch, Hindi, u.a.
Modellgröße: ~13 Milliarden Parameter
Evaluiert in: -
Hauptanwendungsfälle: Guanaco 65B ist interessant, weil dank eines sehr effizienten Ansatzes (QLoRA) ein Modell dieser Größe auf einer sehr beschränkten Hardware feinabgestimmt werden kann. Das Resultat ist ein Modell zur Sprachgenerierung, das allgemeine Chataufgaben in guter Qualität löst. Aufgrund der Lizenz des Basismodells (Llama1-65B) ist jedoch eine kommerzielle Nutzung ausgeschlossen.
Inputlänge: 2048 Tokens (ca. 1536 Wörter)
Sprachen: Hauptsächlich Englisch. Zusätzlich Spanisch. In geringerem Umfang auch Russisch, Deutsch, Französisch, Chinesisch, Thai, Brasilianisches Portugiesisch, Katalanisch , u.a.
Modellgröße: ~65 Milliarden Parameter
Evaluiert in: -
Nur nicht-kommerzielle Nutzung erlaubt!