Hauptanwendungsfälle: Die Hauptaufgabe des Modells ist Sprachgenerierung. Es kann zusätzlich Anliegen und Sentiment erkennen und Texte optimaler (z.B. vereinfacht) formulieren, wenn es ein paar Beispiele bekommt. Für Chat-Anwendungen muss es zuvor noch feinabgestimmt werden, damit es keine unerwünschten Antworten mit diskriminierenden Inhalten oder Biases gibt.
Inputlänge: 2048 Tokens (ca. 1536 Wörter)
Sprachen: Englisch, Deutsch, Französisch, Italienisch und Spanisch
Modellgröße: ~70 Milliarden Parameter
Hauptanwendungsfälle: Die Hauptaufgabe des Modells ist Sprachgenerierung. Es kann zusätzlich Anliegen und Sentiment erkennen und Texte optimaler (z.B. vereinfacht) formulieren, wenn es ein paar Beispiele bekommt. Für Chat-Anwendungen muss es zuvor noch feinabgestimmt werden, damit es keine unerwünschten Antworten mit diskriminierenden Inhalten oder Biases gibt.
Inputlänge: 2048 Tokens (ca. 1536 Wörter)
Sprachen: Englisch, Deutsch, Französisch, Italienisch und Spanisch
Modellgröße: ~70 Milliarden Parameter
Die Qualität der Zusammenfassungen von Luminous Supreme Control wurde von den Annotatoren deutlich geringer bewertet, als die Qualität menschlicher Zusammenfassungen derselben Transkripte. Lediglich die Kategorie Flüssigkeit, die misst, ob der Text angenehm zu lesen ist, weist ähnlich gute Werte auf wie die menschlichen Zusammenfassungen. Insbesondere zeigt das Modell einen recht großen Anteil an Halluzinationen, vergisst relevante Bestandteile der Texte, erzeugt lange Zusammenfassungen und wird demnach auch allgemein deutlich schlechter eingeschätzt.
Zudem - was in der Übersicht nicht deutlich wird - gab es mehrere Komplettausfälle, wenn das Modell relativ lange Dialoge zusammenfassen sollte. Das Resultat war, dass das Modell für 7 der 109 Texte gar keine Zusammenfassung erzeugte. Die erhöhte Inputlänge war jedoch notwendig, da in den Prompt eine Beispielzusammenfassung aufgenommen werden musste, um die Qualität zu steigern. Das limitiert im Gegenzug die Länge der Transkripte die noch zusammengefasst werden können. Bei drei Texten geriet das Modell in eine Schleife und beschränke sich auf das Wiederholen einzelner Sätze der Transkripte.
Den Einsatz für unperfekte, deutsche Transkripte, können wir zum Zeitpunkt der Testung 07/23 nur sehr eingeschränkt empfehlen, wenn das Kriterium des Hostings in Deutschland beispielsweise mehr wiegt, als die Qualität der Zusammenfassungen. Wie oben erwähnt sollten die zusammenzufassenden Inhalte zudem nicht zu lang sein.
In unseren Test zeigten sich erhebliche Schwankungen in den Antwortzeiten, wodurch der Median sich stark vom Mittelwert unterscheidet. Grundlegend waren die Antwortzeiten schneller als beispielsweise bei OpenAI, mit dem Median bei 6,6 Sekunden. Gleichzeitig gibt es aber mindestens eine extrem lange Antwortzeit von mehr als 2 Minuten. Für den Einsatzbereich der Zusammenfassungen scheint die Zeit wenig kritisch, außer es wird im Alltag eines Agenten eingesetzt und die Antwortzeit hat einen ähnlichen Peak alle 100 Transkripte. Dann ist die Wartezeit von 2 Minuten doch sehr lang.
Luminous Surpreme Control kostet 0,044 € pro 1000 Inputtoken und 0,048 € pro 1000 Output Token. Aleph Alpha nutzt credits für die Abrechnung. Ein Credit kostet 0,238 €. Alle Transkripte zusammenfassen zu lassen (109) hat 16,07 credits gekostet - das bedeutet Kosten von 3,82 €, also etwa 3,5 Cent pro Zusammefassung.
Zum Teil sind die hohen Kosten dadurch begründet, dass der Prompt zum Zeitpunkt der Testung deutlich länger sein musste, als bei den anderen getesteten Modellen. Das war notwendig weil der Prompt eine Beispielzusammenfassung enthalten musste, um die Qualität der Zusammenfassungen zu erhöhen. Es ist also mit jeder Anfrage ein weiteres Transkript inkl. Zusammenfassung geschickt worden.
Das Model wird in Deutschland auf den Servern von Aleph Alpha gehostet. Dies ist ein großes Plus.
Während die Geschwindigkeit und das Hosting des Modells in Deutschland eindeutig für den Produkteinsatz sprechen, war die Qualität zum Zeitpunkt der Testung noch nicht optimal. Zudem war der Preis durch die Notwendigkeit, ein Beispiel in den Prompt zu nehmen, sehr hoch. Demnach würden wir dieses Modell für unperfekte, deutsche Transkripte nur dann empfehlen, wenn das Hosting in Deutschland die höchste Priorität hat.