Hauptanwendungsfälle: Modell zur Sprachgenerierung, das für allgemeine Chataufgaben verwendet werden kann. Die wichtigsten Anliegen der Kunden kann das Modell ebenfalls erkennen und Texte auf eine einfache Art zusammenfassen. Allerdings ist die Qualität in diesen Aufgaben der Größe entsprechend schlechter als bei den größeren Alternativen.
Inputlänge: 4096 Tokens (ca. 3072 Wörter)
Sprachen: Englisch
Modellgröße: ~7 Milliarden Parameter
Hauptanwendungsfälle: Modell zur Sprachgenerierung, das für allgemeine Chataufgaben verwendet werden kann. Die wichtigsten Anliegen der Kunden kann das Modell ebenfalls erkennen und Texte auf eine einfache Art zusammenfassen. Allerdings ist die Qualität in diesen Aufgaben der Größe entsprechend schlechter als bei den größeren Alternativen.
Inputlänge: 4096 Tokens (ca. 3072 Wörter)
Sprachen: Englisch
Modellgröße: ~7 Milliarden Parameter
Die Qualität der Zusammenfassungen von Llama2-7B-Chat ist in allen Bewertungskategorien überdurchschnittlich gut, d.h. es werden flüssige und inhaltlich korrekte sowie prägnante Zusammenfassungen erzeugt. Im Grunde erreicht Llama2-7B-Chat ein ähnliches Niveau wie die menschengeschriebenen Referenzzusammenfassungen. So ist es in der Kategorie “Flüssigkeit”, also wie angenehm die Texte zu lesen sind, sogar geringfügig besser als die Referenz. In allen anderen Kategorien schneidet Llama2-7B-Chat etwas schlechter ab. Die größten Herausforderungen für das Modell sind hier im Vergleich eine gut strukturierte Zusammenfassungen zu generieren (Struktur), die nur die wichtigen Aspekte enthalten und möglichst kurz sind (Relevanz). Der Anteil der falschen Informationen in den Zusammenfassungen ist nur geringfügig höher als bei der Referenz (Halluzinationen). Allerdings lieferte das Modell in neun Fällen einen Totalausfall (9%), bei dem lediglich der Dialog wiederholt wurde und keine Zusammenfassung erzeugt wurde. Zudem liefert Llama2 nur englische Zusammenfassungen der deutschen Texte, die je nach Anwendungsfall noch übersetzt werden müssen.
Insgesamt ist die Qualität aber sehr gut und fast vergleichbar mit menschlichen Zusammenfassungen. Das Modell hat aus der Qualitätsperspektive hohes Potential für die Zusammenfassung deutschsprachiger unperfekter Transkripte eingesetzt werden zu können.
Die Antwortgeschwindigkeit war in unserem Test sehr gut für den Anwendungsbereich. Der Durchschnitt der Geschwindigkeit lag bei ca. 3 Sekunden. Allerdings muss bei diesen Werten berücksichtigt werden, dass wir ein lokales Modell direkt angesteuert haben. Wird es in einem Live-Setting durch eine API angebunden, werden die Antwortzeiten geringfügig höher ausfallen.
Dieses Modell wurde lokal auf unseren Servern ausgeführt, daher ergaben sich keine direkten Kosten. In der Praxis hängt der Preis sehr stark von der Einrichtung und der verwendeten Hardware ab. Im Allgemeinen sind größere Modelle teurer als kleinere: Llama2-7B-Chat kann mit einer Größe von ~7 Milliarden Parametern als groß angesehen werden.
Das Hosting wird auf unseren Forschungs-GPUs bei VIER Frankfurt durchgeführt.
Aufgrund der Ergebnisse können wir nur eine eingeschränkte Empfehlung für dieses Modell aussprechen. Zwar ist die Qualität der Zusammenfassungen sehr gut und die Antwortzeiten sehr kurz, dafür produziert das Modell nur englische Zusammenfassungen und auch einige Totalausfälle. Das Modell könnte aber interessant sein, falls ein VIER-eigenes Hosting dringend notwendig ist, zum Beispiel aus Datenschutzgründen.