Deutsche Sprache als Standortnachteil?
Large Language Models (LLMs) werden mit enormen Datenmengen trainiert. Ein Großteil dieser Datensätze liegt in englischer Sprache vor – einerseits, weil Englisch weltweit zu den am häufigsten gesprochenen und digital verfügbaren Sprachen gehört, andererseits, weil die Wissenschaft ihre Ergebnisse überwiegend in Englisch kommuniziert. Das Training eines sogenannten „Frontier Models“ kostet heute bereits Dutzende Millionen Dollar. Angesichts dieser enormen Investitionen liegt der Fokus fast immer auf der hohen Sprachqualität in Englisch. Andere Sprachen, darunter Deutsch, werden dabei oftmals vernachlässigt und sind in den Trainingsdaten unterrepräsentiert.
Wer die aktuellen kommerziellen Angebote von OpenAI (z.B. GPT-4), Mistral oder Anthropic (z.B. Claude) nutzt, bemerkt diesen Nachteil in der Praxis kaum noch. Viele dieser Modelle liefern mittlerweile in Deutsch ebenso hochwertige Ergebnisse wie in Englisch.
Open Source, Open Weights & On Premise
In einigen Bereichen können oder dürfen kommerzielle Cloud-Angebote jedoch nicht genutzt werden – vor allem, wenn personenbezogene Daten verarbeitet werden müssen oder wenn es aus Prinzip um die Hoheit über eigene Daten geht (etwa bei staatlichen Behörden). Zwar bieten große Cloud-Anbieter wie Microsoft (über Azure) DSGVO-konforme Varianten kommerzieller Modelle an, doch bei besonders sensiblen Daten oder grundsätzlichem Misstrauen gegenüber externen Diensten setzen Unternehmen und Institutionen häufig auf eine „on-premise“-Lösung, also dem Einsatz in lokaler Umgebung ohne Verbindung zum Internet.
Hier kommen meist Open Source-Modelle – genauer gesagt Modelle mit „Open Weights“ – zum Einsatz. Der Begriff „Open Source“ kann irreführend sein, weil bei vielen Angeboten nicht die kompletten Trainingsdaten offengelegt werden. Die Modelle sind jedoch so verfügbar, dass man sie lokal mit geeigneter Hardware (beispielsweise einer leistungsfähigen NVIDIA-Grafikkarte) betreiben kann.
Sprachqualität am Beispiel von Llama3.1
Nachdem das technische Setup abgeschlossen ist, zeigt sich bei der Verwendung von Open Source-Modellen (Open Weights) häufig Ernüchterung. Diese Modelle erreichen in vielen Fällen nicht die Qualität kommerzieller Alternativen. So erzeugt beispielsweise Llama 3.1 in englischer Sprache zwar sehr hochwertige Texte, weist jedoch in deutscher Sprache deutliche Schwächen auf. Um dies zu veranschaulichen, betrachten wir zunächst eine auf Englisch formulierte Anfrage:
If everything is made of atoms, what are thoughts made of? Answer in five sentences or fewer that rhyme.
Thoughts are a puzzle, hard to define,
They’re not like matter, nor atoms aligned.
Some say they’re energy, in a special place,
Generated by neurons, with their electrical pace.
But ultimately, the answer remains unclear and divine.
Ein nachdenklicher Reim über die mysteriöse Natur der Gedanken und ihre Abgrenzung von der materiellen Welt im Reimschema AABBC. Nun die gleiche Frage auf Deutsch:
Wenn alles aus Atomen besteht, woraus sind Gedanken gemacht? Antworte in fünf Sätzen oder weniger, die sich reimen.
Gedanken sind ein Geheimnis, schwer zu enthüllen,
Sie bestehen nicht aus Atomen, sondern haben eine eigene Wellen.
Einige sagen, sie sind Energie, frei und leicht fließend,
Erzeugt durch Neuronen, mit ihren elektrischen Wesen.
Aber ihre Natur bleibt uns immer noch verborgen bleibend.
Zwar ist der erzeugte Text inhaltlich nachvollziehbar, dennoch enthält er spürbare grammatikalische Mängel und folgt keinem Reimschema. Letzteres ist bei der Erstellung eines KI-unterstützten Wohngeldbescheids zwar eher irrelevant (wenn auch bedauerlich), doch die vorhandenen Grammatikfehler sind ein starkes Argument gegen den Einsatz von Llama 3.1 in offiziellen Dokumenten.
Korrekturversuch durch das Modell selbst
Wir können das Modell erneut auffordern, seine eigene Ausgabe zu korrigieren. Damit erhöht sich jedoch die Antwortzeit, was in manchen Fällen vertretbar sein kann:
Korrigere diesen Reim auf grammatikalische Richtigkeit und Reimung: [vorheriges Ergebnis]
Gedanken sind ein Geheimnis, schwer zu enthüllen,
Sie bestehen nicht aus Atomen, sondern haben eine eigene Schwingen.
Einige sagen, sie sind Energie, frei und leicht fließend,
Erzeugt durch Neuronen, mit ihren elektrischen Wesen.
Aber ihre Natur bleibt uns immer noch verborgen bleiben.
Ich habe die folgenden Änderungen vorgenommen:
- “eigene Wellen” zu “eigene Schwingen”, um den Reim auf “Wesen” beizubehalten
- “verborgen bleibend” zu “verborgen bleiben”, um den Reim auf “entthüllen” und “Schwingen” beizubehalten
Hier zeigt sich, dass das Modell offenbar weder in der Lage ist, seine grammatikalischen Fehler zu erkennen noch sie zu beheben. Auffällig ist zudem, dass die Wörter, die für die Einhaltung eines Reimschemas ausgetauscht wurden, sich ebenfalls nicht reimen. Ein häufig geäußerter Erklärungsversuch ist, dass die Modelle ihre Antworten zuerst in englischer Sprache entwickeln und diese danach erst in die gewünschte Sprache übersetzen. Dabei ginge das Reimschema des Originals verloren. Befragen wir dazu mal ein LLM selbst, z.B. gpt-o1
:
Wenn Du auf Deutsch antwortest, werden Deine Antworten zuvor in englischer Sprache formuliert und anschliessend übersetzt?
Nein, das Modell „denkt“ nicht zuerst auf Englisch und übersetzt anschließend ins Deutsche. Stattdessen greift es auf ein gemeinsames Sprachmodell zurück, das auf riesigen Textmengen in unterschiedlichen Sprachen trainiert wurde. Wenn du eine Frage auf Deutsch stellst und eine deutsche Antwort erhältst, basiert diese auf dem in der Modellarchitektur verankerten Verständnis der deutschen Sprache. Es handelt sich also nicht um eine einfache „Englisch-zu-Deutsch“-Übersetzung, sondern um eine direkte Generierung auf Deutsch.
Busted. 💣
Zusätzlich generiert Llama 3.1 am Ende eine Zusammenfassung seiner Änderungen. Dies kann zwar nützlich sein, erfordert jedoch manuelles Entfernen, sofern man ausschließlich den überarbeiteten Text weiterverwenden möchte. Abhilfe könnte hier ein angepasster Prompt schaffen, der das Modell gezielt anweist, nur die korrigierte Version ohne zusätzliche Erklärungen auszugeben.
Zum abschliessenden Vergleich hier noch die Antwort von OpenAIs gpt-4o-mini
Modell mit der gleichen Aufgabenstellung:
Gedanken weben sich aus feinen Teilchen,
Im Gehirn sie leise beginnen zu eilen.
Elektronen tanzen, Neuronen singen,
Ideen in synaptischen Ringen.
So entstehen Träume, die wir fühlen.
Inhaltlich vielleicht weniger Bezug nehmend auf die Frage, dafür grammatikalisch korrekt. Ein gpt-goethe
war hier aber auch nicht am Werk.
Frei verfügbare Modelle im Vergleich
Die Eignung verschiedener Large Language Models (LLMs) für deutschsprachige Texte hängt stark vom Anwendungszweck ab. Bei längeren Texten wie Berichten oder redaktionellen Artikeln ist eine korrekte Grammatik besonders wichtig. Nutzt man die Modelle hingegen als Support-Chatbot, rückt die Reaktionszeit (gemessen in Token pro Sekunde) in den Vordergrund, da hier vor allem schnelle, verständliche Antworten gefragt sind. Um das am besten geeignete Modell für einen bestimmten Einsatzzweck zu finden, empfiehlt es sich daher, verschiedene LLMs anhand klar definierter Testaufgaben zu evaluieren.
Damit auch andere von meinen Testergebnissen profitieren können, habe ich eine Vergleichsliste aktueller deutschsprachiger Large Language Modelle erstellt. Diese Liste wird regelmäßig aktualisiert, sobald neue Modelle verfügbar werden.
Alle Modelle teste ich auf einem Apple Mac mini mit Apple Silicon der vierten Generation (M4) und 16 GB RAM. Modelle, die mehr als 16 Billionen Parametern umfassen, scheiden für diese Betrachtung aus. Als lokale Hosting-Lösung dient Ollama, während Open WebUI als Frontend eingesetzt wird. Beide Tools sind kostenlos verfügbar.
Die Modelle müssen sich beispielsweise bei folgenden Testaufgaben bewähren:
- Ein Gedicht über Gedanken und Atome verfassen
- Einen englischen Text in deutscher Sprache übersetzen
- Eine förmliche Mail verfassen
Dabei überprüfe ich die sprachliche Qualität (Grammatik und Formulierungen) sowie die inhaltliche Richtigkeit der Antworten. Da Sprachmodelle naturgemäß nicht immer identische Ergebnisse erzeugen, durchläuft jedes Modell drei Testrunden. Die Resultate werden anschließend bewertet. Alle Prompts sind „Zero-Shot“: Das heißt, das Modell erhält keine Beispielantwort und muss eigenständig entscheiden, wie es am besten reagiert.
Um die Übersichtlichkeit zu wahren, stelle ich die Resultate in tabellarischer Form auf einer eigenen Seite zusammen. So lässt sich schnell erkennen, welches Modell sich am besten für einen bestimmten Anwendungsfall eignet.
Vergleichsliste aktueller deutschsprachiger Large Language Modelle