KI-Benchmark Deutsch

Welche KI kann am besten Deutsch?

Die großen Ranglisten messen fast nur auf Englisch. Dieser Benchmark testet führende KI-Modelle auf dem, worauf es im deutschen Geschäftsalltag ankommt – von der formellen Korrespondenz über Behördendeutsch bis zu Recht und Quellentreue. Einer der ersten, der gezielt auf echte deutsche Geschäftsaufgaben misst – transparent und mit Stand.

Stand: 22. Juni 2026Eigene, nicht-öffentliche Testaufgaben. Namensblind bewertet von einem anbieterübergreifenden Panel, Methodik offengelegt.

Das Ranking

Gesamtwertung über sechs deutsche Geschäftsdisziplinen (0–100 Punkte). Klick auf ein Modell zeigt die Einzelwerte je Disziplin.

0Skala 0–100 · Klick auf ein Modell zeigt die sechs Disziplinen100

Die Spitzengruppe liegt eng beieinander: Unterschiede von wenigen Punkten liegen bei 24 Aufgaben je Lauf im Messrauschen – aussagekräftig sind die größeren Abstände und der Verlauf über mehrere Läufe.

Stärken je Disziplin

Jede Zelle ist der Punktwert (0–100) eines Modells in einer Disziplin – je kräftiger die Farbe, desto besser. Der Spitzenwert je Spalte ist umrandet.

Modell	Geschäftskommunikation	Amts- & Behördendeutsch	Recht & Steuern (Fachwissen)	Zusammenfassung & Treue	Quellentreue (Dokument-Q&A)	Sprachqualität & Stil	Gesamt
Claude Opus 4.8Anthropic	97	95	99	96	100	100	98
GPT-5.5OpenAI	96	90	100	90	100	96	95
Qwen3.7 MaxAlibaba	90	80	94	95	100	98	93
Gemini 3.1 ProGoogle	87	79	94	92	100	92	91
DeepSeek V4-ProDeepSeek	96	83	74	93	100	97	91
Grok 4.3xAI	93	78	77	95	100	97	90
Mistral Large 3Mistral	91	79	93	93	80	94	88

Stärken-Profil der Top 3

Kein Modell ist überall vorn. Das Netzdiagramm zeigt, wo die drei besten Modelle ihre Stärken und Lücken über die sechs Disziplinen haben.

Tippen zum Ein- und Ausblenden · Zeiger drüber hebt ein Modell hervor und zeigt seine Werte.

Wer führt in welcher Disziplin?

Die Gesamtwertung verdeckt, dass jede Disziplin einen anderen Spitzenreiter hat. Hier das beste Modell je Feld.

Geschäftskommunikation

Formelle deutsche Geschäftskorrespondenz – E-Mails, Angebote, Absagen im richtigen Register.

Claude Opus 4.897/100

Amts- & Behördendeutsch

Behördensprache verstehen und in klares Deutsch übersetzen – oder selbst korrekt verfassen.

Claude Opus 4.895/100

Recht & Steuern (Fachwissen)

Überprüfbare Fragen zu deutschem Recht und Steuern (BGB, AO, Fristen, Verjährung).

GPT-5.5100/100

Zusammenfassung & Treue

Deutsche Fachtexte treu zusammenfassen – Kernaussagen erfassen, Zahlen nicht verändern, nichts erfinden.

Claude Opus 4.896/100

Quellentreue (Dokument-Q&A)

Fragen ausschließlich aus einem deutschen Dokument beantworten – und „steht nicht im Dokument“ sagen, wenn die Antwort fehlt.

GPT-5.5100/100

Sprachqualität & Stil

Grammatikalisch einwandfreies, idiomatisches Deutsch – korrekte Umlaute/ß, kein Übersetzungs-Deutsch, Registerkontrolle.

Claude Opus 4.8100/100

Wie der Benchmark funktioniert

Eine Primärmessung – kein Abschreiben öffentlicher Ranglisten. Jedes Modell löst dieselben deutschen Aufgaben; bewertet wird namensblind von einem anbieterübergreifenden Panel gegen feste Rubriken und Musterlösungen.

Privates Test-Set

Nur Beispielaufgaben sind öffentlich. Das eigentliche Test-Set bleibt privat, damit der Benchmark nicht trainiert oder manipuliert werden kann.

Anonyme Bewertung

Bewertet von einem Panel aus drei unabhängigen Modellen unterschiedlicher Anbieter (OpenAI, Google, Anthropic), die selbst nicht im Ranking stehen. Kein Modell wird je von einem Bewerter aus dem eigenen Haus benotet (Leave-one-family-out): Die Antworten eines Anbieters wertet nur ein anbieterfremdes Panel. Bewertet wird namensblind (der Bewerter kennt den Modellnamen nicht) und absolut gegen eine feste Rubrik samt Musterlösung; die Einzelnoten werden gemittelt. Ergebnisse werden stichprobenartig von Hand geprüft.

Versioniert

Regelmäßiger Lauf; jedes Ergebnis wird versioniert (der Verlauf ist der eigentliche Wert).

Was getestet wird

Sechs Beispielaufgaben – je eine pro Disziplin. Die eigentlichen Testaufgaben bleiben privat, damit der Benchmark nicht trainiert oder manipuliert werden kann.

Geschäftskommunikation
„Schreibe eine freundliche Auftragsbestätigung an einen Neukunden – mit Bestellübersicht und voraussichtlichem Liefertermin. Sie-Form.“
Amts- & Behördendeutsch
„Was bedeutet es, wenn ein Steuerbescheid „bestandskräftig“ geworden ist? Erkläre es in einfachen Worten – ohne die fachliche Korrektheit zu verlieren.“
Recht & Steuern (Fachwissen)
„Welche gesetzliche Kündigungsfrist gilt für den Arbeitgeber nach § 622 BGB bei 8 Jahren Betriebszugehörigkeit?“
Erwartet: 3 Monate zum Ende eines Kalendermonats
Zusammenfassung & Treue
„Fasse den folgenden zweiseitigen Geschäftsbericht-Auszug in fünf Stichpunkten zusammen, ohne Zahlen zu verändern. [Text wird gestellt]“
Quellentreue (Dokument-Q&A)
„Beantworte ausschließlich anhand des beigefügten Datenschutz-Dokuments: Wie lange werden Bewerberdaten gespeichert? Wenn es nicht im Dokument steht, sage das ausdrücklich.“
Sprachqualität & Stil
„Überarbeite einen holprigen, maschinell wirkenden Text zu natürlichem, idiomatischem Geschäftsdeutsch und korrigiere Grammatik- und Stilfehler. [Text wird gestellt]“

Häufige Fragen

Warum ein eigener deutscher Benchmark?

Die großen Ranglisten messen fast nur auf Englisch. Für deutsche Unternehmen entscheidet aber, wie gut ein Modell deutsche Geschäftssprache, Behördendeutsch und deutsches Recht beherrscht. Genau das misst dieser Benchmark – als einer der ersten, der KI gezielt auf echte deutsche Geschäftsaufgaben statt auf akademische Tests prüft.

Wie wird bewertet?

Jedes Modell beantwortet dieselben Aufgaben. Ein Panel aus drei unabhängigen Modellen verschiedener Anbieter, die selbst nicht im Ranking stehen, bewertet die Antworten namensblind gegen eine feste Rubrik und, wo möglich, eine Musterlösung; kein Modell wird je von einem Bewerter aus dem eigenen Haus benotet. Stichproben prüfen wir von Hand.

Warum sind die Testaufgaben nicht öffentlich?

Wäre das Test-Set öffentlich, könnten Modelle darauf trainiert werden und der Vergleich wäre wertlos. Wir zeigen je Disziplin eine andere Beispielaufgabe als im privaten Set; das eigentliche Set bleibt privat und wird laufend erneuert. „Privat“ bedeutet hier: nicht öffentlich gelistet – die Aufgabentexte laufen technisch über die Schnittstellen der Anbieter.

Wie aktuell ist das Ranking?

Der Benchmark wird in regelmäßigen Abständen neu gemessen; oben steht, wann zuletzt gemessen wurde. Liefert ein Modell zu wenige gültige Antworten, behalten wir seinen vorherigen Wert, statt einen Ausreißer zu veröffentlichen.

Transparenz & Stand

Zuletzt gemessen: 22. Juni 2026

Getestete Modelle: Claude Opus 4.8 · GPT-5.5 · Qwen3.7 Max · Gemini 3.1 Pro · DeepSeek V4-Pro · Grok 4.3 · Mistral Large 3
Bewertungsmodell: openai/gpt-5.4 · google/gemini-3-pro-preview · anthropic/claude-opus-4.7
Modellzugang: Vercel AI Gateway

Die Werte sind Momentaufnahmen einer automatisierten Bewertung über ein privates Test-Set; sie messen Leistung auf deutschen Geschäftsaufgaben, nicht „Qualität“ allgemein. Modellnamen und -versionen richten sich nach der Verfügbarkeit über den genutzten Gateway. Einzelne Läufe können schwanken – maßgeblich ist der Verlauf, nicht ein einzelner Lauf. Bei derzeit 24 Aufgaben je Lauf sind kleine Punktunterschiede statistisch nicht belastbar; Modelle mit wenigen Punkten Abstand gelten als gleichauf.

Welches Modell passt zu deinen deutschen Texten?

Wir bringen das Modell mit dem besten Deutsch in deinen Prozess – für Korrespondenz, Dokumente und Verträge, mit Blick auf Kosten und Datenschutz.

Gespräch vereinbaren Leistungen ansehen