Formelle deutsche Geschäftskorrespondenz – E-Mails, Angebote, Absagen im richtigen Register.
Die großen Ranglisten messen fast nur auf Englisch. Dieser Benchmark testet führende KI-Modelle auf dem, worauf es im deutschen Geschäftsalltag ankommt – von der formellen Korrespondenz über Behördendeutsch bis zu Recht und Quellentreue. Einer der ersten, der gezielt auf echte deutsche Geschäftsaufgaben misst – transparent und mit Stand.
Gesamtwertung über sechs deutsche Geschäftsdisziplinen (0–100 Punkte). Klick auf ein Modell zeigt die Einzelwerte je Disziplin.
Die Spitzengruppe liegt eng beieinander: Unterschiede von wenigen Punkten liegen bei 24 Aufgaben je Lauf im Messrauschen – aussagekräftig sind die größeren Abstände und der Verlauf über mehrere Läufe.
Jede Zelle ist der Punktwert (0–100) eines Modells in einer Disziplin – je kräftiger die Farbe, desto besser. Der Spitzenwert je Spalte ist umrandet.
| Modell | Geschäftskommunikation | Amts- & Behördendeutsch | Recht & Steuern (Fachwissen) | Zusammenfassung & Treue | Quellentreue (Dokument-Q&A) | Sprachqualität & Stil | Gesamt |
|---|---|---|---|---|---|---|---|
| Claude Opus 4.8Anthropic | 97 | 95 | 99 | 96 | 100 | 100 | 98 |
| GPT-5.5OpenAI | 96 | 90 | 100 | 90 | 100 | 96 | 95 |
| Qwen3.7 MaxAlibaba | 90 | 80 | 94 | 95 | 100 | 98 | 93 |
| Gemini 3.1 ProGoogle | 87 | 79 | 94 | 92 | 100 | 92 | 91 |
| DeepSeek V4-ProDeepSeek | 96 | 83 | 74 | 93 | 100 | 97 | 91 |
| Grok 4.3xAI | 93 | 78 | 77 | 95 | 100 | 97 | 90 |
| Mistral Large 3Mistral | 91 | 79 | 93 | 93 | 80 | 94 | 88 |
Kein Modell ist überall vorn. Das Netzdiagramm zeigt, wo die drei besten Modelle ihre Stärken und Lücken über die sechs Disziplinen haben.
Tippen zum Ein- und Ausblenden · Zeiger drüber hebt ein Modell hervor und zeigt seine Werte.
Die Gesamtwertung verdeckt, dass jede Disziplin einen anderen Spitzenreiter hat. Hier das beste Modell je Feld.
Formelle deutsche Geschäftskorrespondenz – E-Mails, Angebote, Absagen im richtigen Register.
Behördensprache verstehen und in klares Deutsch übersetzen – oder selbst korrekt verfassen.
Überprüfbare Fragen zu deutschem Recht und Steuern (BGB, AO, Fristen, Verjährung).
Deutsche Fachtexte treu zusammenfassen – Kernaussagen erfassen, Zahlen nicht verändern, nichts erfinden.
Fragen ausschließlich aus einem deutschen Dokument beantworten – und „steht nicht im Dokument“ sagen, wenn die Antwort fehlt.
Grammatikalisch einwandfreies, idiomatisches Deutsch – korrekte Umlaute/ß, kein Übersetzungs-Deutsch, Registerkontrolle.
Eine Primärmessung – kein Abschreiben öffentlicher Ranglisten. Jedes Modell löst dieselben deutschen Aufgaben; bewertet wird namensblind von einem anbieterübergreifenden Panel gegen feste Rubriken und Musterlösungen.
Nur Beispielaufgaben sind öffentlich. Das eigentliche Test-Set bleibt privat, damit der Benchmark nicht trainiert oder manipuliert werden kann.
Bewertet von einem Panel aus drei unabhängigen Modellen unterschiedlicher Anbieter (OpenAI, Google, Anthropic), die selbst nicht im Ranking stehen. Kein Modell wird je von einem Bewerter aus dem eigenen Haus benotet (Leave-one-family-out): Die Antworten eines Anbieters wertet nur ein anbieterfremdes Panel. Bewertet wird namensblind (der Bewerter kennt den Modellnamen nicht) und absolut gegen eine feste Rubrik samt Musterlösung; die Einzelnoten werden gemittelt. Ergebnisse werden stichprobenartig von Hand geprüft.
Regelmäßiger Lauf; jedes Ergebnis wird versioniert (der Verlauf ist der eigentliche Wert).
Sechs Beispielaufgaben – je eine pro Disziplin. Die eigentlichen Testaufgaben bleiben privat, damit der Benchmark nicht trainiert oder manipuliert werden kann.
„Schreibe eine freundliche Auftragsbestätigung an einen Neukunden – mit Bestellübersicht und voraussichtlichem Liefertermin. Sie-Form.“
„Was bedeutet es, wenn ein Steuerbescheid „bestandskräftig“ geworden ist? Erkläre es in einfachen Worten – ohne die fachliche Korrektheit zu verlieren.“
„Welche gesetzliche Kündigungsfrist gilt für den Arbeitgeber nach § 622 BGB bei 8 Jahren Betriebszugehörigkeit?“
Erwartet: 3 Monate zum Ende eines Kalendermonats
„Fasse den folgenden zweiseitigen Geschäftsbericht-Auszug in fünf Stichpunkten zusammen, ohne Zahlen zu verändern. [Text wird gestellt]“
„Beantworte ausschließlich anhand des beigefügten Datenschutz-Dokuments: Wie lange werden Bewerberdaten gespeichert? Wenn es nicht im Dokument steht, sage das ausdrücklich.“
„Überarbeite einen holprigen, maschinell wirkenden Text zu natürlichem, idiomatischem Geschäftsdeutsch und korrigiere Grammatik- und Stilfehler. [Text wird gestellt]“
Die großen Ranglisten messen fast nur auf Englisch. Für deutsche Unternehmen entscheidet aber, wie gut ein Modell deutsche Geschäftssprache, Behördendeutsch und deutsches Recht beherrscht. Genau das misst dieser Benchmark – als einer der ersten, der KI gezielt auf echte deutsche Geschäftsaufgaben statt auf akademische Tests prüft.
Jedes Modell beantwortet dieselben Aufgaben. Ein Panel aus drei unabhängigen Modellen verschiedener Anbieter, die selbst nicht im Ranking stehen, bewertet die Antworten namensblind gegen eine feste Rubrik und, wo möglich, eine Musterlösung; kein Modell wird je von einem Bewerter aus dem eigenen Haus benotet. Stichproben prüfen wir von Hand.
Wäre das Test-Set öffentlich, könnten Modelle darauf trainiert werden und der Vergleich wäre wertlos. Wir zeigen je Disziplin eine andere Beispielaufgabe als im privaten Set; das eigentliche Set bleibt privat und wird laufend erneuert. „Privat“ bedeutet hier: nicht öffentlich gelistet – die Aufgabentexte laufen technisch über die Schnittstellen der Anbieter.
Der Benchmark wird in regelmäßigen Abständen neu gemessen; oben steht, wann zuletzt gemessen wurde. Liefert ein Modell zu wenige gültige Antworten, behalten wir seinen vorherigen Wert, statt einen Ausreißer zu veröffentlichen.
Zuletzt gemessen: 22. Juni 2026
Die Werte sind Momentaufnahmen einer automatisierten Bewertung über ein privates Test-Set; sie messen Leistung auf deutschen Geschäftsaufgaben, nicht „Qualität“ allgemein. Modellnamen und -versionen richten sich nach der Verfügbarkeit über den genutzten Gateway. Einzelne Läufe können schwanken – maßgeblich ist der Verlauf, nicht ein einzelner Lauf. Bei derzeit 24 Aufgaben je Lauf sind kleine Punktunterschiede statistisch nicht belastbar; Modelle mit wenigen Punkten Abstand gelten als gleichauf.
Wir bringen das Modell mit dem besten Deutsch in deinen Prozess – für Korrespondenz, Dokumente und Verträge, mit Blick auf Kosten und Datenschutz.