Stand der KI – Live-Fortschritt an der Leistungsgrenze

Wie schlau ist KI gerade wirklich?

An den leichten Tests ist nichts mehr zu sehen – jedes Spitzenmodell liegt über 90 %. Spannend wird es nur dort, wo Modelle scheitern. Hier siehst du die härtesten offenen Benchmarks – und wie schnell sich der Abstand zum Menschen schließt.

Stand: 21. Juni 2026Kuratiert aus offiziellen Leaderboards. Jede Zahl mit Quelle und Stand.

Die Leistungsgrenze – wo Modelle (noch) scheitern

Je leerer der Balken, desto weiter ist die KI noch vom Menschen entfernt. ARC-AGI-3 ist der aktuelle Tiefpunkt: Menschen lösen 100 %, das beste Modell 0,37 %.

ARC-AGI-3

offen

Interaktives, neuartiges Schlussfolgern in unbekannten Mini-Umgebungen.

100 % · Mensch

0,37 %

Bestes Modell: Gemini 3.1 ProMensch löst 100 %ARC Prize

Ein eigens gebautes RL-/Suchsystem (kein Sprachmodell) erreichte 12,58 %.

FrontierMath

steigt

Ungelöste Mathematik auf Forschungsniveau.

47,6 %

Bestes Modell: GPT-5.4Forschungs-Mathematik (Stunden pro Aufgabe)Epoch AI

Epoch hat am 12.06.2026 FrontierMath v2 veröffentlicht (bereinigte Aufgaben).

Humanity's Last Exam

steigt

Tausende Expertenfragen am Rand des menschlichen Wissens.

64,5 %

Bestes Modell: Claude Mythos 5Fachexperten je FachgebietHLE / Safe AI

Werte schwanken je nach Test-Setup (ca. 53–64 %); im letzten Jahr rund +30 Prozentpunkte.

SWE-bench Verified

steigt

Echte Software-Bugs in echten GitHub-Projekten beheben.

80,9 %

Bestes Modell: Claude Opus 4.5Anteil gelöster echter TicketsSWE-bench

GPQA Diamond

fast ausgereizt

Naturwissenschaft auf Promotionsniveau, „google-sicher“.

70 % · Mensch

94,1 %

Bestes Modell: Gemini 3.1 ProPromovierte Fachleute ≈ 70 %Epoch AI

Modelle liegen inzwischen über dem menschlichen Fachniveau – der Test verliert seine Trennschärfe.

Die Halbwertszeit von Benchmarks schrumpft

Tests, die Jahre lang fordern sollten, sind heute in Monaten ausgereizt. MMLU (2020) hielt rund vier Jahre, GPQA (2023) nur noch zwei. Das ist die eigentliche Geschichte – nicht ein einzelner Wert, sondern das Tempo.

MMLU

4 J.

GPQA

2 J.

Humanity's Last Exam

noch offen

ARC-AGI-3

noch offen

20202021202220232024202520262027

Stanford AI Index 2026

Häufige Fragen

Heißt „nah am Menschen“, dass KI bald alles kann?

Nein. Diese Tests messen eng umrissene Fähigkeiten. Ein Modell kann GPQA-Fragen über menschlichem Niveau beantworten und an ARC-AGI-3 fast vollständig scheitern. „Stand der KI“ ist ein Fortschrittsbild, keine AGI-Prognose.

Warum widersprechen sich manche Zahlen?

Verschiedene Leaderboards testen unter leicht anderen Bedingungen (Prompting, Tool-Zugriff, Test-Version). Wir nennen pro Wert Quelle und Datum – und wo es eine Spanne gibt, sagen wir das.

Wie aktuell ist diese Seite?

Sie wird aus offiziellen Leaderboards gepflegt; oben steht der Stand. Demnächst aktualisiert sie sich automatisch – bis dahin prüfen wir sie regelmäßig von Hand.

Wie schlau ist KI gerade wirklich?

Die Leistungsgrenze – wo Modelle (noch) scheitern

ARC-AGI-3

FrontierMath

Humanity's Last Exam

SWE-bench Verified

GPQA Diamond

Die Halbwertszeit von Benchmarks schrumpft

Quellen & Stand

Häufige Fragen

KI bewegt sich schneller als dein letzter Plan?