ARC-AGI-3
offenInteraktives, neuartiges Schlussfolgern in unbekannten Mini-Umgebungen.
Ein eigens gebautes RL-/Suchsystem (kein Sprachmodell) erreichte 12,58 %.
An den leichten Tests ist nichts mehr zu sehen – jedes Spitzenmodell liegt über 90 %. Spannend wird es nur dort, wo Modelle scheitern. Hier siehst du die härtesten offenen Benchmarks – und wie schnell sich der Abstand zum Menschen schließt.
Je leerer der Balken, desto weiter ist die KI noch vom Menschen entfernt. ARC-AGI-3 ist der aktuelle Tiefpunkt: Menschen lösen 100 %, das beste Modell 0,37 %.
Interaktives, neuartiges Schlussfolgern in unbekannten Mini-Umgebungen.
Ein eigens gebautes RL-/Suchsystem (kein Sprachmodell) erreichte 12,58 %.
Ungelöste Mathematik auf Forschungsniveau.
Epoch hat am 12.06.2026 FrontierMath v2 veröffentlicht (bereinigte Aufgaben).
Tausende Expertenfragen am Rand des menschlichen Wissens.
Werte schwanken je nach Test-Setup (ca. 53–64 %); im letzten Jahr rund +30 Prozentpunkte.
Echte Software-Bugs in echten GitHub-Projekten beheben.
Naturwissenschaft auf Promotionsniveau, „google-sicher“.
Modelle liegen inzwischen über dem menschlichen Fachniveau – der Test verliert seine Trennschärfe.
Tests, die Jahre lang fordern sollten, sind heute in Monaten ausgereizt. MMLU (2020) hielt rund vier Jahre, GPQA (2023) nur noch zwei. Das ist die eigentliche Geschichte – nicht ein einzelner Wert, sondern das Tempo.
Zuletzt geprüft: 21. Juni 2026
Benchmark-Werte sind Momentaufnahmen und je nach Test-Setup unterschiedlich. Sie messen einzelne Fähigkeiten, nicht „Intelligenz“ insgesamt.
Nein. Diese Tests messen eng umrissene Fähigkeiten. Ein Modell kann GPQA-Fragen über menschlichem Niveau beantworten und an ARC-AGI-3 fast vollständig scheitern. „Stand der KI“ ist ein Fortschrittsbild, keine AGI-Prognose.
Verschiedene Leaderboards testen unter leicht anderen Bedingungen (Prompting, Tool-Zugriff, Test-Version). Wir nennen pro Wert Quelle und Datum – und wo es eine Spanne gibt, sagen wir das.
Sie wird aus offiziellen Leaderboards gepflegt; oben steht der Stand. Demnächst aktualisiert sie sich automatisch – bis dahin prüfen wir sie regelmäßig von Hand.
Wir ordnen ein, was für dein Geschäft wirklich relevant ist – und setzen die Anwendungsfälle um, die sich heute lohnen.