Mehrstufige, quantitative Probleme auf Wettbewerbs- und Forschungsniveau.
Jedes große KI-Modell auf einer Skala – berechnet aus den härtesten öffentlichen Benchmarks in sieben Disziplinen, zusammengefasst zu einem impliziten KI-IQ. Transparent, konservativ, mit Quelle und Stand.
Sortiert nach implizitem KI-IQ über sieben Dimensionen. Klick auf ein Modell zeigt, woraus sich der Wert zusammensetzt.
Kein Modell ist überall vorn. Das Netzdiagramm zeigt, wo die drei besten Modelle ihre Stärken und Lücken haben – über alle sieben Dimensionen.
Tippen zum Ein- und Ausblenden · Zeiger drüber hebt ein Modell hervor und zeigt seine Werte.
Der Gesamt-IQ verdeckt, dass jede Dimension einen anderen Spitzenreiter hat. Hier das beste Modell je Fähigkeit.
Mehrstufige, quantitative Probleme auf Wettbewerbs- und Forschungsniveau.
Naturwissenschaft auf Promotionsniveau, „google-sicher“.
Neuartige Muster erkennen, die nicht im Training vorkamen (fluide Intelligenz).
Aus einem Prompt eine funktionierende Web-App bauen (Nutzer-Votum).
Echte Bugs in echten GitHub-Projekten beheben.
Eigenständig Browser, Terminal und Desktop bedienen (agentisch).
Anweisungen befolgen und Nichtwissen zugeben statt halluzinieren.
Mehr IQ kostet mehr – aber nicht linear. Die günstigen Modelle (grün) liefern oft den Großteil der Leistung zu einem Bruchteil des Preises. Für viele Aufgaben reicht das.
Transparent und konservativ. Kein Modell wird auf einen einzelnen Lieblings-Benchmark reduziert – und fehlende Daten dürfen einen Wert nie schönen.
Jedes Modell wird in sieben kognitiven Feldern bewertet – von Mathematik über abstraktes Denken bis Computer-Nutzung. Jede Dimension speist sich aus offiziellen, öffentlichen Benchmarks.
Die Benchmark-Ergebnisse werden je Dimension auf eine 0–100-Skala gebracht. Fehlt ein Wert, wird er konservativ ergänzt (niedrigster belegter Wert) – markiert mit ≈.
Der Gesamt-Score ist der ungewichtete Mittelwert aller sieben Dimensionen. So zählt auch, wo ein Modell schwach ist – nicht nur seine Paradedisziplin.
Der Score wird über eine feste, offengelegte Formel auf eine IQ-ähnliche Skala (50–150) gebracht – als Einordnungshilfe, nicht als menschlicher IQ-Test.
IQ = 50 + Ø(7 Dim.)Die IQ-Skala ist eine Einordnungshilfe – sie behauptet nicht, dass ein Modell in einem menschlichen IQ-Test diesen Wert erzielen würde. Score 50 entspricht IQ 100; ein in allem perfektes Modell läge bei 150.Nein. „KI-IQ“ ist eine Einordnungshilfe: Wir übersetzen Benchmark-Leistung in eine vertraute Skala. Ein Sprachmodell „hat“ keinen IQ im menschlichen Sinn – aber die Skala macht Leistungsabstände auf einen Blick vergleichbar.
Weil Intelligenz nicht eindimensional ist. Ein Modell kann bei Mathematik führen und bei abstraktem Denken zurückliegen. Genau deshalb mitteln wir über sieben Dimensionen, statt einen Lieblings-Benchmark zu zeigen.
Aus offiziellen, öffentlichen Leaderboards (Epoch AI, ARC Prize, SWE-bench, LMArena u. a.). Jede Dimension nennt ihre Benchmarks; unten stehen die Quellen mit Stand.
Es wird automatisch aus den Leaderboards aktualisiert; oben steht, wann sich zuletzt ein Wert bewegt hat. Findet sich keine belastbare Änderung, bleibt der letzte geprüfte Wert stehen – das Ranking kann nachlaufen, aber nicht raten.
Zuletzt geprüft: 22. Juni 2026
Benchmark-Werte sind Momentaufnahmen und je nach Test-Setup unterschiedlich. Einige Tests (AIME, GPQA) sind an der Spitze nahezu ausgereizt, ARC-AGI-2 ist nur für wenige Modelle offiziell verifiziert – fehlende Werte sind konservativ ergänzt (≈). Preise sind ca.-Angaben je 1 Mio. Output-Token, einzelne ohne offizielle Angabe geschätzt. Der KI-IQ aggregiert all das zu einer Vergleichszahl – er misst Benchmark-Leistung, nicht „Intelligenz“ im menschlichen Sinn.
Wir bewerten nicht nur Benchmarks, sondern bringen das richtige Modell in deinen Prozess – mit Blick auf Kosten, Tempo und Datenschutz.