KI-IQ

Wie schlau ist welche KI?

Jedes große KI-Modell auf einer Skala – berechnet aus den härtesten öffentlichen Benchmarks in sieben Disziplinen, zusammengefasst zu einem impliziten KI-IQ. Transparent, konservativ, mit Quelle und Stand.

Stand: 22. Juni 2026Aus offiziellen Leaderboards. Methodik offengelegt, jede Zahl belegt.

Das KI-IQ-Ranking

Sortiert nach implizitem KI-IQ über sieben Dimensionen. Klick auf ein Modell zeigt, woraus sich der Wert zusammensetzt.

50Skala 50–150 · Klick auf ein Modell zeigt die 7 Dimensionen150

Stärken-Profil der Top 3

Kein Modell ist überall vorn. Das Netzdiagramm zeigt, wo die drei besten Modelle ihre Stärken und Lücken haben – über alle sieben Dimensionen.

Tippen zum Ein- und Ausblenden · Zeiger drüber hebt ein Modell hervor und zeigt seine Werte.

Wer führt in welcher Disziplin?

Der Gesamt-IQ verdeckt, dass jede Dimension einen anderen Spitzenreiter hat. Hier das beste Modell je Fähigkeit.

Mathematisches Denken

Mehrstufige, quantitative Probleme auf Wettbewerbs- und Forschungsniveau.

GPT-5.591/100

aus: FrontierMath v2 · AIME 2025

Wissenschaftliches Denken

Naturwissenschaft auf Promotionsniveau, „google-sicher“.

Gemini 3.1 Pro94/100

aus: GPQA Diamond

Abstraktes Denken

Neuartige Muster erkennen, die nicht im Training vorkamen (fluide Intelligenz).

GPT-5.553/100

aus: ARC-AGI-2

App-Entwicklung

Aus einem Prompt eine funktionierende Web-App bauen (Nutzer-Votum).

Claude Fable 592/100

aus: WebDev Arena

Software-Engineering

Echte Bugs in echten GitHub-Projekten beheben.

Claude Opus 4.888/100

aus: SWE-bench Verified

Computer-Nutzung

Eigenständig Browser, Terminal und Desktop bedienen (agentisch).

Claude Fable 585/100

aus: OSWorld · BrowseComp

Verlässlichkeit

Anweisungen befolgen und Nichtwissen zugeben statt halluzinieren.

Claude Fable 585/100

aus: AA-Omniscience · Halluzinationsrate

Intelligenz gegen Kosten

Mehr IQ kostet mehr – aber nicht linear. Die günstigen Modelle (grün) liefern oft den Großteil der Leistung zu einem Bruchteil des Preises. Für viele Aufgaben reicht das.

Kosten je 1 Mio. Output-Token (log)Impliziter KI-IQ

Wie der KI-IQ entsteht

Transparent und konservativ. Kein Modell wird auf einen einzelnen Lieblings-Benchmark reduziert – und fehlende Daten dürfen einen Wert nie schönen.

1
Sieben Dimensionen
Jedes Modell wird in sieben kognitiven Feldern bewertet – von Mathematik über abstraktes Denken bis Computer-Nutzung. Jede Dimension speist sich aus offiziellen, öffentlichen Benchmarks.
2
Score je Dimension (0–100)
Die Benchmark-Ergebnisse werden je Dimension auf eine 0–100-Skala gebracht. Fehlt ein Wert, wird er konservativ ergänzt (niedrigster belegter Wert) – markiert mit ≈.
3
Mittelwert statt Rosinen
Der Gesamt-Score ist der ungewichtete Mittelwert aller sieben Dimensionen. So zählt auch, wo ein Modell schwach ist – nicht nur seine Paradedisziplin.
4
Abbildung auf die IQ-Skala
Der Score wird über eine feste, offengelegte Formel auf eine IQ-ähnliche Skala (50–150) gebracht – als Einordnungshilfe, nicht als menschlicher IQ-Test.

Die FormelIQ = 50 + Ø(7 Dim.)Die IQ-Skala ist eine Einordnungshilfe – sie behauptet nicht, dass ein Modell in einem menschlichen IQ-Test diesen Wert erzielen würde. Score 50 entspricht IQ 100; ein in allem perfektes Modell läge bei 150.

Häufige Fragen

Ist das ein echter IQ-Test?

Nein. „KI-IQ“ ist eine Einordnungshilfe: Wir übersetzen Benchmark-Leistung in eine vertraute Skala. Ein Sprachmodell „hat“ keinen IQ im menschlichen Sinn – aber die Skala macht Leistungsabstände auf einen Blick vergleichbar.

Warum ist das beste Modell nicht in jeder Disziplin vorn?

Weil Intelligenz nicht eindimensional ist. Ein Modell kann bei Mathematik führen und bei abstraktem Denken zurückliegen. Genau deshalb mitteln wir über sieben Dimensionen, statt einen Lieblings-Benchmark zu zeigen.

Woher kommen die Werte?

Aus offiziellen, öffentlichen Leaderboards (Epoch AI, ARC Prize, SWE-bench, LMArena u. a.). Jede Dimension nennt ihre Benchmarks; unten stehen die Quellen mit Stand.

Wie aktuell ist das Ranking?

Es wird automatisch aus den Leaderboards aktualisiert; oben steht, wann sich zuletzt ein Wert bewegt hat. Findet sich keine belastbare Änderung, bleibt der letzte geprüfte Wert stehen – das Ranking kann nachlaufen, aber nicht raten.

Quellen & Stand

Zuletzt geprüft: 22. Juni 2026

Benchmark-Werte sind Momentaufnahmen und je nach Test-Setup unterschiedlich. Einige Tests (AIME, GPQA) sind an der Spitze nahezu ausgereizt, ARC-AGI-2 ist nur für wenige Modelle offiziell verifiziert – fehlende Werte sind konservativ ergänzt (≈). Preise sind ca.-Angaben je 1 Mio. Output-Token, einzelne ohne offizielle Angabe geschätzt. Der KI-IQ aggregiert all das zu einer Vergleichszahl – er misst Benchmark-Leistung, nicht „Intelligenz“ im menschlichen Sinn.

Welches Modell passt zu deinem Anwendungsfall?

Wir bewerten nicht nur Benchmarks, sondern bringen das richtige Modell in deinen Prozess – mit Blick auf Kosten, Tempo und Datenschutz.

Gespräch vereinbaren Leistungen ansehen