ForschungModelle

CEO-Bench: Princeton testet strategische Intelligenz von KI-Agenten – die meisten scheitern

Forscher der Princeton University haben CEO-Bench entwickelt, einen Test, bei dem KI-Agenten ein fiktives Softwareunternehmen über 500 simulierte Tage führen müssen – nur drei Modelle enden mit Gewinn, ein einfacher regelbasierter Algorithmus schlägt fast alle.

Im Detail

  • CEO-Bench simuliert ein realistisches Startup-Szenario: NovaMind startet mit null Kunden und einer Million Dollar, die KI muss das Unternehmen profitabel halten oder geht bankrott.
  • Der Agent steuert das Unternehmen über eine Python-API mit 34 Tools und 19 Datenbanktabellen – schreibt eigenen Code, führt SQL-Abfragen durch und baut Custom-Workflows.
  • Die Benchmark misst nicht einzelne Aufgaben, sondern langfristige strategische Steuerung unter Unsicherheit: Prioritäten setzen, Ressourcen verteilen, noisy Signale interpretieren, sich an Veränderungen anpassen.

Warum es zählt

Aktuelle KI-Agenten sind gut bei isolierten Aufgaben, aber scheitern bei komplexen, mehrstufigen Entscheidungen unter Unsicherheit – genau das, was Geschäftsführer täglich tun. Dieser Test zeigt, dass strategische Intelligenz noch nicht gelöst ist.

Für dich Vertrau nicht darauf, dass heutige KI-Agenten dein Unternehmen selbstständig steuern können – sie sind für operative Einzelaufgaben reif, nicht für strategische Gesamtverantwortung.

← Alle News

Zusammenfassungen werden automatisch erstellt und verlinken auf die Originalquelle.