ModelleForschungTools

MirrorCode-Benchmark: Claude Opus 4.7 reimplementiert 16.000-Zeilen-Programme in 14 Stunden

Epoch AI und METR haben einen neuen Benchmark vorgestellt, bei dem KI-Modelle komplette Programme von Grund auf neu schreiben müssen – Claude Opus 4.7 führt mit 56 % Erfolgsquote an.

Im Detail

  • MirrorCode testet 25 Ziel-Programme (Unix-Utilities, Datenserialisierung, Bioinformatik, Interpreter, statische Analyse, Kryptographie, Kompression).
  • Claude Opus 4.7 reimplementierte gotree (16.000 Zeilen Go-Code, 40+ Befehle) in 14 Stunden für $251 – ein Mensch bräuchte 2–17 Wochen.
  • Gesamtranking: Claude Opus 4.7 (56 %), GPT-5.5 (44 %), Gemini 3.1 Pro Preview (32 %); größte Aufgaben schlagen alle Modelle.
  • Eine einzelne große Aufgabe kostete $2.600 und lief 19 Tage ununterbrochen – zeigt, dass KI bereits anspruchsvolle Langzeit-Programmieraufgaben bewältigt.

Warum es zählt

Der Benchmark demonstriert, dass KI-Modelle bereits komplexe Softwareentwicklungsaufgaben übernehmen können, die bisher Wochen menschlicher Arbeit erforderten. Das hat unmittelbare Auswirkungen auf die Produktivität und Kostenstruktur von Softwareentwicklung.

Für dich Prüfe, ob dein Unternehmen Routine-Programmieraufgaben (Refactoring, Utility-Entwicklung) an Claude Opus 4.7 auslagern kann – die Kostenersparnis könnte erheblich sein.

← Alle News

Zusammenfassungen werden automatisch erstellt und verlinken auf die Originalquelle.