Neue Benchmarks und Methoden zeigen Grenzen und Sparpotenzial bei Coding‑AI

Im Detail

SWE‑Explore‑Benchmark trennt Code‑Suche von tatsächlicher Fehlerbehebung; Dataset: 848 Probleme aus 203 Open‑Source‑Projekten, viele mit mehreren erfolgreichen Modelllösungen.
Google stellt Gemini‑SQL2 (auf Gemini 3.1 Pro) vor; erreicht 80.04% Execution‑Accuracy auf dem BIRD text‑to‑SQL‑Benchmark (OpenAI GPT‑5.5‑xhigh ~72.8%).
Microsofts SkillOpt trainiert ‚Skills‘ als editierbare Markdown‑Dokumente; laut Paper steigert das GPT‑5.5 um >20 Punkte bei prozeduralen Aufgaben.
Moonshot veröffentlicht Kimi K2.7 Code (open weights) mit Fokus auf Coding: deutlich preiswerter pro Token; Benchmark‑Leistungen variieren gegenüber GPT‑5.5 und Claude.

Warum es zählt

Für Entwickler-Workflows ist wichtig zu wissen, dass Agenten oft die richtigen Dateien finden, aber relevante Codezeilen übersehen; zugleich gibt es Wege, Leistung kostengünstig zu verbessern — relevant für Budget und Integration.

Für dich Teste Coding‑Agenten in deinem Code‑basisspezifischen Kontext: überprüfe ob sie die relevanten Codezeilen identifizieren und evaluiere Skill‑ oder prompt‑Training als günstige Optimierung.

Quellen

The Decoder

Zusammenfassungen werden automatisch erstellt und verlinken auf die Originalquelle.