Im Detail
- SWE‑Explore‑Benchmark trennt Code‑Suche von tatsächlicher Fehlerbehebung; Dataset: 848 Probleme aus 203 Open‑Source‑Projekten, viele mit mehreren erfolgreichen Modelllösungen.
- Google stellt Gemini‑SQL2 (auf Gemini 3.1 Pro) vor; erreicht 80.04% Execution‑Accuracy auf dem BIRD text‑to‑SQL‑Benchmark (OpenAI GPT‑5.5‑xhigh ~72.8%).
- Microsofts SkillOpt trainiert ‚Skills‘ als editierbare Markdown‑Dokumente; laut Paper steigert das GPT‑5.5 um >20 Punkte bei prozeduralen Aufgaben.
- Moonshot veröffentlicht Kimi K2.7 Code (open weights) mit Fokus auf Coding: deutlich preiswerter pro Token; Benchmark‑Leistungen variieren gegenüber GPT‑5.5 und Claude.
Warum es zählt
Für Entwickler-Workflows ist wichtig zu wissen, dass Agenten oft die richtigen Dateien finden, aber relevante Codezeilen übersehen; zugleich gibt es Wege, Leistung kostengünstig zu verbessern — relevant für Budget und Integration.
Für dich Teste Coding‑Agenten in deinem Code‑basisspezifischen Kontext: überprüfe ob sie die relevanten Codezeilen identifizieren und evaluiere Skill‑ oder prompt‑Training als günstige Optimierung.