Neuer AA‑Briefcase‑Benchmark: KI scheitert weitgehend an realer Wissensarbeit

Im Detail

Benchmark von Artificial Analysis testet multi‑wöchige Wissensarbeitsprojekte aus tausenden fragmentierter Quellen (Slack, E‑Mails, Meeting‑Transkripte, große Datendumps).
Top‑Performer Claude Fable 5 erreicht den höchsten Rubric‑Pass‑Rate, erfüllt aber alle Kriterien nur in 3 % der Aufgaben.
In 31 von 91 Aufgaben schafft kein Modell mehr als 50 % der Anforderungen.
Kosten pro Aufgabe variieren massiv: von ~0,04 USD (DeepSeek V4 Flash) bis über 31 USD (Claude Fable 5), also mehr als 800‑facher Unterschied.

Warum es zählt

Viele Unternehmen erwarten, dass LLMs komplexe, mehrwöchige Recherche‑ und Koordinationsaufgaben übernehmen können; der Benchmark zeigt, dass das praktisch oft nicht der Fall ist und Fehler je nach Modelltyp unterschiedlich ausfallen — von offensichtlichem Versagen bis zu subtilen Detailfehlern. Das beeinflusst Kostenkalkulation, Einsatzgrenzen und Vertrauen in KI‑gestützte Knowledge‑Work‑Automati

Für dich Prüfe KI‑Einsatzfälle, indem du ähnliche, realistische Daten‑Szenarien als Pilot testest; messe sowohl Vollständigkeit als auch Detailtreue und vergleiche Kosten pro Aufgabe statt nur API‑Preise.

Quellen

The Decoder

Zusammenfassungen werden automatisch erstellt und verlinken auf die Originalquelle.