Das vielleicht erfolgreichste KI-Geschäftsmodell des Jahres besteht aus einer einzigen Frage: „Welche Antwort ist besser – A oder B?" Millionen Menschen beantworten sie freiwillig und unbezahlt auf der Plattform Arena (früher LMArena bzw. Chatbot Arena). Ende Juni hat das Unternehmen dahinter verkündet, mit den gesammelten Stimmen einen annualisierten Umsatz von 100 Millionen Dollar erreicht zu haben – kein Jahr nach dem Start des kommerziellen Angebots. Wir haben uns angesehen, wie aus Gratis-Klicks ein Milliardenunternehmen wurde, wo die Methode angreifbar ist – und was dem deutschsprachigen Raum hier fehlt.
Kurz & knapp
- 100 Mio. $ annualisierter Umsatz, verkündet am 29. Juni 2026 – rund acht Monate nach dem Start des Bezahlangebots „AI Evaluations" im September 2025. Zum Jahreswechsel lag die Rate noch bei rund 30 Mio. $.
- 82 Millionen+ Stimmen aus 700 Millionen+ Unterhaltungen und 10 Millionen+ Besuchern pro Monat – so die (selbst berichteten) Zahlen des Unternehmens.
- Bewertung: 1,7 Milliarden Dollar nach einer Series A über 150 Mio. $ im Januar 2026; insgesamt hat Arena 250 Mio. $ eingesammelt.
- Das Produkt ist nicht die Website, sondern die Daten: KI-Labore zahlen für detaillierte Auswertungen, wie ihre Modelle bei echten Menschen ankommen.
- Die Methode hat dokumentierte Schwächen: eine vielzitierte Studie wirft dem Leaderboard strukturelle Bevorzugung großer Labore vor, und Meta hat es 2025 vorgeführt, wie sich die Rangliste mit einer geschönten Modellvariante austricksen lässt.
So funktioniert das Duell
Das Prinzip ist bewusst simpel. Du stellst eine Frage, zwei anonyme KI-Modelle antworten nebeneinander, du stimmst ab: A, B, unentschieden oder beide schlecht. Erst nach deiner Stimme verrät die Seite, welche Modelle du gerade verglichen hast. Diese Reihenfolge ist der Kern der Methode: Wer nicht weiß, ob die Antwort von OpenAI oder einem unbekannten Open-Source-Modell stammt, stimmt ohne Markenbrille ab.
Aus Millionen solcher Paarvergleiche errechnet Arena eine Rangliste – seit Dezember 2023 nicht mehr mit dem Schach-Elo-System, sondern mit dem statistisch robusteren Bradley-Terry-Modell: Ein Sieg gegen ein starkes Modell zählt mehr als einer gegen ein schwaches. Seit 2024 gibt es zusätzlich eine „Style Control"-Ansicht, die Formatierung und Antwortlänge herausrechnet – denn Menschen bevorzugen messbar längere, hübsch formatierte Antworten, unabhängig von der Substanz.
Probier es aus: dein erstes KI-Duell
So fühlt sich das Prinzip an – mit zwei echten, unveränderten Antworten von GPT-5.5 und Claude Opus 4.8 auf dieselbe deutsche Alltagsaufgabe:
Vom Berkeley-Projekt zur Milliardenfirma
Die Chatbot Arena startete 2023 als Forschungsprojekt an der UC Berkeley (LMSYS-Gruppe). Erst im April 2025 wurde daraus ein Unternehmen, gegründet von Anastasios Angelopoulos, Wei-Lin Chiang und Ion Stoica. Danach ging es schnell:
Bezahlt wird nicht per Abo, sondern nach Verbrauch: KI-Entwickler kaufen Auswertungen darüber, wie ihre Modelle in echten Nutzer-Duellen abschneiden – aufgeschlüsselt nach Aufgabentypen, Sprachen, Schwächen. Das Geschäftsmodell ist damit bemerkenswert ehrlich zusammengefasst: Die Nutzer liefern die Arbeit, die Plattform verkauft das Destillat. Öffentlich benannte zahlende Kunden gibt es übrigens nicht – auch das gehört zum Bild.
Die Risse im Leaderboard
Je wichtiger die Rangliste wurde, desto genauer schaute die Forschung hin – und fand Erhebliches.
Die Studie „The Leaderboard Illusion" (April 2025, Cohere Labs zusammen mit Forschenden u. a. von Princeton, Stanford und MIT) dokumentierte, dass große Labore vor Veröffentlichung private Modellvarianten in der Arena testen durften und nur das beste Ergebnis publik wurde – Meta testete demnach allein 27 private Varianten vor dem Llama-4-Start. Außerdem stammten laut Studie 19,2 % aller Duell-Daten von Google-Modellen und 20,4 % von OpenAI-Modellen, während sich 83 Open-Weight-Modelle zusammen 29,7 % teilten. Arena widersprach in Teilen – die Regeln für Vorab-Tests seien seit März 2024 öffentlich, offene Modelle machten 40,9 % des Leaderboards aus – räumte aber Verbesserungsbedarf ein.
Wie verwundbar ein Abstimmungs-Ranking ist, zeigte im selben Monat der Fall Llama 4 Maverick: Meta reichte eine auf Gefälligkeit getrimmte Experimentalversion ein, die auf Platz 2 schoss. Die tatsächlich veröffentlichte Version desselben Modells landete anschließend auf Rang 32. Arena entschuldigte sich und verschärfte die Regeln.
Der dritte Riss ist subtiler: Crowd-Stimmen messen, was gefällt – nicht, was stimmt. Längere, formatierte, gefällige Antworten gewinnen systematisch. Genau deshalb gibt es die Style-Control-Ansicht; und genau deshalb warnen Fachleute davor, ein Beliebtheits-Ranking mit einem Fähigkeits-Benchmark zu verwechseln.
Und auf Deutsch?
Arena führt zwar eine deutsche Kategorie-Rangliste – sie entsteht als Nebenprodukt, wenn das System deutschsprachige Duelle automatisch einsortiert. Aktuell stehen dort rund 136.000 Stimmen über 276 Modelle, und die Spitzenplätze liegen innerhalb der statistischen Unschärfe gleichauf. Zum Vergleich: Das globale Text-Leaderboard hat über 7,1 Millionen Stimmen. Eine deutschsprachige Blind-Voting-Plattform, die deutsche Aufgaben ins Zentrum stellt, gibt es unseres Wissens bislang nicht – die Oberfläche der Arena selbst ist englisch.
Wir messen mit dem KI-Benchmark Deutsch bereits monatlich, wie gut Frontier-Modelle deutsche Geschäftsaufgaben lösen – bewertet von einem anbieterübergreifenden Panel, nicht per Crowd. Was fehlt, ist die zweite Hälfte des Bildes: was deutsche Nutzerinnen und Nutzer bevorzugen. Ob wir KI-Duell zu einem vollwertigen Tool ausbauen – jeden Tag neue Duelle, ein Publikums-Ranking aus echten Stimmen, DSGVO-sauber ohne Anmeldung –, hängt davon ab, wie viele das Demo oben spielen und uns Bescheid geben.
Einordnung
Arenas 100-Millionen-Meilenstein belegt vor allem eines: Menschliche Präferenzdaten sind das knappste Gut der KI-Branche. Benchmarks lassen sich nachbauen, Trainingsdaten kaufen – aber 82 Millionen ehrliche, blinde Nutzerurteile kann kein Konkurrent rückwirkend erheben. Genau deshalb zahlt Silicon Valley dafür.
Zugleich zeigt die Kritik, dass ein Stimmen-Ranking kein Orakel ist: Es misst Beliebtheit unter denen, die mitmachen, mit allen dokumentierten Verzerrungen. Wer KI-Modelle für den eigenen Betrieb auswählt, sollte Arena-Plätze als ein Signal von mehreren lesen – neben aufgabenbezogenen Tests wie unserem Benchmark und schlicht dem eigenen Ausprobieren am konkreten Anwendungsfall. Beliebtheit ist nicht Eignung; die spannendsten Erkenntnisse entstehen dort, wo beide auseinanderlaufen.
Quellen
Die beiden Antworten im Demo-Duell wurden am 4. Juli 2026 unverändert über dieselbe Schnittstelle erhoben, die auch unser KI-Benchmark Deutsch nutzt.
Alle Analysen basieren auf eigenen Messungen von i6eal oder auf klar gekennzeichneten Quellen. Zahlen sind Momentaufnahmen und können sich ändern; Korrekturen weisen wir transparent aus.