[{"data":1,"prerenderedAt":30},["ShallowReactive",2],{"nr-de-chatbot-arena-100-millionen-nutzerstimmen":3},{"slug":4,"title":5,"dek":6,"date":7,"time":8,"publishedAt":9,"updated":10,"updatedAt":10,"dateFmt":11,"updatedFmt":10,"kind":12,"tier":13,"author":14,"authorName":15,"topics":16,"tracker":21,"trackerLabel":22,"headlineStat":23,"image":24,"ogImage":25,"imageAlt":26,"csv":10,"minutes":27,"words":28,"html":29},"chatbot-arena-100-millionen-nutzerstimmen","Zwei Antworten, ein Klick, 100 Millionen Dollar: das Geschäft hinter der Chatbot Arena","82 Millionen Mal haben Menschen gratis abgestimmt, welche KI-Antwort besser ist. Daraus wurde ein Unternehmen mit 1,7 Milliarden Dollar Bewertung – und das einflussreichste KI-Ranking der Welt. Wie das Modell funktioniert, wo es knirscht und warum es das auf Deutsch nicht gibt. Mit einem Duell zum Selbst-Ausprobieren.","2026-07-04","18:45","2026-07-04T18:45:00+02:00","","4. Juli 2026","analyse","flagship","ideal-syka","Ideal Syka",[17,18,19,20],"Chatbot Arena","LMArena","Benchmarks","KI-Bewertung","\u002Fki-benchmark-deutsch","KI-Benchmark Deutsch","100 Mio. $ annualisierter Umsatz – aufgebaut aus kostenlosen Nutzerstimmen","\u002Fnewsroom\u002Fimg\u002Fchatbot-arena-100-millionen-nutzerstimmen.webp","\u002Fog-nr\u002Fchatbot-arena-100-millionen-nutzerstimmen.de.png","Zwei anonyme KI-Antworten im Duell – das Prinzip der Chatbot Arena",5,1098,"\u003Cp>Das vielleicht erfolgreichste KI-Geschäftsmodell des Jahres besteht aus einer einzigen Frage: „Welche Antwort ist besser – A oder B?&quot; Millionen Menschen beantworten sie freiwillig und unbezahlt auf der Plattform \u003Cstrong>Arena\u003C\u002Fstrong> (früher LMArena bzw. Chatbot Arena). Ende Juni hat das Unternehmen dahinter verkündet, mit den gesammelten Stimmen einen \u003Cstrong>annualisierten Umsatz von 100 Millionen Dollar\u003C\u002Fstrong> erreicht zu haben – kein Jahr nach dem Start des kommerziellen Angebots. Wir haben uns angesehen, wie aus Gratis-Klicks ein Milliardenunternehmen wurde, wo die Methode angreifbar ist – und was dem deutschsprachigen Raum hier fehlt.\u003C\u002Fp>\n\u003Ch2>Kurz &amp; knapp\u003C\u002Fh2>\n\u003Cul>\n\u003Cli>\u003Cstrong>100 Mio. $\u003C\u002Fstrong> annualisierter Umsatz, verkündet am 29. Juni 2026 – rund \u003Cstrong>acht Monate\u003C\u002Fstrong> nach dem Start des Bezahlangebots „AI Evaluations&quot; im September 2025. Zum Jahreswechsel lag die Rate noch bei rund \u003Cstrong>30 Mio. $\u003C\u002Fstrong>.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>82 Millionen+ Stimmen\u003C\u002Fstrong> aus \u003Cstrong>700 Millionen+ Unterhaltungen\u003C\u002Fstrong> und \u003Cstrong>10 Millionen+ Besuchern pro Monat\u003C\u002Fstrong> – so die (selbst berichteten) Zahlen des Unternehmens.\u003C\u002Fli>\n\u003Cli>Bewertung: \u003Cstrong>1,7 Milliarden Dollar\u003C\u002Fstrong> nach einer Series A über \u003Cstrong>150 Mio. $\u003C\u002Fstrong> im Januar 2026; insgesamt hat Arena \u003Cstrong>250 Mio. $\u003C\u002Fstrong> eingesammelt.\u003C\u002Fli>\n\u003Cli>Das Produkt ist nicht die Website, sondern die \u003Cstrong>Daten\u003C\u002Fstrong>: KI-Labore zahlen für detaillierte Auswertungen, wie ihre Modelle bei echten Menschen ankommen.\u003C\u002Fli>\n\u003Cli>Die Methode hat dokumentierte Schwächen: eine vielzitierte Studie wirft dem Leaderboard \u003Cstrong>strukturelle Bevorzugung großer Labore\u003C\u002Fstrong> vor, und Meta hat es 2025 vorgeführt, wie sich die Rangliste mit einer geschönten Modellvariante austricksen lässt.\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch2>So funktioniert das Duell\u003C\u002Fh2>\n\u003Cp>Das Prinzip ist bewusst simpel. Du stellst eine Frage, zwei anonyme KI-Modelle antworten nebeneinander, du stimmst ab: A, B, unentschieden oder beide schlecht. Erst \u003Cstrong>nach\u003C\u002Fstrong> deiner Stimme verrät die Seite, welche Modelle du gerade verglichen hast. Diese Reihenfolge ist der Kern der Methode: Wer nicht weiß, ob die Antwort von OpenAI oder einem unbekannten Open-Source-Modell stammt, stimmt ohne Markenbrille ab.\u003C\u002Fp>\n\u003Cp>Aus Millionen solcher Paarvergleiche errechnet Arena eine Rangliste – seit Dezember 2023 nicht mehr mit dem Schach-Elo-System, sondern mit dem statistisch robusteren \u003Cstrong>Bradley-Terry-Modell\u003C\u002Fstrong>: Ein Sieg gegen ein starkes Modell zählt mehr als einer gegen ein schwaches. Seit 2024 gibt es zusätzlich eine „Style Control&quot;-Ansicht, die Formatierung und Antwortlänge herausrechnet – denn Menschen bevorzugen messbar längere, hübsch formatierte Antworten, unabhängig von der Substanz.\u003C\u002Fp>\n\u003Ch2>Probier es aus: dein erstes KI-Duell\u003C\u002Fh2>\n\u003Cp>So fühlt sich das Prinzip an – mit zwei echten, unveränderten Antworten von GPT-5.5 und Claude Opus 4.8 auf dieselbe deutsche Alltagsaufgabe:\u003C\u002Fp>\n\u003C!--ki-duell-demo-->\u003Ch2>Vom Berkeley-Projekt zur Milliardenfirma\u003C\u002Fh2>\n\u003Cp>Die Chatbot Arena startete 2023 als Forschungsprojekt an der UC Berkeley (LMSYS-Gruppe). Erst im April 2025 wurde daraus ein Unternehmen, gegründet von Anastasios Angelopoulos, Wei-Lin Chiang und Ion Stoica. Danach ging es schnell:\u003C\u002Fp>\n\u003Cdiv class=\"tbl-scroll\">\u003Ctable>\n\u003Cthead>\n\u003Ctr>\n\u003Cth>Zeitpunkt\u003C\u002Fth>\n\u003Cth>Ereignis\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\u003Ctr>\n\u003Ctd>2023\u003C\u002Ftd>\n\u003Ctd>Start als Uni-Forschungsprojekt „Chatbot Arena&quot;\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>April 2025\u003C\u002Ftd>\n\u003Ctd>Ausgründung als Unternehmen (LMArena)\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Mai 2025\u003C\u002Ftd>\n\u003Ctd>Seed-Runde: 100 Mio. $ bei 600 Mio. $ Bewertung\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>September 2025\u003C\u002Ftd>\n\u003Ctd>Start des Bezahlangebots „AI Evaluations&quot;\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Januar 2026\u003C\u002Ftd>\n\u003Ctd>Series A: 150 Mio. $ bei \u003Cstrong>1,7 Mrd. $\u003C\u002Fstrong> Bewertung; Umbenennung in „Arena&quot;\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Juni 2026\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>100 Mio. $\u003C\u002Fstrong> annualisierter Umsatz; „Agent Mode&quot; wächst laut Arena um 10 % pro Woche\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\u003C\u002Fdiv>\n\u003Cp>Bezahlt wird nicht per Abo, sondern nach Verbrauch: KI-Entwickler kaufen Auswertungen darüber, wie ihre Modelle in echten Nutzer-Duellen abschneiden – aufgeschlüsselt nach Aufgabentypen, Sprachen, Schwächen. Das Geschäftsmodell ist damit bemerkenswert ehrlich zusammengefasst: \u003Cstrong>Die Nutzer liefern die Arbeit, die Plattform verkauft das Destillat.\u003C\u002Fstrong> Öffentlich benannte zahlende Kunden gibt es übrigens nicht – auch das gehört zum Bild.\u003C\u002Fp>\n\u003Ch2>Die Risse im Leaderboard\u003C\u002Fh2>\n\u003Cp>Je wichtiger die Rangliste wurde, desto genauer schaute die Forschung hin – und fand Erhebliches.\u003C\u002Fp>\n\u003Cp>Die Studie \u003Cstrong>„The Leaderboard Illusion&quot;\u003C\u002Fstrong> (April 2025, Cohere Labs zusammen mit Forschenden u. a. von Princeton, Stanford und MIT) dokumentierte, dass große Labore vor Veröffentlichung \u003Cstrong>private Modellvarianten\u003C\u002Fstrong> in der Arena testen durften und nur das beste Ergebnis publik wurde – Meta testete demnach allein \u003Cstrong>27 private Varianten\u003C\u002Fstrong> vor dem Llama-4-Start. Außerdem stammten laut Studie \u003Cstrong>19,2 %\u003C\u002Fstrong> aller Duell-Daten von Google-Modellen und \u003Cstrong>20,4 %\u003C\u002Fstrong> von OpenAI-Modellen, während sich \u003Cstrong>83 Open-Weight-Modelle zusammen 29,7 %\u003C\u002Fstrong> teilten. Arena widersprach in Teilen – die Regeln für Vorab-Tests seien seit März 2024 öffentlich, offene Modelle machten 40,9 % des Leaderboards aus – räumte aber Verbesserungsbedarf ein.\u003C\u002Fp>\n\u003Cp>Wie verwundbar ein Abstimmungs-Ranking ist, zeigte im selben Monat der Fall \u003Cstrong>Llama 4 Maverick\u003C\u002Fstrong>: Meta reichte eine auf Gefälligkeit getrimmte Experimentalversion ein, die auf \u003Cstrong>Platz 2\u003C\u002Fstrong> schoss. Die tatsächlich veröffentlichte Version desselben Modells landete anschließend auf \u003Cstrong>Rang 32\u003C\u002Fstrong>. Arena entschuldigte sich und verschärfte die Regeln.\u003C\u002Fp>\n\u003Cp>Der dritte Riss ist subtiler: Crowd-Stimmen messen, \u003Cstrong>was gefällt\u003C\u002Fstrong> – nicht, was stimmt. Längere, formatierte, gefällige Antworten gewinnen systematisch. Genau deshalb gibt es die Style-Control-Ansicht; und genau deshalb warnen Fachleute davor, ein Beliebtheits-Ranking mit einem Fähigkeits-Benchmark zu verwechseln.\u003C\u002Fp>\n\u003Ch2>Und auf Deutsch?\u003C\u002Fh2>\n\u003Cp>Arena führt zwar eine deutsche Kategorie-Rangliste – sie entsteht als Nebenprodukt, wenn das System deutschsprachige Duelle automatisch einsortiert. Aktuell stehen dort rund \u003Cstrong>136.000 Stimmen\u003C\u002Fstrong> über 276 Modelle, und die Spitzenplätze liegen innerhalb der statistischen Unschärfe gleichauf. Zum Vergleich: Das globale Text-Leaderboard hat über \u003Cstrong>7,1 Millionen\u003C\u002Fstrong> Stimmen. Eine deutschsprachige Blind-Voting-Plattform, die deutsche Aufgaben ins Zentrum stellt, gibt es unseres Wissens bislang nicht – die Oberfläche der Arena selbst ist englisch.\u003C\u002Fp>\n\u003Cp>Wir messen mit dem \u003Ca href=\"\u002Fki-benchmark-deutsch\">KI-Benchmark Deutsch\u003C\u002Fa> bereits monatlich, wie gut Frontier-Modelle deutsche Geschäftsaufgaben lösen – bewertet von einem anbieterübergreifenden Panel, nicht per Crowd. Was fehlt, ist die zweite Hälfte des Bildes: \u003Cstrong>was deutsche Nutzerinnen und Nutzer bevorzugen.\u003C\u002Fstrong> Ob wir KI-Duell zu einem vollwertigen Tool ausbauen – jeden Tag neue Duelle, ein Publikums-Ranking aus echten Stimmen, DSGVO-sauber ohne Anmeldung –, hängt davon ab, wie viele das Demo oben spielen und uns Bescheid geben.\u003C\u002Fp>\n\u003Ch2>Einordnung\u003C\u002Fh2>\n\u003Cp>Arenas 100-Millionen-Meilenstein belegt vor allem eines: \u003Cstrong>Menschliche Präferenzdaten sind das knappste Gut der KI-Branche.\u003C\u002Fstrong> Benchmarks lassen sich nachbauen, Trainingsdaten kaufen – aber 82 Millionen ehrliche, blinde Nutzerurteile kann kein Konkurrent rückwirkend erheben. Genau deshalb zahlt Silicon Valley dafür.\u003C\u002Fp>\n\u003Cp>Zugleich zeigt die Kritik, dass ein Stimmen-Ranking kein Orakel ist: Es misst Beliebtheit unter denen, die mitmachen, mit allen dokumentierten Verzerrungen. Wer KI-Modelle für den eigenen Betrieb auswählt, sollte Arena-Plätze als ein Signal von mehreren lesen – neben aufgabenbezogenen Tests wie unserem Benchmark und schlicht dem eigenen Ausprobieren am konkreten Anwendungsfall. Beliebtheit ist nicht Eignung; die spannendsten Erkenntnisse entstehen dort, wo beide auseinanderlaufen.\u003C\u002Fp>\n\u003Ch2>Quellen\u003C\u002Fh2>\n\u003Cul>\n\u003Cli>\u003Ca href=\"https:\u002F\u002Ftechcrunch.com\u002F2026\u002F06\u002F29\u002Farena-the-ai-leaderboard-everyone-uses-is-now-a-100m-business\u002F\">TechCrunch: Arena, the AI leaderboard everyone uses, is now a $100M business\u003C\u002Fa> (29. Juni 2026)\u003C\u002Fli>\n\u003Cli>\u003Ca href=\"https:\u002F\u002Farena.ai\u002Fblog\u002Farena-100m-revenue\u002F\">Arena-Blog: 100M in Revenue\u003C\u002Fa> (29. Juni 2026, Eigenangaben zu Stimmen\u002FBesuchern)\u003C\u002Fli>\n\u003Cli>\u003Ca href=\"https:\u002F\u002Ftechcrunch.com\u002F2026\u002F01\u002F06\u002Flmarena-lands-1-7b-valuation-four-months-after-launching-its-product\u002F\">TechCrunch: LMArena lands $1.7B valuation\u003C\u002Fa> (6. Januar 2026)\u003C\u002Fli>\n\u003Cli>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20879\">Studie „The Leaderboard Illusion&quot;\u003C\u002Fa> (arXiv, April 2025) und \u003Ca href=\"https:\u002F\u002Farena.ai\u002Fblog\u002Four-response\u002F\">Arenas Antwort\u003C\u002Fa>\u003C\u002Fli>\n\u003Cli>\u003Ca href=\"https:\u002F\u002Ftechcrunch.com\u002F2025\u002F04\u002F11\u002Fmetas-vanilla-maverick-ai-model-ranks-below-rivals-on-a-popular-chat-benchmark\u002F\">TechCrunch zum Fall Llama 4 Maverick\u003C\u002Fa> (11. April 2025)\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Cp>Die beiden Antworten im Demo-Duell wurden am 4. Juli 2026 unverändert über dieselbe Schnittstelle erhoben, die auch unser KI-Benchmark Deutsch nutzt.\u003C\u002Fp>\n",1783276594889]