KI-Latenz-Index

Wie schnell ist KI aus Deutschland?

Große Latenz-Benchmarks messen aus den USA – für Nutzer in Deutschland sagt das wenig. Wir messen mehrmals täglich direkt aus Frankfurt: Wie schnell die großen KI-Endpunkte antworten, wie viel sie durchsetzen und wie zuverlässig sie sind.

Gemessen aus eu-central-1 (Frankfurt)

Time-to-first-token aus Frankfurt

Zeit bis zum ersten Token (TTFT) ist die Kennzahl, die die Serverentfernung am stärksten spürt – deshalb steht sie im Mittelpunkt. Sortiert nach TTFT; Durchsatz ist ein Näherungswert (~).

Den Tagesverlauf zeichnen wir ab heute auf – ab morgen wächst die TTFT-Kurve. Heute siehst du die aktuellen Messwerte.

EndpunktTTFTDurchsatzFehler
Mistral Smallüber AI-GatewayMistral · AI Gateway317 ms~257,10%
Claude Haiku 4.5EU-Region · direktAWS Bedrock · eu-central-1 (Frankfurt)565 ms~3110%
GPT-5 miniUS-global · direktOpenAI · api.openai.com (US-global)668 ms~124,912,5%
GPT-5 miniüber AI-GatewayOpenAI · AI Gateway671 ms~133,112,5%
Claude Haiku 4.5über AI-GatewayAnthropic · AI Gateway795 ms~382,90%
Gemini 3 Flashüber AI-GatewayGoogle · AI Gateway1.567 ms~588,20%
DeepSeek V4 Flashüber AI-GatewayDeepSeek · AI Gateway1.976 ms~22512,5%

Wie wir messen

Ehrlich und nachvollziehbar – echte Messungen aus einer Lambda-Funktion in Frankfurt, für alle Endpunkte identisch.

  1. 1
    Vantage-Punkt: Frankfurt

    Eine Lambda-Funktion in AWS eu-central-1 (Frankfurt) sendet identische Mini-Anfragen und stoppt die Zeit. So misst der Index Latenz so, wie deutsche Nutzer sie erleben – nicht aus den USA.

  2. 2
    TTFT, Durchsatz, Fehler

    TTFT = Zeit bis zum ersten sichtbaren Token (die serverabstandssensible Kennzahl). Durchsatz = Token/Sekunde (Näherung, ~). Fehlerquote = Anteil fehlgeschlagener Aufrufe.

  3. 3
    Mehrmals täglich, Median

    Alle 8 Stunden, je zwei Messungen pro Endpunkt (die schnellere zählt, um Ausreißer zu dämpfen). Aus den Tageswerten bilden wir den Median.

  4. 4
    Nur vorwärts

    Vergangene Latenz aus einem EU-Standort lässt sich nicht nachträglich messen – der Vorsprung ab Tag 1 bleibt. Niemand veröffentlicht eine solche Aus-Deutschland-Zeitreihe.

Vergleiche zwischen „direkt“ und „über AI-Gateway“ sind nicht 1:1 – der Gateway-Weg hat einen zusätzlichen, bewusst ausgewiesenen Zwischenschritt, ist aber ein realer Weg, den viele EU-Entwickler nutzen. Bei Reasoning-Modellen setzen wir minimalen Reasoning-Aufwand, damit die TTFT die Infrastruktur misst, nicht die Denkzeit. Werte schwanken mit der Tageslast; erst der Median über Tage ist belastbar. Der OpenAI-EU-Endpunkt (eu.api.openai.com) fehlt, weil unser Schlüssel dafür nicht freigeschaltet ist.

Häufige Fragen

Was ist TTFT?

Time-to-first-token – die Zeit von der Anfrage bis zum ersten Wort der Antwort. Sie prägt das gefühlte Tempo einer KI am stärksten und reagiert empfindlich auf die Entfernung zum Server. Deshalb ist sie unsere Hauptkennzahl.

Warum aus Frankfurt messen?

Weil der Standort zählt: Ein Endpunkt in den USA ist aus Deutschland spürbar langsamer als einer in der EU. Große Benchmarks messen aus den USA und bilden die deutsche Realität nicht ab – wir messen dort, wo deine Nutzer sind.

Warum kann diese Historie niemand nachbauen?

Vergangene Latenz aus einem EU-Standort lässt sich nicht rückwirkend messen. Wer erst später anfängt, hat die vergangenen Tage für immer verpasst – genau das macht die Zeitreihe wertvoll.

Was heißt „über AI-Gateway“?

Diese Endpunkte laufen über ein Gateway (ein Dienst, der Anfragen an viele Modelle vermittelt). Das ist ein zusätzlicher Zwischenschritt – wir weisen ihn transparent aus. Direkt-Endpunkte (Bedrock Frankfurt, OpenAI) gehen ohne diesen Umweg.

Eigene Messungen aus AWS eu-central-1 (Frankfurt), mehrmals täglich, identische Mini-Anfrage je Endpunkt. TTFT = Zeit bis zum ersten Token; Durchsatz ist ein Näherungswert. Werte schwanken mit der Last; der Median über Tage ist die belastbare Größe. Keine Gewähr; kein Ersatz für eigene Lasttests.

Schnelle, DSGVO-konforme KI-Anbindung

Wir bringen KI performant und rechtssicher auf deine Infrastruktur – von der Endpunkt-Wahl bis zum Monitoring.