KI-Crawler-Blockade-Monitor

Wer sperrt die KI-Crawler aus?

GPTBot, ClaudeBot & Co. lesen das Web, um KI-Modelle zu trainieren und Antworten zu belegen. Wir messen täglich, wie viele der 1.000 meistbesuchten deutschen Websites diese Bots aussperren – offen per robots.txt und verdeckt am Server.

Panel: 1.000 deutsche Top-Domains (CrUX)

Welche KI-Crawler werden gesperrt?

Anteil der abgefragten Domains, die den jeweiligen Bot blockieren. „robots.txt“ = ausdrückliche Sperre in der robots.txt; „serverseitig“ = die Seite antwortet dem Bot mit 403/429, obwohl ein Browser normal bedient wird (nur GPTBot & ClaudeBot, Top-200).

KI-Crawlerrobots.txtserverseitig
CCBotCommon Crawl · Datensatz
28,2%
·
GPTBotOpenAI · Training
27,2%
15,5%
BytespiderByteDance · Training
25%
·
ClaudeBotAnthropic · Training
23,5%
16,7%
Google-ExtendedGoogle · Gemini-Training
21,2%
·
meta-externalagentMeta · Training
20,5%
·
Applebot-ExtendedApple · Training
19,9%
·
AmazonbotAmazon · Assistent
17,2%
·
anthropic-aiAnthropic · Training (alt)
15,5%
·
PerplexityBotPerplexity · Suche
15,5%
·
ChatGPT-UserOpenAI · On-Demand
10,9%
·
OAI-SearchBotOpenAI · Suche
6,1%
·

ausdrücklich inkl. Pauschalsperre (User-agent: *)

Zwei Arten, KI-Crawler zu sperren

1 · Offen: robots.txt

Eine Regel in der robots.txt bittet den Bot, die Seite nicht zu lesen. Höflich, öffentlich – und für jeden nachlesbar. Seriöse Crawler halten sich daran, verpflichtend ist es nicht.

2 · Verdeckt: serverseitig

Die Seite erkennt den Bot am User-Agent und weist ihn direkt ab (403/429), während Besucher normal bedient werden. Diese Sperre steht in keinem Archiv – wir messen sie selbst, direkt aus Frankfurt.

Bekannte deutsche Seiten im Detail

Eine Auswahl großer deutscher Marken und welche KI-Crawler sie laut robots.txt sperren. Grün = erlaubt, Rot = gesperrt.

 GPTBotClaudeBotGoogle-ExtendedPerplexityBotCCBotBytespider
SpiegelNachrichten
BildNachrichten
ZeitNachrichten
FAZNachrichten
SüddeutscheNachrichten
WeltNachrichten
TagesschauNachrichten
n-tvNachrichten
FocusNachrichten
SternNachrichten
HandelsblattWirtschaft
heiseTech
GolemTech
ChipTech
t-onlinePortal
OttoE-Commerce
ZalandoE-Commerce
IdealoE-Commerce
ChefkochLifestyle
kickerSport

gesperrterlaubt

Jüngste Änderungen

0 Domains im Panel haben ihre GPTBot/ClaudeBot-Regeln in den letzten 7 Tagen geändert.

Seit Start des Trackings noch keine Änderungen bei den beobachteten Marken – die ersten Änderungen erscheinen hier, sobald sie auftreten.

Wie wir messen

Ehrlich und nachvollziehbar – ein fester Panel-Satz, öffentlich dokumentierte Quellen, saubere Trennung von robots.txt und Serverantwort.

  1. 1
    Festes Panel: Top-1000 (DE)

    Wir prüfen dieselben 1.000 meistbesuchten deutschen Domains – die öffentliche CrUX-Länderliste von Google (Chrome-Nutzungsdaten). Fest verankert, damit die Zeitreihe vergleichbar bleibt.

  2. 2
    robots.txt, täglich

    Für jede Domain lesen wir die robots.txt und prüfen pro Bot, ob eine ausdrückliche Sperre (Disallow: /) vorliegt.

  3. 3
    Serverseitige Probe, wöchentlich

    Bei den Top-200 rufen wir die Startseite mit GPTBot-/ClaudeBot-Kennung ab und vergleichen mit einem Browser-Abruf. Antwortet der Server dem Bot mit 403/429, ist das eine verdeckte Sperre.

  4. 4
    Nur vorwärts, roh bleibt privat

    Der Verlauf über ein festes Panel lässt sich nicht rekonstruieren – vor allem die serverseitige Sperre steht in keinem Archiv. Die Rohdaten pro Domain veröffentlichen wir nicht; nur Summen, eine kuratierte Marken-Tabelle und Änderungen.

„Sperren“ meint hier die Blockade des gesamten Auftritts (Disallow: / bzw. 403/429 auf der Startseite). Die serverseitige Probe ist bewusst vorsichtig: Ein Browser-Abruf muss zuvor normal funktionieren, damit pauschale Schutzsysteme (z. B. Cloudflare-Challenges) nicht fälschlich als KI-Sperre zählen. Wir folgen den robots.txt-Konventionen und fragen jede Domain nur einmal täglich ab.

Häufige Fragen

Was ist ein KI-Crawler?

Ein automatischer Bot, der Websites ausliest – um KI-Modelle zu trainieren (z. B. GPTBot, ClaudeBot, Google-Extended) oder um Antworten in KI-Suchen zu belegen (z. B. OAI-SearchBot, PerplexityBot). Websites können ihn per robots.txt oder am Server aussperren.

Was ist der Unterschied zwischen robots.txt- und serverseitiger Sperre?

Die robots.txt ist eine öffentliche Bitte, die seriöse Bots respektieren – aber technisch nicht erzwingt. Eine serverseitige Sperre weist den Bot aktiv ab (403/429). Letztere ist verbindlicher und steht in keinem öffentlichen Archiv – deshalb messen wir sie selbst.

Sollte ich KI-Crawler sperren?

Das ist eine Abwägung: Sperren schützt Inhalte vor dem Training, kostet aber Sichtbarkeit in KI-Suchen – wer ChatGPT & Co. aussperrt, wird dort seltener zitiert. Für viele Unternehmen ist die richtige Antwort differenziert: Trainings-Bots sperren, Such-Bots erlauben.

Woher kommt die Domain-Liste?

Aus der öffentlichen CrUX-Länderliste von Google – den 1.000 meistbesuchten Domains aus Deutschland, basierend auf echten Chrome-Nutzungsdaten. Wir halten die Liste bewusst fest, damit die Zeitreihe über die Monate vergleichbar bleibt.

Quellen: robots.txt der jeweiligen Domains (öffentlich), Domain-Panel aus der CrUX-Top-Liste (Google, CC BY). Serverseitige Werte sind eigene Messungen aus eu-central-1 (Frankfurt). „Sperre“ = Blockade des gesamten Auftritts. Keine Gewähr für Vollständigkeit; robots.txt-Regeln können mehrdeutig sein.

Sichtbar bleiben, wo KI antwortet

Wir richten deinen Auftritt so aus, dass die richtigen KI-Crawler dich finden – und die falschen draußen bleiben.