GPTBot, ClaudeBot & Co. lesen das Web, um KI-Modelle zu trainieren und Antworten zu belegen. Wir messen täglich, wie viele der 1.000 meistbesuchten deutschen Websites diese Bots aussperren – offen per robots.txt und verdeckt am Server.
Anteil der abgefragten Domains, die den jeweiligen Bot blockieren. „robots.txt“ = ausdrückliche Sperre in der robots.txt; „serverseitig“ = die Seite antwortet dem Bot mit 403/429, obwohl ein Browser normal bedient wird (nur GPTBot & ClaudeBot, Top-200).
ausdrücklich inkl. Pauschalsperre (User-agent: *)
Eine Regel in der robots.txt bittet den Bot, die Seite nicht zu lesen. Höflich, öffentlich – und für jeden nachlesbar. Seriöse Crawler halten sich daran, verpflichtend ist es nicht.
Die Seite erkennt den Bot am User-Agent und weist ihn direkt ab (403/429), während Besucher normal bedient werden. Diese Sperre steht in keinem Archiv – wir messen sie selbst, direkt aus Frankfurt.
Eine Auswahl großer deutscher Marken und welche KI-Crawler sie laut robots.txt sperren. Grün = erlaubt, Rot = gesperrt.
| GPTBot | ClaudeBot | Google-Extended | PerplexityBot | CCBot | Bytespider | |
|---|---|---|---|---|---|---|
| SpiegelNachrichten | ||||||
| BildNachrichten | ||||||
| ZeitNachrichten | ||||||
| FAZNachrichten | ||||||
| SüddeutscheNachrichten | ||||||
| WeltNachrichten | ||||||
| TagesschauNachrichten | ||||||
| n-tvNachrichten | ||||||
| FocusNachrichten | ||||||
| SternNachrichten | ||||||
| HandelsblattWirtschaft | ||||||
| heiseTech | ||||||
| GolemTech | ||||||
| ChipTech | ||||||
| t-onlinePortal | ||||||
| OttoE-Commerce | ||||||
| ZalandoE-Commerce | ||||||
| IdealoE-Commerce | ||||||
| ChefkochLifestyle | ||||||
| kickerSport |
gesperrterlaubt
0 Domains im Panel haben ihre GPTBot/ClaudeBot-Regeln in den letzten 7 Tagen geändert.
Seit Start des Trackings noch keine Änderungen bei den beobachteten Marken – die ersten Änderungen erscheinen hier, sobald sie auftreten.
Ehrlich und nachvollziehbar – ein fester Panel-Satz, öffentlich dokumentierte Quellen, saubere Trennung von robots.txt und Serverantwort.
Wir prüfen dieselben 1.000 meistbesuchten deutschen Domains – die öffentliche CrUX-Länderliste von Google (Chrome-Nutzungsdaten). Fest verankert, damit die Zeitreihe vergleichbar bleibt.
Für jede Domain lesen wir die robots.txt und prüfen pro Bot, ob eine ausdrückliche Sperre (Disallow: /) vorliegt.
Bei den Top-200 rufen wir die Startseite mit GPTBot-/ClaudeBot-Kennung ab und vergleichen mit einem Browser-Abruf. Antwortet der Server dem Bot mit 403/429, ist das eine verdeckte Sperre.
Der Verlauf über ein festes Panel lässt sich nicht rekonstruieren – vor allem die serverseitige Sperre steht in keinem Archiv. Die Rohdaten pro Domain veröffentlichen wir nicht; nur Summen, eine kuratierte Marken-Tabelle und Änderungen.
„Sperren“ meint hier die Blockade des gesamten Auftritts (Disallow: / bzw. 403/429 auf der Startseite). Die serverseitige Probe ist bewusst vorsichtig: Ein Browser-Abruf muss zuvor normal funktionieren, damit pauschale Schutzsysteme (z. B. Cloudflare-Challenges) nicht fälschlich als KI-Sperre zählen. Wir folgen den robots.txt-Konventionen und fragen jede Domain nur einmal täglich ab.
Ein automatischer Bot, der Websites ausliest – um KI-Modelle zu trainieren (z. B. GPTBot, ClaudeBot, Google-Extended) oder um Antworten in KI-Suchen zu belegen (z. B. OAI-SearchBot, PerplexityBot). Websites können ihn per robots.txt oder am Server aussperren.
Die robots.txt ist eine öffentliche Bitte, die seriöse Bots respektieren – aber technisch nicht erzwingt. Eine serverseitige Sperre weist den Bot aktiv ab (403/429). Letztere ist verbindlicher und steht in keinem öffentlichen Archiv – deshalb messen wir sie selbst.
Das ist eine Abwägung: Sperren schützt Inhalte vor dem Training, kostet aber Sichtbarkeit in KI-Suchen – wer ChatGPT & Co. aussperrt, wird dort seltener zitiert. Für viele Unternehmen ist die richtige Antwort differenziert: Trainings-Bots sperren, Such-Bots erlauben.
Aus der öffentlichen CrUX-Länderliste von Google – den 1.000 meistbesuchten Domains aus Deutschland, basierend auf echten Chrome-Nutzungsdaten. Wir halten die Liste bewusst fest, damit die Zeitreihe über die Monate vergleichbar bleibt.
Quellen: robots.txt der jeweiligen Domains (öffentlich), Domain-Panel aus der CrUX-Top-Liste (Google, CC BY). Serverseitige Werte sind eigene Messungen aus eu-central-1 (Frankfurt). „Sperre“ = Blockade des gesamten Auftritts. Keine Gewähr für Vollständigkeit; robots.txt-Regeln können mehrdeutig sein.
Wir richten deinen Auftritt so aus, dass die richtigen KI-Crawler dich finden – und die falschen draußen bleiben.