Ein Viertel der größten deutschen Websites sperrt die KI-Crawler aus

Wenn ChatGPT, Claude oder Perplexity eine Antwort geben, haben sie das Web vorher gelesen. Immer mehr deutsche Websites wollen genau das verhindern. Wir haben nachgemessen, wie verbreitet die KI-Blockade in Deutschland wirklich ist – und die robots.txt der 1.000 meistbesuchten deutschen Domains ausgewertet (891 davon waren erreichbar). Das Ergebnis ist eindeutig: Rund ein Viertel der größten deutschen Websites sperrt die wichtigsten KI-Crawler aktiv aus.

Kurzfassung

27,2 % der abgefragten Top-Domains sperren GPTBot (OpenAIs Trainings-Crawler) ausdrücklich per robots.txt. Der Common-Crawl-Bot CCBot liegt mit 28,2 % noch davor.
ClaudeBot (Anthropic) wird von 23,5 % gesperrt, Bytespider (TikTok/ByteDance) von 25,0 %, Google-Extended von 21,2 %.
Der eigentliche Befund: Seiten sperren Trainings-Bots viel häufiger als Such-Bots. OpenAIs Such-Crawler OAI-SearchBot blockieren nur 6,1 % – ein Viertel so viele wie GPTBot.
Nachrichtenseiten sind am striktesten: FAZ, Spiegel und Zeit sperren fast jeden großen KI-Crawler.
Und: Ein Teil der Sperren steht in keiner robots.txt. Rund 16 % der Top-200-Seiten weisen GPTBot bzw. ClaudeBot direkt am Server ab (HTTP 403) – für Browser-Besucher unsichtbar.

Wer wird am häufigsten gesperrt?

Für jede Domain haben wir geprüft, ob die robots.txt eine ausdrückliche Sperre (Disallow: /) für den jeweiligen Bot enthält. So verteilt sich die Blockade über die zwölf großen KI-Crawler:

KI-Crawler	Betreiber	Zweck	gesperrt von
CCBot	Common Crawl	Datensatz	28,2 %
GPTBot	OpenAI	Training	27,2 %
Bytespider	ByteDance	Training	25,0 %
ClaudeBot	Anthropic	Training	23,5 %
Google-Extended	Google	Gemini-Training	21,2 %
meta-externalagent	Meta	Training	20,5 %
Applebot-Extended	Apple	Training	19,9 %
Amazonbot	Amazon	Assistent	17,2 %
anthropic-ai	Anthropic	Training (alt)	15,5 %
PerplexityBot	Perplexity	Suche	15,5 %
ChatGPT-User	OpenAI	On-Demand	10,9 %
OAI-SearchBot	OpenAI	Suche	6,1 %

Training ja, Suche nein – der eigentliche Befund

Die interessanteste Zahl ist nicht der Spitzenwert, sondern der Abstand innerhalb eines Anbieters. OpenAI betreibt mehrere Crawler: GPTBot sammelt Text fürs Modelltraining, OAI-SearchBot liefert Belege für die Suche in ChatGPT. GPTBot wird von 27,2 % der Seiten gesperrt – OAI-SearchBot nur von 6,1 %.

Das ist keine zufällige Lücke, sondern eine Haltung: Deutsche Website-Betreiber wollen nicht ungefragt zum Trainingsmaterial werden – in KI-Antworten zitiert werden wollen sie aber sehr wohl. Wer beides in einen Topf wirft und pauschal alles sperrt, verschenkt Sichtbarkeit in genau den Suchsystemen, die gerade den klassischen Google-Traffic ablösen.

Nachrichtenseiten sperren am härtesten

Über alle Branchen hinweg blockieren Medienhäuser am konsequentesten. In unserer Stichprobe bekannter Marken sperren FAZ, Spiegel und Zeit jeweils neun bis zwölf der zwölf beobachteten KI-Crawler – praktisch die komplette Liste. E-Commerce- und Portalseiten sind deutlich offener. Das passt zum wirtschaftlichen Interesse: Verlage verhandeln mit KI-Firmen über Lizenzen und sperren so lange, bis Geld fließt – während ein Onlineshop von einer Erwähnung in ChatGPT eher profitiert.

Die verdeckte Sperre: 403 statt robots.txt

Die robots.txt ist eine höfliche Bitte. Sie steht öffentlich da, und seriöse Crawler halten sich daran – erzwingen lässt sie sich nicht. Deshalb sperren manche Seiten härter: Sie erkennen den Bot an seiner Kennung und weisen ihn direkt am Server ab (HTTP 403), während ein normaler Browser die Seite ganz normal bekommt.

Diese Sperre taucht in keiner robots.txt und in keinem Archiv auf – man sieht sie nur, wenn man selbst mit der Bot-Kennung anklopft. Genau das haben wir für die 200 größten Domains getan: 15,5 % weisen GPTBot serverseitig ab, 16,7 % ClaudeBot – zusätzlich zu den robots.txt-Sperren. Die tatsächliche Blockade liegt also höher als die robots.txt allein vermuten lässt.

Was das für dich bedeutet

Wenn du für ein Unternehmen eine Website betreibst, ist das keine akademische Frage. Sie entscheidet mit, ob KI-Systeme dich künftig noch finden und zitieren.

Pauschal alles zu sperren ist selten die richtige Antwort. Die differenzierte Linie der Profis lautet: Trainings-Bots (GPTBot, ClaudeBot, Google-Extended, CCBot) sperren, wenn dir die Verwertung deiner Inhalte wichtig ist – Such-Bots (OAI-SearchBot, PerplexityBot) erlauben, damit du in KI-Antworten auftauchst.
Prüf, was dein Server wirklich tut. Viele Sperren entstehen unbemerkt durch Sicherheits- oder CDN-Regeln. Wenn dein Hoster KI-Crawler serverseitig abweist, steht davon nichts in deiner robots.txt – und du merkst es erst, wenn du fehlst.
Entscheide bewusst, nicht aus Reflex. Sichtbarkeit in KI-Suche ist der neue SEO-Kanal. Wer ihn zumauert, spart sich das Training – und verliert die Kundschaft, die künftig ChatGPT statt Google fragt.

So haben wir gemessen

Die Datenbasis ist ein fester Satz der 1.000 meistbesuchten deutschen Domains aus der öffentlichen CrUX-Länderliste von Google (Chrome-Nutzungsdaten). Für jede Domain lesen wir täglich die robots.txt und prüfen pro Crawler auf eine ausdrückliche Sperre (Disallow: /). Erreichbar waren am 3. Juli 2026 891 der 1.000 Domains. Die serverseitige Probe läuft wöchentlich für die Top-200: Wir rufen die Startseite einmal mit Browser-Kennung und einmal mit GPTBot- bzw. ClaudeBot-Kennung ab und werten eine 403/429-Antwort nur dann als Sperre, wenn der Browser normal bedient wird. Alle Messungen laufen aus einer Frankfurter Cloud-Region – die Rohdaten pro Domain veröffentlichen wir bewusst nicht, nur die Summen.

Die Zahlen sind eine Momentaufnahme und verändern sich täglich. Den laufend aktualisierten Stand findest du im KI-Crawler-Blockade-Monitor.

Alle Analysen basieren auf eigenen Messungen von i6eal oder auf klar gekennzeichneten Quellen. Zahlen sind Momentaufnahmen und können sich ändern; Korrekturen weisen wir transparent aus.