Wenn ChatGPT, Claude oder Perplexity eine Antwort geben, haben sie das Web vorher gelesen. Immer mehr deutsche Websites wollen genau das verhindern. Wir haben nachgemessen, wie verbreitet die KI-Blockade in Deutschland wirklich ist – und die robots.txt der 1.000 meistbesuchten deutschen Domains ausgewertet (891 davon waren erreichbar). Das Ergebnis ist eindeutig: Rund ein Viertel der größten deutschen Websites sperrt die wichtigsten KI-Crawler aktiv aus.
Kurzfassung
- 27,2 % der abgefragten Top-Domains sperren GPTBot (OpenAIs Trainings-Crawler) ausdrücklich per robots.txt. Der Common-Crawl-Bot CCBot liegt mit 28,2 % noch davor.
- ClaudeBot (Anthropic) wird von 23,5 % gesperrt, Bytespider (TikTok/ByteDance) von 25,0 %, Google-Extended von 21,2 %.
- Der eigentliche Befund: Seiten sperren Trainings-Bots viel häufiger als Such-Bots. OpenAIs Such-Crawler OAI-SearchBot blockieren nur 6,1 % – ein Viertel so viele wie GPTBot.
- Nachrichtenseiten sind am striktesten: FAZ, Spiegel und Zeit sperren fast jeden großen KI-Crawler.
- Und: Ein Teil der Sperren steht in keiner robots.txt. Rund 16 % der Top-200-Seiten weisen GPTBot bzw. ClaudeBot direkt am Server ab (HTTP 403) – für Browser-Besucher unsichtbar.
Wer wird am häufigsten gesperrt?
Für jede Domain haben wir geprüft, ob die robots.txt eine ausdrückliche Sperre (Disallow: /) für den jeweiligen Bot enthält. So verteilt sich die Blockade über die zwölf großen KI-Crawler:
| KI-Crawler | Betreiber | Zweck | gesperrt von |
|---|---|---|---|
| CCBot | Common Crawl | Datensatz | 28,2 % |
| GPTBot | OpenAI | Training | 27,2 % |
| Bytespider | ByteDance | Training | 25,0 % |
| ClaudeBot | Anthropic | Training | 23,5 % |
| Google-Extended | Gemini-Training | 21,2 % | |
| meta-externalagent | Meta | Training | 20,5 % |
| Applebot-Extended | Apple | Training | 19,9 % |
| Amazonbot | Amazon | Assistent | 17,2 % |
| anthropic-ai | Anthropic | Training (alt) | 15,5 % |
| PerplexityBot | Perplexity | Suche | 15,5 % |
| ChatGPT-User | OpenAI | On-Demand | 10,9 % |
| OAI-SearchBot | OpenAI | Suche | 6,1 % |
Training ja, Suche nein – der eigentliche Befund
Die interessanteste Zahl ist nicht der Spitzenwert, sondern der Abstand innerhalb eines Anbieters. OpenAI betreibt mehrere Crawler: GPTBot sammelt Text fürs Modelltraining, OAI-SearchBot liefert Belege für die Suche in ChatGPT. GPTBot wird von 27,2 % der Seiten gesperrt – OAI-SearchBot nur von 6,1 %.
Das ist keine zufällige Lücke, sondern eine Haltung: Deutsche Website-Betreiber wollen nicht ungefragt zum Trainingsmaterial werden – in KI-Antworten zitiert werden wollen sie aber sehr wohl. Wer beides in einen Topf wirft und pauschal alles sperrt, verschenkt Sichtbarkeit in genau den Suchsystemen, die gerade den klassischen Google-Traffic ablösen.
Nachrichtenseiten sperren am härtesten
Über alle Branchen hinweg blockieren Medienhäuser am konsequentesten. In unserer Stichprobe bekannter Marken sperren FAZ, Spiegel und Zeit jeweils neun bis zwölf der zwölf beobachteten KI-Crawler – praktisch die komplette Liste. E-Commerce- und Portalseiten sind deutlich offener. Das passt zum wirtschaftlichen Interesse: Verlage verhandeln mit KI-Firmen über Lizenzen und sperren so lange, bis Geld fließt – während ein Onlineshop von einer Erwähnung in ChatGPT eher profitiert.
Die verdeckte Sperre: 403 statt robots.txt
Die robots.txt ist eine höfliche Bitte. Sie steht öffentlich da, und seriöse Crawler halten sich daran – erzwingen lässt sie sich nicht. Deshalb sperren manche Seiten härter: Sie erkennen den Bot an seiner Kennung und weisen ihn direkt am Server ab (HTTP 403), während ein normaler Browser die Seite ganz normal bekommt.
Diese Sperre taucht in keiner robots.txt und in keinem Archiv auf – man sieht sie nur, wenn man selbst mit der Bot-Kennung anklopft. Genau das haben wir für die 200 größten Domains getan: 15,5 % weisen GPTBot serverseitig ab, 16,7 % ClaudeBot – zusätzlich zu den robots.txt-Sperren. Die tatsächliche Blockade liegt also höher als die robots.txt allein vermuten lässt.
Was das für dich bedeutet
Wenn du für ein Unternehmen eine Website betreibst, ist das keine akademische Frage. Sie entscheidet mit, ob KI-Systeme dich künftig noch finden und zitieren.
- Pauschal alles zu sperren ist selten die richtige Antwort. Die differenzierte Linie der Profis lautet: Trainings-Bots (GPTBot, ClaudeBot, Google-Extended, CCBot) sperren, wenn dir die Verwertung deiner Inhalte wichtig ist – Such-Bots (OAI-SearchBot, PerplexityBot) erlauben, damit du in KI-Antworten auftauchst.
- Prüf, was dein Server wirklich tut. Viele Sperren entstehen unbemerkt durch Sicherheits- oder CDN-Regeln. Wenn dein Hoster KI-Crawler serverseitig abweist, steht davon nichts in deiner robots.txt – und du merkst es erst, wenn du fehlst.
- Entscheide bewusst, nicht aus Reflex. Sichtbarkeit in KI-Suche ist der neue SEO-Kanal. Wer ihn zumauert, spart sich das Training – und verliert die Kundschaft, die künftig ChatGPT statt Google fragt.
So haben wir gemessen
Die Datenbasis ist ein fester Satz der 1.000 meistbesuchten deutschen Domains aus der öffentlichen CrUX-Länderliste von Google (Chrome-Nutzungsdaten). Für jede Domain lesen wir täglich die robots.txt und prüfen pro Crawler auf eine ausdrückliche Sperre (Disallow: /). Erreichbar waren am 3. Juli 2026 891 der 1.000 Domains. Die serverseitige Probe läuft wöchentlich für die Top-200: Wir rufen die Startseite einmal mit Browser-Kennung und einmal mit GPTBot- bzw. ClaudeBot-Kennung ab und werten eine 403/429-Antwort nur dann als Sperre, wenn der Browser normal bedient wird. Alle Messungen laufen aus einer Frankfurter Cloud-Region – die Rohdaten pro Domain veröffentlichen wir bewusst nicht, nur die Summen.
Die Zahlen sind eine Momentaufnahme und verändern sich täglich. Den laufend aktualisierten Stand findest du im KI-Crawler-Blockade-Monitor.

