[{"data":1,"prerenderedAt":30},["ShallowReactive",2],{"nr-de-deutsche-top-websites-sperren-ki-crawler":3},{"slug":4,"title":5,"dek":6,"date":7,"time":8,"publishedAt":9,"updated":10,"updatedAt":10,"dateFmt":11,"updatedFmt":10,"kind":12,"tier":13,"author":14,"authorName":15,"topics":16,"tracker":21,"trackerLabel":22,"headlineStat":23,"image":24,"imageAlt":25,"csv":26,"minutes":27,"words":28,"html":29},"deutsche-top-websites-sperren-ki-crawler","Ein Viertel der größten deutschen Websites sperrt die KI-Crawler aus","Wir haben die robots.txt aller 1.000 meistbesuchten deutschen Domains ausgewertet. GPTBot, ClaudeBot & Co. werden systematisch ausgesperrt – Nachrichtenseiten am härtesten. Und ein Teil der Sperren steht in keiner robots.txt.","2026-07-03","09:00","2026-07-03T09:00:00+02:00","","3. Juli 2026","analyse","flagship","ideal-syka","Ideal Syka",[17,18,19,20],"KI-Crawler","robots.txt","SEO","GEO","\u002Fki-crawler-monitor","KI-Crawler-Blockade-Monitor","27,2 % der größten deutschen Websites sperren GPTBot per robots.txt","\u002Fog-nr\u002Fdeutsche-top-websites-sperren-ki-crawler.de.png","Anteil deutscher Top-1000-Websites, die einzelne KI-Crawler sperren","\u002Fnewsroom\u002Fdata\u002Fki-crawler-blockade-2026-07-03.csv",4,893,"\u003Cp>Wenn ChatGPT, Claude oder Perplexity eine Antwort geben, haben sie das Web vorher gelesen. Immer mehr deutsche Websites wollen genau das verhindern. Wir haben nachgemessen, wie verbreitet die KI-Blockade in Deutschland wirklich ist – und die robots.txt der \u003Cstrong>1.000 meistbesuchten deutschen Domains\u003C\u002Fstrong> ausgewertet (891 davon waren erreichbar). Das Ergebnis ist eindeutig: \u003Cstrong>Rund ein Viertel der größten deutschen Websites sperrt die wichtigsten KI-Crawler aktiv aus.\u003C\u002Fstrong>\u003C\u002Fp>\n\u003Ch2>Kurzfassung\u003C\u002Fh2>\n\u003Cul>\n\u003Cli>\u003Cstrong>27,2 %\u003C\u002Fstrong> der abgefragten Top-Domains sperren \u003Cstrong>GPTBot\u003C\u002Fstrong> (OpenAIs Trainings-Crawler) ausdrücklich per robots.txt. Der Common-Crawl-Bot \u003Cstrong>CCBot\u003C\u002Fstrong> liegt mit \u003Cstrong>28,2 %\u003C\u002Fstrong> noch davor.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>ClaudeBot\u003C\u002Fstrong> (Anthropic) wird von \u003Cstrong>23,5 %\u003C\u002Fstrong> gesperrt, \u003Cstrong>Bytespider\u003C\u002Fstrong> (TikTok\u002FByteDance) von \u003Cstrong>25,0 %\u003C\u002Fstrong>, \u003Cstrong>Google-Extended\u003C\u002Fstrong> von \u003Cstrong>21,2 %\u003C\u002Fstrong>.\u003C\u002Fli>\n\u003Cli>Der eigentliche Befund: Seiten sperren \u003Cstrong>Trainings-Bots viel häufiger als Such-Bots\u003C\u002Fstrong>. OpenAIs Such-Crawler \u003Cstrong>OAI-SearchBot\u003C\u002Fstrong> blockieren nur \u003Cstrong>6,1 %\u003C\u002Fstrong> – ein Viertel so viele wie GPTBot.\u003C\u002Fli>\n\u003Cli>Nachrichtenseiten sind am striktesten: FAZ, Spiegel und Zeit sperren fast jeden großen KI-Crawler.\u003C\u002Fli>\n\u003Cli>Und: Ein Teil der Sperren steht in \u003Cstrong>keiner robots.txt\u003C\u002Fstrong>. Rund \u003Cstrong>16 %\u003C\u002Fstrong> der Top-200-Seiten weisen GPTBot bzw. ClaudeBot direkt am Server ab (HTTP 403) – für Browser-Besucher unsichtbar.\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch2>Wer wird am häufigsten gesperrt?\u003C\u002Fh2>\n\u003Cp>Für jede Domain haben wir geprüft, ob die robots.txt eine ausdrückliche Sperre (\u003Ccode>Disallow: \u002F\u003C\u002Fcode>) für den jeweiligen Bot enthält. So verteilt sich die Blockade über die zwölf großen KI-Crawler:\u003C\u002Fp>\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\n\u003Cth>KI-Crawler\u003C\u002Fth>\n\u003Cth>Betreiber\u003C\u002Fth>\n\u003Cth>Zweck\u003C\u002Fth>\n\u003Cth>gesperrt von\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\u003Ctr>\n\u003Ctd>CCBot\u003C\u002Ftd>\n\u003Ctd>Common Crawl\u003C\u002Ftd>\n\u003Ctd>Datensatz\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>28,2 %\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>GPTBot\u003C\u002Ftd>\n\u003Ctd>OpenAI\u003C\u002Ftd>\n\u003Ctd>Training\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>27,2 %\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Bytespider\u003C\u002Ftd>\n\u003Ctd>ByteDance\u003C\u002Ftd>\n\u003Ctd>Training\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>25,0 %\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>ClaudeBot\u003C\u002Ftd>\n\u003Ctd>Anthropic\u003C\u002Ftd>\n\u003Ctd>Training\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>23,5 %\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Google-Extended\u003C\u002Ftd>\n\u003Ctd>Google\u003C\u002Ftd>\n\u003Ctd>Gemini-Training\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>21,2 %\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>meta-externalagent\u003C\u002Ftd>\n\u003Ctd>Meta\u003C\u002Ftd>\n\u003Ctd>Training\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>20,5 %\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Applebot-Extended\u003C\u002Ftd>\n\u003Ctd>Apple\u003C\u002Ftd>\n\u003Ctd>Training\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>19,9 %\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Amazonbot\u003C\u002Ftd>\n\u003Ctd>Amazon\u003C\u002Ftd>\n\u003Ctd>Assistent\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>17,2 %\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>anthropic-ai\u003C\u002Ftd>\n\u003Ctd>Anthropic\u003C\u002Ftd>\n\u003Ctd>Training (alt)\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>15,5 %\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>PerplexityBot\u003C\u002Ftd>\n\u003Ctd>Perplexity\u003C\u002Ftd>\n\u003Ctd>Suche\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>15,5 %\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>ChatGPT-User\u003C\u002Ftd>\n\u003Ctd>OpenAI\u003C\u002Ftd>\n\u003Ctd>On-Demand\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>10,9 %\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>OAI-SearchBot\u003C\u002Ftd>\n\u003Ctd>OpenAI\u003C\u002Ftd>\n\u003Ctd>Suche\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>6,1 %\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\u003Ch2>Training ja, Suche nein – der eigentliche Befund\u003C\u002Fh2>\n\u003Cp>Die interessanteste Zahl ist nicht der Spitzenwert, sondern der Abstand innerhalb eines Anbieters. OpenAI betreibt mehrere Crawler: \u003Cstrong>GPTBot\u003C\u002Fstrong> sammelt Text fürs Modelltraining, \u003Cstrong>OAI-SearchBot\u003C\u002Fstrong> liefert Belege für die Suche in ChatGPT. GPTBot wird von 27,2 % der Seiten gesperrt – OAI-SearchBot nur von 6,1 %.\u003C\u002Fp>\n\u003Cp>Das ist keine zufällige Lücke, sondern eine Haltung: \u003Cstrong>Deutsche Website-Betreiber wollen nicht ungefragt zum Trainingsmaterial werden – in KI-Antworten zitiert werden wollen sie aber sehr wohl.\u003C\u002Fstrong> Wer beides in einen Topf wirft und pauschal alles sperrt, verschenkt Sichtbarkeit in genau den Suchsystemen, die gerade den klassischen Google-Traffic ablösen.\u003C\u002Fp>\n\u003Ch2>Nachrichtenseiten sperren am härtesten\u003C\u002Fh2>\n\u003Cp>Über alle Branchen hinweg blockieren Medienhäuser am konsequentesten. In unserer Stichprobe bekannter Marken sperren \u003Cstrong>FAZ, Spiegel und Zeit\u003C\u002Fstrong> jeweils neun bis zwölf der zwölf beobachteten KI-Crawler – praktisch die komplette Liste. E-Commerce- und Portalseiten sind deutlich offener. Das passt zum wirtschaftlichen Interesse: Verlage verhandeln mit KI-Firmen über Lizenzen und sperren so lange, bis Geld fließt – während ein Onlineshop von einer Erwähnung in ChatGPT eher profitiert.\u003C\u002Fp>\n\u003Ch2>Die verdeckte Sperre: 403 statt robots.txt\u003C\u002Fh2>\n\u003Cp>Die robots.txt ist eine höfliche Bitte. Sie steht öffentlich da, und seriöse Crawler halten sich daran – erzwingen lässt sie sich nicht. Deshalb sperren manche Seiten härter: Sie erkennen den Bot an seiner Kennung und weisen ihn direkt am Server ab (HTTP 403), während ein normaler Browser die Seite ganz normal bekommt.\u003C\u002Fp>\n\u003Cp>Diese Sperre taucht in \u003Cstrong>keiner robots.txt\u003C\u002Fstrong> und in \u003Cstrong>keinem Archiv\u003C\u002Fstrong> auf – man sieht sie nur, wenn man selbst mit der Bot-Kennung anklopft. Genau das haben wir für die 200 größten Domains getan: \u003Cstrong>15,5 % weisen GPTBot serverseitig ab, 16,7 % ClaudeBot\u003C\u002Fstrong> – zusätzlich zu den robots.txt-Sperren. Die tatsächliche Blockade liegt also höher als die robots.txt allein vermuten lässt.\u003C\u002Fp>\n\u003Ch2>Was das für dich bedeutet\u003C\u002Fh2>\n\u003Cp>Wenn du für ein Unternehmen eine Website betreibst, ist das keine akademische Frage. Sie entscheidet mit, ob KI-Systeme dich künftig noch finden und zitieren.\u003C\u002Fp>\n\u003Cul>\n\u003Cli>\u003Cstrong>Pauschal alles zu sperren ist selten die richtige Antwort.\u003C\u002Fstrong> Die differenzierte Linie der Profis lautet: Trainings-Bots (GPTBot, ClaudeBot, Google-Extended, CCBot) sperren, wenn dir die Verwertung deiner Inhalte wichtig ist – \u003Cstrong>Such-Bots (OAI-SearchBot, PerplexityBot) erlauben\u003C\u002Fstrong>, damit du in KI-Antworten auftauchst.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>Prüf, was dein Server wirklich tut.\u003C\u002Fstrong> Viele Sperren entstehen unbemerkt durch Sicherheits- oder CDN-Regeln. Wenn dein Hoster KI-Crawler serverseitig abweist, steht davon nichts in deiner robots.txt – und du merkst es erst, wenn du fehlst.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>Entscheide bewusst, nicht aus Reflex.\u003C\u002Fstrong> Sichtbarkeit in KI-Suche ist der neue SEO-Kanal. Wer ihn zumauert, spart sich das Training – und verliert die Kundschaft, die künftig ChatGPT statt Google fragt.\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch2>So haben wir gemessen\u003C\u002Fh2>\n\u003Cp>Die Datenbasis ist ein \u003Cstrong>fester Satz der 1.000 meistbesuchten deutschen Domains\u003C\u002Fstrong> aus der öffentlichen CrUX-Länderliste von Google (Chrome-Nutzungsdaten). Für jede Domain lesen wir täglich die robots.txt und prüfen pro Crawler auf eine ausdrückliche Sperre (\u003Ccode>Disallow: \u002F\u003C\u002Fcode>). Erreichbar waren am 3. Juli 2026 891 der 1.000 Domains. Die serverseitige Probe läuft wöchentlich für die Top-200: Wir rufen die Startseite einmal mit Browser-Kennung und einmal mit GPTBot- bzw. ClaudeBot-Kennung ab und werten eine 403\u002F429-Antwort nur dann als Sperre, wenn der Browser normal bedient wird. Alle Messungen laufen aus einer Frankfurter Cloud-Region – die Rohdaten pro Domain veröffentlichen wir bewusst nicht, nur die Summen.\u003C\u002Fp>\n\u003Cp>Die Zahlen sind eine Momentaufnahme und verändern sich täglich. Den \u003Cstrong>laufend aktualisierten Stand\u003C\u002Fstrong> findest du im KI-Crawler-Blockade-Monitor.\u003C\u002Fp>\n",1783110802811]