Immer häufiger taucht in Social Media und SEO-Foren die Empfehlung auf, eine Datei namens llms.txt
anzulegen, um KI-Crawlern wie GPTBot oder ClaudeBot vorzugeben, welche Inhalte sie verwenden dürfen.
Doch Vorsicht:
Bisher gibt es keinen anerkannten Standard dafür. Die Datei wird von großen KI-Anbietern ignoriert.
Das Problem:
Seitenbetreiber verzichten dann evtl. auf wirksame Maßnahmen (korrekte robots.txt
, Firewalls, rechtliche Nutzungsbedingungen). Wer darauf vertraut, wiegt sich in Scheinsicherheit.
Faktencheck statt Hype:
In diesem Beitrag räume ich mit den Missverständnissen auf und zeige, welche technischen Möglichkeiten es aktuell tatsächlich gibt, um den Zugriff von KI-Bots zu steuern.
Die aktuelle Lage
Da immer mehr AI‑Bots das Web durchsuchen und Inhalte für das Training oder die Beantwortung von Anfragen nutzen, ist die Frage relevant, ob die Datei llms.txt
ein technisch wirksames Mittel zur Einschränkung ist.
Allerdings herrscht aktuell keine automatische Unterstützung durch Crawler und somit kann die Datei weder automatisch gefunden noch ausgewertet werden. Bisher haben weder OpenAI, Anthropic, Google, Common Crawl, Meta noch Microsoft eine Unterstützung von llms.txt
angekündigt oder in ihren Dokumenten erwähnt.
Aber was genau macht nun die llms.txt
?
Weder das W3C, die IETF noch die großen KI-Anbieter haben llms.txt
bislang als offiziellen Standard anerkannt oder implementiert. Die Idee geht auf Jeremy Howard zurück, der sie im September 2024 erstmals vorstellte. Sein Ziel: eine einfache Möglichkeit schaffen, um Large-Language-Modelle gezielt mit hochwertigen Webinhalten zu versorgen.
Die Datei soll eine strukturierte Übersicht bieten. Eine Art Menü oder Inhaltsverzeichnis der wichtigsten Seiten, damit KI-Modelle den Kontext einer Website leichter erfassen können.
Sie dient jedoch nicht dazu, Crawler zu verbieten oder deren Zugriff zu steuern. Es gibt außerdem keine Garantie, dass KI-Anbieter die bereitgestellten Informationen überhaupt verwenden.
llms.txt
kann also als freiwillige, zusätzliche Inhaltsübersicht hilfreich sein und könnte in Zukunft an Bedeutung gewinnen.
Wer jedoch Inhalte wirksam sperren oder freigeben möchte, muss weiterhin auf robots.txt
und gegebenenfalls serverseitige Schutzmaßnahmen wie Firewalls oder Bot-Blocking setzen.
Vergleich mit robots.txt
Die Datei robots.txt
ist ein etablierter Standard aus dem Jahr 1994, der Crawlern anzeigt, welche Bereiche einer Website sie besuchen dürfen oder nicht. Alle oben genannten KI‑Crawler bestätigen, dass sie robots.txt auswerten und respektieren. Eine llms.txt
‑Datei hat dagegen keinen offiziellen Status und ist im besten Fall nur eine Ergänzung als „Index“.
So steuern große KI-Anbieter den Zugriff (Stand 2025)
OpenAI (GPTBot & ChatGPT‑User)
OpenAI listet die verwendeten Crawler in seiner Dokumentation: GPTBot (für Trainingsdaten), ChatGPT‑User (ruft Seiten im Auftrag von Nutzern ab) und OAI‑SearchBot. In der Beschreibung wird ausdrücklich darauf hingewiesen, dass Betreiber diese Crawler über robots.txt erlauben oder ausschließen können. Beispiel: Wer seine Website nicht für das Training verwenden möchte, soll in der robots.txt eine Disallow‑Regel für GPTBot hinzufügen. Eine Unterstützung für llms.txt
wird nicht erwähnt.
Quelle: https://platform.openai.com/docs/bots
Anthropic (ClaudeBot, Claude-User, Claude‑SearchBot)
Anthropic erklärt in seiner Hilfe, dass die Bots des Unternehmens „do‑not‑crawl‑Signale respektieren, indem sie die branchenüblichen Anweisungen in robots.txt einhalten“.
Die Anleitung zum Blockieren von ClaudeBot lautet:
User-agent: ClaudeBot
Disallow: /
Auch hier wird keine Unterstützung für llms.txt
genannt.
Quellen:
Google (Gemini/Bard über Google‑Extended)
Google führt mit Google‑Extended einen separaten User-Agent-Token ein, mit dem Websitebetreiber festlegen können, ob ihre Inhalte zur Schulung von Modellen wie Gemini verwendet werden dürfen. Google unterstreicht, dass Google‑Extended über robots.txt gesteuert wird.
Das Entwicklerportal liefert ein Beispiel: Eine Gruppe in robots.txt mit
User-agent: Google-Extended
Disallow: /
blockiert die Nutzung der Inhalte für Training.
Somit ist robots.txt der offizielle Mechanismus; llms.txt wird nicht erwähnt.
Quelle: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers?hl=de
Common Crawl (CCBot)
Die Non‑Profit‑Organisation Common Crawl betreibt den Crawler CCBot, der einen Großteil des öffentlich verfügbaren Webs erfasst. Sie erklärt, dass Websitebesitzer CCBot durch robots.txt ausschließen können:
User-agent: CCBot
Disallow: /
Die FAQ bestätigt, dass CCBot regelmäßig robots.txt liest und sich an die Regeln hält.
Quelle: https://commoncrawl.org/ccbot
Perplexity AI
Perplexity betreibt zwei Arten von Bots. Der Such‑Crawler PerplexityBot respektiert laut dem Support‑Artikel die robots.txt‑Regeln und indexiert die Inhalte von Websites nur, wenn dies erlaubt ist.
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Der zweite Agent Perplexity‑User ruft Seiten auf Wunsch einzelner Nutzer ab und ignoriert in der Regel robots.txt, da es sich aus Sicht des Unternehmens um eine „echte“ Nutzerabfrage handelt. Perplexity erwähnt llms.txt nicht als Steuerungsoption.
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)
Quelle: https://docs.perplexity.ai/guides/bots#perplexity-crawlers
Meta (Facebook) und andere Crawler
Meta weist Websitebetreiber darauf hin, dass sie die firmeneigenen Bots (z. B. Meta‑ExternalAgent, der für die KI‑Modellentwicklung genutzt wird) mit robots.txt steuern sollen. In der Entwicklerdokumentation wird explizit von „branchenüblichen Praktiken wie robots.txt“ gesprochen und erwähnt, dass nicht‑standardisierte Formate wie NoAI-Tags oder andere Methoden unwirksam sind.
Zum Blockieren des Trainings-Crawlers ist ein Disallow‑Eintrag für Meta-ExternalAgent in der robots.txt erforderlich.
Quelle: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
Microsoft (Bing/GPT‑4 via Bing Chat)
Microsoft erklärt in seinen Entwicklerressourcen, dass die robots.txt-Datei dem Bing‑Crawler (Bingbot) mitteilt, welche Seiten durchsucht werden dürfen.
Für die Nutzung von Websites durch generative KI stellt Microsoft zusätzlich Meta‑Tags (NOCACHE/NOARCHIVE) vor, die in der HTML‑Datei gesetzt werden müssen.
Eine Unterstützung für llms.txt
ist auch hier nicht dokumentiert.
Quelle: https://learn.microsoft.com/de-de/microsoft-copilot-studio/guidance/generative-ai-public-websites
Wie kontrolliere ich den Zugriff von KI Crawlern?
Wer verhindern möchte, dass KI-Bots wie GPTBot oder ClaudeBot Inhalte einer Website crawlen und für das Training nutzen, muss sich auf bewährte Standards und serverseitige Maßnahmen verlassen.
Die folgenden Schritte sind derzeit die einzigen wirksamen Möglichkeiten:
1. robots.txt
gezielt einsetzen
Die robots.txt
ist nach wie vor der von allen großen Anbietern dokumentierte Weg, um Crawling zu erlauben oder zu verbieten. Jeder KI-Bot hat einen eigenen User-Agent, der in dieser Datei gezielt angesprochen werden kann.
Beispiel Konfiguration der robots.txt
um den Zugriff für den OpenAI GPTBot und andere KI-Crawler zu steuern.
#GPTBot (OpenAI)
User-agent: GPTBot
Disallow: /
#Google Extended (für KI-Training)
User-agent: Google-Extended
Disallow: /
#ClaudeBot (Anthropic)
User-agent: ClaudeBot
Disallow: /
#Standard: alles andere darf crawlen
User-agent: *
Allow: /
Hinweis: robots.txt
ist eine Selbstverpflichtung der Bots. Seriöse Anbieter wie OpenAI, Anthropic oder Google halten sich daran – Scraper oder unbekannte Bots können sie jedoch ignorieren.
2. Serverseitig sperren
Wer wirklich sicherstellen will, dass bestimmte Bots nicht auf Inhalte zugreifen, kann technische Blockaden einsetzen:
- User-Agent-Filter (z.B. in
.htaccess
, Nginx oder über eine WAF) - IP- oder ASN-Sperren, wenn der Anbieter seine Netze veröffentlicht
- Bot-Management über Sicherheitsdienste wie Cloudflare, Fastly oder AWS WAF
- Rate-Limiting um verdächtige Bots auszubremsen
Zum Beitrag: So schützen Sie Ihre Website serverseitig vor GPTBot & Co.
3. Rechtliche Absicherung
Neben technischen Maßnahmen sollte man in den Nutzungsbedingungen klarstellen, dass Text- und Data-Mining oder KI-Training ohne Erlaubnis untersagt ist. Das schützt zwar nicht technisch, schafft aber eine rechtliche Grundlage, um gegen Missbrauch vorzugehen.
Was Server-Logs wirklich zeigen (und was nicht).
Immer wieder berichten Websitebetreiber von Zugriffen auf die Datei llms.txt
.
Auch in meinen eigenen Logs taucht der User-Agent OAI-SearchBot/1.0
von OpenAI auf, der prüft, ob diese Datei existiert:
Mozilla/5.0 (…) Safari/537.36; compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
Wichtig:
Dass ein Bot die Datei anfragt, bedeutet lediglich, dass er nachschaut, ob sie vorhanden ist.
Es gibt keine offizielle Bestätigung von OpenAI, dass llms.txt
ausgewertet oder als Steuerinstrument für Crawling und Training respektiert wird.
In der offiziellen Dokumentation heißt es weiterhin ausdrücklich, dass GPTBot und OAI-SearchBot ausschließlich die Regeln in der robots.txt
beachten (Quelle: OpenAI Bot Policy).
Ein Request in den Logs ist kein Beleg für tatsächliche Unterstützung oder Befolgung von llms.txt
. Für die Steuerung des Zugriffs bleibt robots.txt
der maßgebliche Standard.
Ein Request ist keine Datenverarbeitung!
Der Bot hat die Datei abgerufen. Das bedeutet nicht:
- dass der Inhalt interpretiert,
- dass er gespeichert, oder
- dass er in Trainingsdaten oder Rankings einfließt
Zusammenfassung
Die Datei llms.txt
wird derzeit oft so dargestellt, als könne sie gleichzeitig Inhalte für KI-Modelle strukturieren und den Zugriff kontrollieren. In Wirklichkeit sind das zwei völlig unterschiedliche Ebenen:
Inhaltsverzeichnis / Strukturierung:
llms.txt
kann als freiwillige Inhaltsübersicht dienen. Einige Bots – z. B. OpenAIs OAI-SearchBot – fragen inzwischen ab, ob eine solche Datei vorhanden ist, vermutlich um experimentell Inhalte besser zu verstehen.
Es gibt aber keine Zusage, dass diese Daten genutzt oder priorisiert werden, und keinen etablierten Standard für die Auswertung.
Schutz / Zugriffskontrolle:
Wer verhindern möchte, dass KI-Bots Inhalte crawlen oder für Training nutzen, kann das nicht mit llms.txt
erreichen.
Große Anbieter wie OpenAI (GPTBot/OAI-SearchBot), Anthropic (ClaudeBot), Google-Extended oder Common Crawl dokumentieren weiterhin ausschließlich die robots.txt
als offizielle Steuerungsmöglichkeit.
Wer echten Schutz braucht, sollte zusätzlich serverseitige Sperren (z. B. WAF, IP-Blocking) nutzen.
Fazit:
llms.txt
kann (zukünftig) hilfreich sein, um KI-Systemen freiwillig eine Inhaltsübersicht anzubieten. Sie ersetzt jedoch weder die bewährte robots.txt
noch schützt sie zuverlässig vor KI-Crawling oder dem Training großer Sprachmodelle.
Manche Anbieter bewerben llms.txt
derzeit als neue Steuerungsmethode für KI-Bots. Das klingt nach einer klaren Lösung, ist aber Stand 2025 technisch nicht belegt.
Sie können eine llms.txt
bereitstellen, wenn Sie möchten – es schadet nicht. Verlassen Sie sich jedoch nicht darauf, dass damit der Zugriff durch KI-Bots kontrollierbar oder Ihre Inhalte geschützt sind. Beachten Sie den Wartungsaufwand ohne klaren Nutzen. Bei größeren Webseiten muss die llms.txt
regelmäßig aktualisiert werden. Es entsteht eine zusätzliche Pflegeverpflichtung ohne erkennbare Wirkung.