Inhalte Anzeigen

Immer häufiger taucht in Social Media und SEO-Foren die Empfehlung auf, eine Datei namens llms.txt anzulegen, um KI-Crawlern wie GPTBot oder ClaudeBot vorzugeben, welche Inhalte sie verwenden dürfen.

Doch Vorsicht:
Bisher gibt es keinen anerkannten Standard dafür. Die Datei wird von großen KI-Anbietern ignoriert.
Das Problem:
Seitenbetreiber verzichten dann evtl. auf wirksame Maßnahmen (korrekte robots.txt, Firewalls, rechtliche Nutzungsbedingungen). Wer darauf vertraut, wiegt sich in Scheinsicherheit.

Faktencheck statt Hype:

In diesem Beitrag räume ich mit den Missverständnissen auf und zeige, welche technischen Möglichkeiten es aktuell tatsächlich gibt, um den Zugriff von KI-Bots zu steuern.

Die aktuelle Lage

Da immer mehr AI‑Bots das Web durchsuchen und Inhalte für das Training oder die Beantwortung von Anfragen nutzen, ist die Frage relevant, ob die Datei llms.txt ein technisch wirksames Mittel zur Einschränkung ist.

Allerdings herrscht aktuell keine automatische Unterstützung durch Crawler und somit kann die Datei weder automatisch gefunden noch ausgewertet werden. Bisher haben weder OpenAI, Anthropic, Google, Common Crawl, Meta noch Microsoft eine Unterstützung von llms.txt angekündigt oder in ihren Dokumenten erwähnt.

Aber was genau macht nun die `llms.txt`?

Weder das W3C, die IETF noch die großen KI-Anbieter haben llms.txt bislang als offiziellen Standard anerkannt oder implementiert. Die Idee geht auf Jeremy Howard zurück, der sie im September 2024 erstmals vorstellte. Sein Ziel: eine einfache Möglichkeit schaffen, um Large-Language-Modelle gezielt mit hochwertigen Webinhalten zu versorgen.

Die Datei soll eine strukturierte Übersicht bieten. Eine Art Menü oder Inhaltsverzeichnis der wichtigsten Seiten, damit KI-Modelle den Kontext einer Website leichter erfassen können.
Sie dient jedoch nicht dazu, Crawler zu verbieten oder deren Zugriff zu steuern. Es gibt außerdem keine Garantie, dass KI-Anbieter die bereitgestellten Informationen überhaupt verwenden.

llms.txt kann also als freiwillige, zusätzliche Inhaltsübersicht hilfreich sein und könnte in Zukunft an Bedeutung gewinnen.
Wer jedoch Inhalte wirksam sperren oder freigeben möchte, muss weiterhin auf robots.txt und gegebenenfalls serverseitige Schutzmaßnahmen wie Firewalls oder Bot-Blocking setzen.

Vergleich mit `robots.txt`

Die Datei robots.txt ist ein etablierter Standard aus dem Jahr 1994, der Crawlern anzeigt, welche Bereiche einer Website sie besuchen dürfen oder nicht. Alle oben genannten KI‑Crawler bestätigen, dass sie robots.txt auswerten und respektieren. Eine llms.txt‑Datei hat dagegen keinen offiziellen Status und ist im besten Fall nur eine Ergänzung als „Index“.

So steuern große KI-Anbieter den Zugriff (Stand 2025)

OpenAI (GPTBot & ChatGPT‑User)

OpenAI listet die verwendeten Crawler in seiner Dokumentation: GPTBot (für Trainingsdaten), ChatGPT‑User (ruft Seiten im Auftrag von Nutzern ab) und OAI‑SearchBot. In der Beschreibung wird ausdrücklich darauf hingewiesen, dass Betreiber diese Crawler über robots.txt erlauben oder ausschließen können. Beispiel: Wer seine Website nicht für das Training verwenden möchte, soll in der robots.txt eine Disallow‑Regel für GPTBot hinzufügen. Eine Unterstützung für llms.txt wird nicht erwähnt.

Quelle: https://platform.openai.com/docs/bots

Anthropic (ClaudeBot, Claude-User, Claude‑SearchBot)

Anthropic erklärt in seiner Hilfe, dass die Bots des Unternehmens „do‑not‑crawl‑Signale respektieren, indem sie die branchenüblichen Anweisungen in robots.txt einhalten“.
Die Anleitung zum Blockieren von ClaudeBot lautet:

User-agent: ClaudeBot
Disallow: /

Auch hier wird keine Unterstützung für llms.txt genannt.

Quellen:

https://support.claude.com/de/articles/8896518-crawlt-anthropic-daten-aus-dem-web-und-wie-konnen-website-betreiber-den-crawler-blockieren

https://support.claude.com/de/articles/7996906-melden-blockieren-und-entfernen-von-inhalten-aus-claude

Google (Gemini/Bard über Google‑Extended)

Google führt mit Google‑Extended einen separaten User-Agent-Token ein, mit dem Websitebetreiber festlegen können, ob ihre Inhalte zur Schulung von Modellen wie Gemini verwendet werden dürfen. Google unterstreicht, dass Google‑Extended über robots.txt gesteuert wird.
Das Entwicklerportal liefert ein Beispiel: Eine Gruppe in robots.txt mit

User-agent: Google-Extended
Disallow: /

blockiert die Nutzung der Inhalte für Training.
Somit ist robots.txt der offizielle Mechanismus; llms.txt wird nicht erwähnt.

Quelle: https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers?hl=de

Common Crawl (CCBot)

Die Non‑Profit‑Organisation Common Crawl betreibt den Crawler CCBot, der einen Großteil des öffentlich verfügbaren Webs erfasst. Sie erklärt, dass Websitebesitzer CCBot durch robots.txt ausschließen können:

User-agent: CCBot 
Disallow: /

Die FAQ bestätigt, dass CCBot regelmäßig robots.txt liest und sich an die Regeln hält.

Quelle: https://commoncrawl.org/ccbot

Perplexity AI

Perplexity betreibt zwei Arten von Bots. Der Such‑Crawler PerplexityBot respektiert laut dem Support‑Artikel die robots.txt‑Regeln und indexiert die Inhalte von Websites nur, wenn dies erlaubt ist.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)

Der zweite Agent Perplexity‑User ruft Seiten auf Wunsch einzelner Nutzer ab und ignoriert in der Regel robots.txt, da es sich aus Sicht des Unternehmens um eine „echte“ Nutzerabfrage handelt. Perplexity erwähnt llms.txt nicht als Steuerungsoption.

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)

Quelle: https://docs.perplexity.ai/guides/bots#perplexity-crawlers

Meta (Facebook) und andere Crawler

Meta weist Websitebetreiber darauf hin, dass sie die firmeneigenen Bots (z. B. Meta‑ExternalAgent, der für die KI‑Modellentwicklung genutzt wird) mit robots.txt steuern sollen. In der Entwicklerdokumentation wird explizit von „branchenüblichen Praktiken wie robots.txt“ gesprochen und erwähnt, dass nicht‑standardisierte Formate wie NoAI-Tags oder andere Methoden unwirksam sind.

Zum Blockieren des Trainings-Crawlers ist ein Disallow‑Eintrag für Meta-ExternalAgent in der robots.txt erforderlich.

Quelle: https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/

Microsoft (Bing/GPT‑4 via Bing Chat)

Microsoft erklärt in seinen Entwicklerressourcen, dass die robots.txt-Datei dem Bing‑Crawler (Bingbot) mitteilt, welche Seiten durchsucht werden dürfen.

Für die Nutzung von Websites durch generative KI stellt Microsoft zusätzlich Meta‑Tags (NOCACHE/NOARCHIVE) vor, die in der HTML‑Datei gesetzt werden müssen.

Eine Unterstützung für llms.txt ist auch hier nicht dokumentiert.

Quelle: https://learn.microsoft.com/de-de/microsoft-copilot-studio/guidance/generative-ai-public-websites

Wie kontrolliere ich den Zugriff von KI Crawlern?

Wer verhindern möchte, dass KI-Bots wie GPTBot oder ClaudeBot Inhalte einer Website crawlen und für das Training nutzen, muss sich auf bewährte Standards und serverseitige Maßnahmen verlassen.

Die folgenden Schritte sind derzeit die einzigen wirksamen Möglichkeiten:

1. `robots.txt` gezielt einsetzen

Die robots.txt ist nach wie vor der von allen großen Anbietern dokumentierte Weg, um Crawling zu erlauben oder zu verbieten. Jeder KI-Bot hat einen eigenen User-Agent, der in dieser Datei gezielt angesprochen werden kann.

Beispiel Konfiguration der `robots.txt`
um den Zugriff für den OpenAI GPTBot und andere KI-Crawler zu steuern.

#GPTBot (OpenAI)

User-agent: GPTBot
Disallow: /

#Google Extended (für KI-Training)

User-agent: Google-Extended
Disallow: /

#ClaudeBot (Anthropic)

User-agent: ClaudeBot
Disallow: /

#Standard: alles andere darf crawlen

User-agent: *
Allow: /

Hinweis: robots.txt ist eine Selbstverpflichtung der Bots. Seriöse Anbieter wie OpenAI, Anthropic oder Google halten sich daran – Scraper oder unbekannte Bots können sie jedoch ignorieren.

2. Serverseitig sperren

Wer wirklich sicherstellen will, dass bestimmte Bots nicht auf Inhalte zugreifen, kann technische Blockaden einsetzen:

User-Agent-Filter (z.B. in .htaccess, Nginx oder über eine WAF)
IP- oder ASN-Sperren, wenn der Anbieter seine Netze veröffentlicht
Bot-Management über Sicherheitsdienste wie Cloudflare, Fastly oder AWS WAF
Rate-Limiting um verdächtige Bots auszubremsen

Zum Beitrag: So schützen Sie Ihre Website serverseitig vor GPTBot & Co.

3. Rechtliche Absicherung

Neben technischen Maßnahmen sollte man in den Nutzungsbedingungen klarstellen, dass Text- und Data-Mining oder KI-Training ohne Erlaubnis untersagt ist. Das schützt zwar nicht technisch, schafft aber eine rechtliche Grundlage, um gegen Missbrauch vorzugehen.

Was Server-Logs wirklich zeigen (und was nicht).

Immer wieder berichten Websitebetreiber von Zugriffen auf die Datei llms.txt.
Auch in meinen eigenen Logs taucht der User-Agent OAI-SearchBot/1.0 von OpenAI auf, der prüft, ob diese Datei existiert:

Mozilla/5.0 (…) Safari/537.36; compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot

Wichtig:
Dass ein Bot die Datei anfragt, bedeutet lediglich, dass er nachschaut, ob sie vorhanden ist.
Es gibt keine offizielle Bestätigung von OpenAI, dass llms.txt ausgewertet oder als Steuerinstrument für Crawling und Training respektiert wird.
In der offiziellen Dokumentation heißt es weiterhin ausdrücklich, dass GPTBot und OAI-SearchBot ausschließlich die Regeln in der robots.txt beachten (Quelle: OpenAI Bot Policy).

Ein Request in den Logs ist kein Beleg für tatsächliche Unterstützung oder Befolgung von llms.txt. Für die Steuerung des Zugriffs bleibt robots.txt der maßgebliche Standard.

Ein Request ist keine Datenverarbeitung!

Der Bot hat die Datei abgerufen. Das bedeutet nicht:

dass der Inhalt interpretiert,
dass er gespeichert, oder
dass er in Trainingsdaten oder Rankings einfließt

Zusammenfassung

Die Datei llms.txt wird derzeit oft so dargestellt, als könne sie gleichzeitig Inhalte für KI-Modelle strukturieren und den Zugriff kontrollieren. In Wirklichkeit sind das zwei völlig unterschiedliche Ebenen:

Inhaltsverzeichnis / Strukturierung:

llms.txt kann als freiwillige Inhaltsübersicht dienen. Einige Bots – z. B. OpenAIs OAI-SearchBot – fragen inzwischen ab, ob eine solche Datei vorhanden ist, vermutlich um experimentell Inhalte besser zu verstehen.
Es gibt aber keine Zusage, dass diese Daten genutzt oder priorisiert werden, und keinen etablierten Standard für die Auswertung.

Schutz / Zugriffskontrolle:

Wer verhindern möchte, dass KI-Bots Inhalte crawlen oder für Training nutzen, kann das nicht mit llms.txt erreichen.
Große Anbieter wie OpenAI (GPTBot/OAI-SearchBot), Anthropic (ClaudeBot), Google-Extended oder Common Crawl dokumentieren weiterhin ausschließlich die robots.txt als offizielle Steuerungsmöglichkeit.
Wer echten Schutz braucht, sollte zusätzlich serverseitige Sperren (z. B. WAF, IP-Blocking) nutzen.

Fazit:

llms.txt kann (zukünftig) hilfreich sein, um KI-Systemen freiwillig eine Inhaltsübersicht anzubieten. Sie ersetzt jedoch weder die bewährte robots.txt noch schützt sie zuverlässig vor KI-Crawling oder dem Training großer Sprachmodelle.

Manche Anbieter bewerben llms.txt derzeit als neue Steuerungsmethode für KI-Bots. Das klingt nach einer klaren Lösung, ist aber Stand 2025 technisch nicht belegt.

Sie können eine llms.txt bereitstellen, wenn Sie möchten – es schadet nicht. Verlassen Sie sich jedoch nicht darauf, dass damit der Zugriff durch KI-Bots kontrollierbar oder Ihre Inhalte geschützt sind. Beachten Sie den Wartungsaufwand ohne klaren Nutzen. Bei größeren Webseiten muss die llms.txt regelmäßig aktualisiert werden. Es entsteht eine zusätzliche Pflegeverpflichtung ohne erkennbare Wirkung.

Webdesign & Entwicklung

Wartung & Pflege

Onlinemarketing

Komplettlösungen

Top Themen & Beitragsreihen

Kann die Datei llms.txt Inhalte auf Webseiten wirksam vor KI-Crawlern schützen?

Faktencheck statt Hype:

Die aktuelle Lage

Aber was genau macht nun die `llms.txt`?

Vergleich mit `robots.txt`

So steuern große KI-Anbieter den Zugriff (Stand 2025)

OpenAI (GPTBot & ChatGPT‑User)

Anthropic (ClaudeBot, Claude-User, Claude‑SearchBot)

Google (Gemini/Bard über Google‑Extended)

Common Crawl (CCBot)

Perplexity AI

Meta (Facebook) und andere Crawler

Microsoft (Bing/GPT‑4 via Bing Chat)

Wie kontrolliere ich den Zugriff von KI Crawlern?

1. `robots.txt` gezielt einsetzen

Beispiel Konfiguration der `robots.txt`
um den Zugriff für den OpenAI GPTBot und andere KI-Crawler zu steuern.

#GPTBot (OpenAI)

#Google Extended (für KI-Training)

#ClaudeBot (Anthropic)

#Standard: alles andere darf crawlen

2. Serverseitig sperren

3. Rechtliche Absicherung

Was Server-Logs wirklich zeigen (und was nicht).

Ein Request ist keine Datenverarbeitung!

Zusammenfassung

Inhaltsverzeichnis / Strukturierung:

Schutz / Zugriffskontrolle:

Fazit:

Themen

Aktuelle Beiträge

Newsletter

Webdesign & Entwicklung

Wartung & Pflege

Onlinemarketing

Komplettlösungen

Top Themen & Beitragsreihen

Kann die Datei llms.txt Inhalte auf Webseiten wirksam vor KI-Crawlern schützen?

Faktencheck statt Hype:

Die aktuelle Lage

Aber was genau macht nun die llms.txt?

Vergleich mit robots.txt

So steuern große KI-Anbieter den Zugriff (Stand 2025)

OpenAI (GPTBot & ChatGPT‑User)

Anthropic (ClaudeBot, Claude-User, Claude‑SearchBot)

Google (Gemini/Bard über Google‑Extended)

Common Crawl (CCBot)

Perplexity AI

Meta (Facebook) und andere Crawler

Microsoft (Bing/GPT‑4 via Bing Chat)

Wie kontrolliere ich den Zugriff von KI Crawlern?

1. robots.txt gezielt einsetzen

Beispiel Konfiguration der robots.txt um den Zugriff für den OpenAI GPTBot und andere KI-Crawler zu steuern.

#GPTBot (OpenAI)

#Google Extended (für KI-Training)

#ClaudeBot (Anthropic)

#Standard: alles andere darf crawlen

2. Serverseitig sperren

3. Rechtliche Absicherung

Was Server-Logs wirklich zeigen (und was nicht).

Ein Request ist keine Datenverarbeitung!

Zusammenfassung

Inhaltsverzeichnis / Strukturierung:

Schutz / Zugriffskontrolle:

Fazit:

Themen

Aktuelle Beiträge

Newsletter

Aber was genau macht nun die `llms.txt`?

Vergleich mit `robots.txt`

1. `robots.txt` gezielt einsetzen

Beispiel Konfiguration der `robots.txt`
um den Zugriff für den OpenAI GPTBot und andere KI-Crawler zu steuern.