llms.txt ist ein vorgeschlagener Markdown-Index, der am Root einer Domain liegt (typischerweise unter https://beispiel.de/llms.txt) und Sprachmodellen sowie KI-Agenten in komprimierter Form mitteilen soll, welche Inhalte einer Website für maschinelle Verarbeitung besonders geeignet sind. Anders als die seit Jahren etablierte robots.txt, die Bots vorgibt, welche Pfade sie crawlen dürfen, beschreibt llms.txt nicht das Zugriffsrecht, sondern die inhaltliche Struktur: Welche Dokumente sind kanonisch, welche Markdown-Versionen existieren, welche Reihenfolge ergibt fachlich Sinn? Der Vorschlag stammt von Jeremy Howard (Answer.AI) und wurde im September 2024 veröffentlicht.
Aufbau einer llms.txt
Eine llms.txt ist eine Markdown-Datei mit klar definierter Hierarchie. Der erste Block enthält den Namen der Website als H1-Überschrift und eine Kurzbeschreibung als Blockquote. Darauf folgen optional kurze einleitende Absätze, in denen der Betreiber den Modellen kontextualisierende Hinweise gibt, etwa zur Marke, zur Zielgruppe oder zu Besonderheiten der Inhalte. Den Hauptteil bilden H2-überschriebene Sektionen, in denen Links zu den wichtigsten Dokumenten gruppiert sind. Eine Variante namens llms-full.txt erweitert das Konzept: Sie enthält nicht nur Verweise, sondern den vollständigen Markdown-Text aller relevanten Seiten, sodass ein Modell die gesamte Site ohne weitere HTTP-Requests verarbeiten kann. Das Format ist bewusst schlank gehalten, weil es in das ohnehin knappe Kontextfenster eines Sprachmodells passen soll.
Wofür llms.txt gedacht ist
Klassische Websites sind für menschliche Leser optimiert: HTML mit Navigation, Werbung, Cookie-Bannern und visuellen Akzenten. Für ein Sprachmodell ist diese Form ineffizient, weil viel Token-Budget für Layout, JavaScript und irrelevantes Markup verbraucht wird. llms.txt reduziert die Website auf den semantischen Kern und liefert eine maschinenfreundliche Indexkarte, mit der ein Modell schneller und präziser zu den eigentlichen Antwortinhalten findet. Besonders sinnvoll ist das Format bei Dokumentationen, technischen Knowledge Bases und Glossaren, weil dort die Trennung von Struktur und Inhalt ohnehin klar ist.
Aktuelle Verbreitung und Adoption
Stand 2026 ist llms.txt kein offizieller Web-Standard. Weder die IETF noch das W3C haben den Vorschlag ratifiziert, und keiner der großen KI-Anbieter, also OpenAI, Anthropic, Google oder Perplexity, hat sich öffentlich verpflichtet, llms.txt in Produktion auszulesen. Die tatsächliche Verbreitung liegt nach Schätzungen bei rund 5 bis 15 Prozent unter Tech- und Doku-Sites, mit deutlich höherer Adoption in der Developer-Tools-Nische als im klassischen Mittelstands-E-Commerce. Praktisch bedeutet das: Eine sauber gepflegte llms.txt bringt heute keinen messbaren Sichtbarkeits-Boost. Sie ist eher eine Vorabinvestition für den Fall, dass einer der großen Anbieter sie offiziell unterstützen sollte.
Verhältnis zu robots.txt und Schema.org
llms.txt ersetzt weder die robots.txt noch Schema.org. Die drei Mechanismen bedienen unterschiedliche Schichten. Über robots.txt regelt der Betreiber, welche Bots welche Pfade besuchen dürfen, also die Frage des Zugriffs. Schema.org-Auszeichnungen liefern strukturierte Daten innerhalb einer Seite, also die Frage der Semantik. llms.txt ergänzt diese Ebenen um eine globale Sicht auf die Site, also die Frage der Architektur. Wer alle drei Mechanismen sauber pflegt, deckt die wichtigsten Berührungspunkte zwischen Modell und Website ab.
llms.txt im E-Commerce-Kontext
Für klassische Shop-Setups, etwa auf Shopware-Basis, ist llms.txt heute eher Pflicht-Hygiene als Wachstumstreiber. Sinnvolle Inhalte für die Datei sind Verlinkungen zu Hauptkategorien, Marken-Hubs, Glossar-Seiten, FAQ-Bereichen und zu redaktionellen Ratgebern. Produktseiten gehören in der Regel nicht hinein, weil ihr Volumen das Kontextfenster sprengen würde und ihre Aktualität über Schema.org und Sitemap besser abgebildet ist. Eine zusätzliche llms-full.txt kann sinnvoll sein, wenn ein Shop einen klar abgegrenzten redaktionellen Bereich pflegt, etwa einen Themenblog oder eine Wissensdatenbank, deren Markdown-Quellen ohnehin vorliegen.
Häufige Missverständnisse
Mehrere Missverständnisse begleiten den Vorschlag. Erstens wird llms.txt häufig als „Anti-Scraping-Hebel“ missverstanden, was es nicht ist; das Format teilt nicht mit, ob ein Bot trainieren oder zitieren darf, sondern was er findet. Zweitens wird die Datei oft mit der älteren ai.txt verwechselt, einem ähnlich klingenden, aber eigenständigen Vorschlag mit anderem Fokus. Drittens überschätzen viele Betreiber die Sofortwirkung: Eine gepflegte llms.txt ist nur dann nutzbar, wenn die crawlenden Modelle sie auch lesen, und diese Adoption liegt derzeit weitgehend bei den Anbietern, nicht bei den Website-Betreibern. Pragmatisch bleibt daher die Empfehlung, die Datei anzulegen, sauber zu pflegen und mit den eigenen Sitemap- und Schema-Pflegezyklen zu synchronisieren, aber keinen kurzfristigen ROI zu erwarten.
Wie ein Einstieg aussehen kann
Ein realistischer Einstieg umfasst drei Schritte. Im ersten Schritt entsteht eine schlanke llms.txt mit Markenname, Kurzbeschreibung und zwei bis drei H2-Sektionen, die auf Glossar, FAQ und zentrale Ratgeber verweisen. Im zweiten Schritt prüft der Betreiber, ob eine begleitende llms-full.txt sinnvoll ist; sie lohnt sich nur, wenn die zentralen Markdown-Inhalte ohnehin existieren oder leicht ableitbar sind. Im dritten Schritt landet die Datei in der Build- und Deployment-Pipeline, damit sie automatisch mitwächst, wenn neue Glossar-Einträge oder Ratgeber entstehen. So bleibt der Pflegeaufwand niedrig, und die Site ist vorbereitet, sobald die großen Anbieter das Format ernst nehmen.