llms.txt

AI LLMs Web Standards Markdown

Wat is llms.txt?

Het llms.txt-bestand is een gestandaardiseerd tekstbestand in Markdown-formaat dat is ontworpen om te verbeteren hoe Large Language Models (LLM’s) toegang krijgen tot, begrijpen en informatie verwerken van websites. Gehost in het rootpad van een website (bijv. /llms.txt), fungeert dit bestand als een samengestelde index die gestructureerde en samengevatte inhoud biedt, specifiek geoptimaliseerd voor machinegebruik tijdens inferentie. Het primaire doel is om de complexiteit van traditionele HTML-inhoud—zoals navigatiemenu’s, advertenties en JavaScript—te omzeilen door duidelijke, voor mensen én machines leesbare data aan te bieden.

In tegenstelling tot andere webstandaarden zoals robots.txt of sitemap.xml, is llms.txt expliciet afgestemd op redeneermachines zoals ChatGPT, Claude of Google Gemini, en niet op zoekmachines. Het helpt AI-systemen om alleen de meest relevante en waardevolle informatie op te halen, binnen de beperkingen van hun context window, die vaak te klein is om de volledige website-inhoud te bevatten.

Oorsprong van llms.txt

Het concept werd voorgesteld door Jeremy Howard, medeoprichter van Answer.AI, in september 2024. Het ontstond als oplossing voor de inefficiënties waarmee LLM’s te maken krijgen bij het verwerken van complexe websites. Traditionele methodes voor het verwerken van HTML-pagina’s leiden vaak tot verspilling van rekenkracht en verkeerde interpretatie van content. Door een standaard als llms.txt te creëren, kunnen website-eigenaren ervoor zorgen dat hun content accuraat en effectief door AI-systemen wordt geparsed.


Hoe wordt llms.txt gebruikt?

Het llms.txt-bestand dient verschillende praktische doeleinden, vooral op het gebied van kunstmatige intelligentie en LLM-gedreven interacties. Dankzij het gestructureerde formaat kan website-inhoud efficiënt worden opgehaald en verwerkt door LLM’s, waarmee beperkingen in context window-grootte en verwerkingsefficiëntie worden overwonnen.

Structuur van een llms.txt-bestand

Het llms.txt-bestand volgt een specifiek, op Markdown gebaseerd schema om compatibiliteit voor zowel mensen als machines te garanderen. De structuur omvat:

  1. H1-header: De titel van de website of het project.
  2. Blockquote-samenvatting: Een beknopte beschrijving of samenvatting van het doel en de belangrijkste kenmerken van de website.
  3. Gedetailleerde secties: Vrije secties (zoals paragrafen of lijsten) voor extra context of essentiële details.
  4. Met H2 afgebakende resource-lijsten: Gecategoriseerde links naar belangrijke bronnen, zoals documentatie, API’s of externe referenties. Elke link kan een korte beschrijving van de inhoud bevatten.
  5. Optioneel gedeelte (## Optioneel): Gereserveerd voor secundaire bronnen die kunnen worden weggelaten om ruimte te besparen in het context window van de LLM.

Voorbeeld:

# Voorbeeldwebsite  
> Een platform voor het delen van kennis en resources over kunstmatige intelligentie.  

## Documentatie  
- [Quick Start Gids](https://example.com/docs/quickstart.md): Een beginnershandleiding om aan de slag te gaan.  
- [API Referentie](https://example.com/docs/api.md): Uitgebreide API-documentatie.  

## Beleid  
- [Gebruiksvoorwaarden](https://example.com/terms.md): Juridische richtlijnen voor het gebruik van het platform.  
- [Privacybeleid](https://example.com/privacy.md): Informatie over gegevensverwerking en privacy van gebruikers.  

## Optioneel  
- [Bedrijfsgeschiedenis](https://example.com/history.md): Een tijdlijn van belangrijke mijlpalen en prestaties.

Belangrijkste kenmerken

  • AI-leesbare navigatie: Biedt een vereenvoudigd overzicht van de websitestructuur, waardoor LLM’s relevante content eenvoudig kunnen vinden.
  • Markdown-formaat: Zorgt voor menselijke leesbaarheid en maakt programmatisch parsen via tools als parsers of regex mogelijk.
  • Contextoptimalisatie: Helpt LLM’s om waardevolle content te prioriteren door overbodige elementen zoals advertenties of JavaScript uit te sluiten.

Gebruikstoepassingen

  1. Technische documentatie: Ontwikkelaars kunnen API-referenties, quickstart-gidsen en andere technische bronnen koppelen om code-assistenten als GitHub Copilot of Codeium te ondersteunen.
  2. E-commerce: Online winkels kunnen llms.txt gebruiken om AI-systemen te verwijzen naar productindelingen, retourbeleid en maattabellen.
  3. Onderwijs: Universiteiten kunnen syllabi, roosters en inschrijvingsregels uitlichten voor AI-gedreven studentenassistenten.
  4. Bedrijfs-FAQ’s: Bedrijven kunnen de klantenservice stroomlijnen door FAQ’s, probleemoplossingsgidsen en beleidsdocumenten te linken.

Voorbeelden van llms.txt in de praktijk

1. FastHTML

FastHTML, een Python-bibliotheek voor het bouwen van servergerenderde webapplicaties, gebruikt llms.txt om de toegang tot zijn documentatie te vereenvoudigen. Het bestand bevat links naar quickstart-gidsen, HTMX-referenties en voorbeeldapplicaties, zodat ontwikkelaars snel specifieke bronnen kunnen vinden.

Voorbeeldfragment:

# FastHTML  
> Een Python-bibliotheek voor het maken van server-rendered hypermedia-applicaties.  

## Docs  
- [Quick Start](https://fastht.ml/docs/quickstart.md): Overzicht van de belangrijkste functies.  
- [HTMX Referentie](https://github.com/bigskysoftware/htmx/blob/master/www/content/reference.md): Volledige HTMX-attributen en -methodes.  

2. Nike (Hypothetisch Voorbeeld)

Een e-commercegigant als Nike kan een llms.txt-bestand gebruiken om AI-systemen te voorzien van informatie over hun productlijnen, duurzaamheidsinitiatieven en klantenservicebeleid.

Voorbeeldfragment:

# Nike  
> Wereldleider in sportkleding en -schoenen, met nadruk op duurzaamheid en innovatie.  

## Productlijnen  
- [Hardloopschoenen](https://nike.com/products/running.md): Details over React foam en Vaporweave-technologieën.  
- [Duurzaamheidsinitiatieven](https://nike.com/sustainability.md): Doelen voor 2025 en milieuvriendelijke materialen.  

## Klantenservice  
- [Retourbeleid](https://nike.com/returns.md): 60 dagen retourtermijn en uitzonderingen.  
- [Maattabellen](https://nike.com/sizing.md): Overzichten voor schoen- en kledingmaten.

llms.txt vs. robots.txt vs. sitemap.xml

Vergelijking

Hoewel alle drie de standaarden zijn ontworpen om geautomatiseerde systemen te ondersteunen, verschillen hun doelen en doelgroepen aanzienlijk.

  • llms.txt:

    • Doelgroep: Large Language Models (zoals ChatGPT, Claude, Google Gemini).
    • Doel: Biedt samengestelde, contextgeoptimaliseerde content voor inferentie.
    • Formaat: Markdown.
    • Gebruik: AI-gedreven interacties en redeneermachines.
  • robots.txt:

    • Doelgroep: Zoekmachinecrawlers.
    • Doel: Stuurt crawling- en indexeringsgedrag aan.
    • Formaat: Platte tekst.
    • Gebruik: SEO en toegangsbeheer.
  • sitemap.xml:

    • Doelgroep: Zoekmachines.
    • Doel: Lijst alle indexeerbare pagina’s op een site.
    • Formaat: XML.
    • Gebruik: SEO en contentontdekking.

Belangrijkste voordelen van llms.txt

  1. AI-specifieke optimalisatie: In tegenstelling tot robots.txt en sitemap.xml is llms.txt ontworpen voor redeneermachines, niet voor traditionele zoekmachines.
  2. Ruisreductie: Richt zich uitsluitend op waardevolle, machineleesbare content en laat overbodige elementen als advertenties of navigatiemenu’s weg.
  3. Integratie met Markdown: Sluit aan bij het LLM-vriendelijke formaat voor eenvoudiger parsen en verwerking.

Integratie en tools

Een llms.txt-bestand maken

  • Handmatige aanmaak: Gebruik een teksteditor om het bestand in Markdown-formaat te schrijven.
  • Automatische tools:
    • Mintlify: Genereert automatisch llms.txt en llms-full.txt voor gehoste documentatie.
    • Firecrawl Generator: Scant je website en maakt llms.txt.

Hosting en validatie

  • Plaats het bestand in de root-directory van je website (bijv. https://example.com/llms.txt).
  • Valideer het bestand met tools als llms_txt2ctx om te zorgen dat het aan de standaard voldoet.

Integratie met AI-systemen

  • Direct uploaden: Sommige AI-tools laten gebruikers toe om llms.txt of llms-full.txt direct te uploaden (zoals Claude of ChatGPT).
  • Frameworks: Gebruik tools als LangChain of LlamaIndex om het bestand te integreren in retrieval-augmented generation-workflows.

Uitdagingen en aandachtspunten

  1. Adoptie door grote LLM-providers: Hoewel llms.txt terrein wint bij ontwikkelaars en kleinere platformen, wordt het nog niet officieel ondersteund door grote LLM-aanbieders zoals OpenAI of Google.
  2. Onderhoud: Het bestand moet regelmatig worden bijgewerkt om veranderingen in de inhoud of structuur te weerspiegelen.
  3. Beperkingen van contextwindows: Voor uitgebreide documentatie kan het llms-full.txt-bestand groter zijn dan het context window van sommige LLM’s.

Ondanks deze uitdagingen vertegenwoordigt llms.txt een vooruitstrevende aanpak voor het optimaliseren van content voor AI-gedreven systemen. Door deze standaard te adopteren, kunnen organisaties ervoor zorgen dat hun content toegankelijk, accuraat en geprioriteerd is in een AI-first wereld.

Onderzoek: Large Language Models (LLM’s)

Large Language Models (LLM’s) zijn uitgegroeid tot een toonaangevende technologie voor natuurlijke taalverwerking, achter toepassingen zoals chatbots, contentmoderatie en zoekmachines. In “Lost in Translation: Large Language Models in Non-English Content Analysis” van Nicholas en Bhatia (2023) geven de auteurs een heldere technische uitleg van hoe LLM’s werken, benadrukken ze het beschikbaarheidsgat van data tussen Engels en andere talen, en bespreken ze pogingen om deze kloof te dichten via meertalige modellen. Het paper beschrijft de uitdagingen van contentanalyse met LLM’s, vooral in meertalige contexten, en geeft aanbevelingen aan onderzoekers, bedrijven en beleidsmakers voor de ontwikkeling en implementatie van LLM’s. De auteurs benadrukken dat, ondanks vooruitgang, er nog aanzienlijke beperkingen zijn voor niet-Engelse talen. Lees het artikel

Het artikel “Cedille: A large autoregressive French language model” van Müller en Laurent (2022) introduceert Cedille, een grootschalig Frans-specifiek taalmodel. Cedille is open source en presteert beter op Franse zero-shot benchmarks dan bestaande modellen, en evenaart zelfs GPT-3 bij verschillende taken. Het onderzoek evalueert ook de veiligheid van Cedille en laat verbeteringen zien in toxiciteit dankzij zorgvuldige datasetfiltering. Dit werk onderstreept het belang en de impact van het ontwikkelen van LLM’s die zijn geoptimaliseerd voor specifieke talen. Het artikel benadrukt de noodzaak van taalspecifieke resources binnen het LLM-landschap. Lees het artikel

In “How Good are Commercial Large Language Models on African Languages?” van Ojo en Ogueji (2023) beoordelen de auteurs de prestaties van commerciële LLM’s op Afrikaanse talen voor zowel vertaal- als tekstclassificatietaken. Hun bevindingen tonen aan dat deze modellen over het algemeen onderpresteren op Afrikaanse talen, met betere resultaten bij classificatie dan bij vertaling. De analyse omvat acht Afrikaanse talen uit verschillende taalfamilies en regio’s. De auteurs pleiten voor meer vertegenwoordiging van Afrikaanse talen in commerciële LLM’s, gezien het toenemende gebruik ervan. Dit onderzoek benadrukt de huidige tekortkomingen en het belang van inclusieve taalmodelontwikkeling. Lees het artikel

“Goldfish: Monolingual Language Models for 350 Languages” van Chang et al. (2024) onderzoekt de prestaties van eentalige versus meertalige modellen voor talen met weinig bronnen. Het onderzoek laat zien dat grote meertalige modellen vaak slechter presteren dan eenvoudige bigrammodellen voor veel talen, gemeten aan FLORES-perplexity. Goldfish introduceert eentalige modellen getraind voor 350 talen, met aanzienlijke prestatieverbeteringen voor talen met weinig bronnen. De auteurs pleiten voor meer gerichte modelontwikkeling voor minder vertegenwoordigde talen. Dit werk levert waardevol inzicht in de beperkingen van huidige meertalige LLM’s en de mogelijkheden van eentalige alternatieven. Lees het artikel

Veelgestelde vragen

Wat is llms.txt?

llms.txt is een gestandaardiseerd Markdown-bestand dat in de root van een website wordt gehost (bijv. /llms.txt) en een samengestelde index van geoptimaliseerde content voor Large Language Models biedt, waardoor efficiënte AI-gedreven interacties mogelijk zijn.

Hoe verschilt llms.txt van robots.txt of sitemap.xml?

In tegenstelling tot robots.txt (voor zoekmachine-crawling) of sitemap.xml (voor indexering), is llms.txt ontworpen voor LLM's en biedt het een vereenvoudigde, op Markdown gebaseerde structuur om waardevolle content te prioriteren voor AI-redenering.

Wat is de structuur van een llms.txt-bestand?

Het bevat een H1-header (website-titel), een samenvatting in een blockquote, gedetailleerde contextsecties, met H2 afgebakende resource-lijsten met links en beschrijvingen, en een optioneel gedeelte voor secundaire resources.

Wie heeft llms.txt voorgesteld?

llms.txt werd voorgesteld door Jeremy Howard, medeoprichter van Answer.AI, in september 2024 om inefficiënties in de verwerking van complexe website-inhoud door LLM's aan te pakken.

Wat zijn de voordelen van het gebruik van llms.txt?

llms.txt verbetert de efficiëntie van LLM's door ruis te verminderen (zoals advertenties, JavaScript), content te optimaliseren voor context windows en nauwkeurige parsing mogelijk te maken voor toepassingen zoals technische documentatie of e-commerce.

Hoe kan llms.txt worden aangemaakt en gevalideerd?

Het kan handmatig in Markdown worden geschreven of gemaakt met tools zoals Mintlify of Firecrawl. Validatietools zoals llms_txt2ctx zorgen voor naleving van de standaard.

Optimaliseer je website voor AI

Leer hoe je llms.txt implementeert met FlowHunt om je content AI-klaar te maken en de interactie met Large Language Models te verbeteren.

Meer informatie

Sitemap naar LLM.txt AI Converter
Sitemap naar LLM.txt AI Converter

Sitemap naar LLM.txt AI Converter

Transformeer de sitemap.xml van je website automatisch naar een LLM-vriendelijk documentatieformaat. Deze AI-gedreven converter extraheert, verwerkt en structur...

2 min lezen
AI Documentation +4