llms.txt

AI LLMs Web Standards Markdown

¿Qué es llms.txt?

El archivo llms.txt es un archivo de texto estandarizado en formato Markdown diseñado para mejorar la forma en que los Modelos de Lenguaje Grande (LLMs) acceden, entienden y procesan información de los sitios web. Alojado en la ruta raíz de un sitio web (por ejemplo, /llms.txt), este archivo actúa como un índice curado que proporciona contenido estructurado y resumido, específicamente optimizado para el consumo por máquinas durante la inferencia. Su objetivo principal es evitar las complejidades del contenido HTML tradicional, como menús de navegación, anuncios y JavaScript, presentando datos claros, legibles para humanos y máquinas.

A diferencia de otros estándares web como robots.txt o sitemap.xml, llms.txt está dirigido explícitamente a motores de razonamiento, como ChatGPT, Claude o Google Gemini, en lugar de motores de búsqueda. Ayuda a los sistemas de IA a recuperar sólo la información más relevante y valiosa dentro de las limitaciones de sus ventanas de contexto, que a menudo son demasiado pequeñas para manejar el contenido completo de un sitio web.

Orígenes de llms.txt

El concepto fue propuesto por Jeremy Howard, cofundador de Answer.AI, en septiembre de 2024. Surgió como una solución a las ineficiencias que enfrentan los LLMs al interactuar con sitios web complejos. Los métodos tradicionales de procesamiento de páginas HTML suelen conducir a un desperdicio de recursos computacionales y a la mala interpretación del contenido. Al crear un estándar como llms.txt, los propietarios de sitios web pueden asegurarse de que su contenido sea interpretado de manera precisa y efectiva por los sistemas de IA.


¿Cómo se usa llms.txt?

El archivo llms.txt cumple varios propósitos prácticos, principalmente en el ámbito de la inteligencia artificial y las interacciones impulsadas por LLMs. Su formato estructurado permite la recuperación y procesamiento eficiente del contenido del sitio web por los LLMs, superando limitaciones de tamaño de ventana de contexto y eficiencia de procesamiento.

Estructura de un archivo llms.txt

El archivo llms.txt sigue un esquema específico basado en Markdown para asegurar la compatibilidad tanto con humanos como con máquinas. La estructura incluye:

  1. Encabezado H1: El título del sitio web o proyecto.
  2. Resumen en Blockquote: Una descripción concisa o resumen del propósito y características clave del sitio.
  3. Secciones Detalladas: Secciones de formato libre (por ejemplo, párrafos o listas) para contexto adicional o detalles críticos.
  4. Listas de Recursos Delimitadas por H2: Enlaces categorizados a recursos importantes, como documentación, APIs o referencias externas. Cada enlace puede incluir una breve descripción de su contenido.
  5. Sección Opcional (## Opcional): Reservada para recursos secundarios que pueden omitirse para ahorrar espacio en la ventana de contexto del LLM.

Ejemplo:

# Sitio Web de Ejemplo  
> Una plataforma para compartir conocimientos y recursos sobre inteligencia artificial.  

## Documentación  
- [Guía de inicio rápido](https://example.com/docs/quickstart.md): Una guía amigable para principiantes.  
- [Referencia API](https://example.com/docs/api.md): Documentación detallada de la API.  

## Políticas  
- [Términos de servicio](https://example.com/terms.md): Lineamientos legales para el uso de la plataforma.  
- [Política de privacidad](https://example.com/privacy.md): Información sobre manejo de datos y privacidad de usuarios.  

## Opcional  
- [Historia de la empresa](https://example.com/history.md): Línea de tiempo de los principales hitos y logros.

Características clave

  • Navegación legible por IA: Proporciona una vista simplificada de la estructura del sitio, facilitando que los LLMs identifiquen contenido relevante.
  • Formato Markdown: Asegura la legibilidad humana y permite el análisis programático con herramientas como parsers o regex.
  • Optimización de contexto: Ayuda a los LLMs a priorizar contenido valioso excluyendo elementos innecesarios como anuncios o JavaScript.

Casos de uso

  1. Documentación técnica: Los desarrolladores pueden enlazar referencias API, guías rápidas y otros recursos técnicos para facilitar asistentes de código como GitHub Copilot o Codeium.
  2. Comercio electrónico: Los minoristas en línea pueden usar llms.txt para dirigir a los sistemas de IA a taxonomías de productos, políticas de devolución y guías de tallas.
  3. Educación: Las universidades pueden destacar programas de estudio, horarios y políticas de inscripción para asistentes estudiantiles impulsados por IA.
  4. FAQs corporativas: Las empresas pueden optimizar el soporte al cliente enlazando preguntas frecuentes, guías de solución de problemas y documentos de políticas.

Ejemplos de llms.txt en acción

1. FastHTML

FastHTML, una biblioteca Python para crear aplicaciones web renderizadas en servidor, utiliza llms.txt para simplificar el acceso a su documentación. Su archivo incluye enlaces a guías rápidas, referencias HTMX y aplicaciones de ejemplo, asegurando que los desarrolladores puedan recuperar rápidamente recursos específicos.

Fragmento de ejemplo:

# FastHTML  
> Una biblioteca Python para crear aplicaciones hipermedia renderizadas en servidor.  

## Docs  
- [Inicio rápido](https://fastht.ml/docs/quickstart.md): Descripción general de las características clave.  
- [Referencia HTMX](https://github.com/bigskysoftware/htmx/blob/master/www/content/reference.md): Todos los atributos y métodos de HTMX.  

2. Nike (Ejemplo hipotético)

Un gigante del e-commerce como Nike podría usar un archivo llms.txt para proporcionar a los sistemas de IA información sobre sus líneas de productos, iniciativas de sostenibilidad y políticas de atención al cliente.

Fragmento de ejemplo:

# Nike  
> Líder mundial en calzado y ropa deportiva, con énfasis en sostenibilidad e innovación.  

## Líneas de productos  
- [Zapatillas de running](https://nike.com/products/running.md): Detalles sobre tecnologías React foam y Vaporweave.  
- [Iniciativas de sostenibilidad](https://nike.com/sustainability.md): Objetivos para 2025 y materiales ecológicos.  

## Atención al cliente  
- [Política de devoluciones](https://nike.com/returns.md): Periodo de devolución de 60 días y excepciones.  
- [Guías de tallas](https://nike.com/sizing.md): Tablas para tallas de calzado y ropa.

llms.txt vs. Robots.txt vs. Sitemap.xml

Comparación

Aunque los tres estándares están diseñados para ayudar a sistemas automatizados, sus propósitos y audiencias objetivo difieren significativamente.

  • llms.txt:

    • Audiencia: Modelos de Lenguaje Grande (por ejemplo, ChatGPT, Claude, Google Gemini).
    • Propósito: Proporciona contenido curado y optimizado para contexto en inferencia.
    • Formato: Markdown.
    • Caso de uso: Interacciones impulsadas por IA y motores de razonamiento.
  • robots.txt:

    • Audiencia: Rastreadores de motores de búsqueda.
    • Propósito: Controla el comportamiento de rastreo e indexación.
    • Formato: Texto plano.
    • Caso de uso: SEO y gestión de acceso.
  • sitemap.xml:

    • Audiencia: Motores de búsqueda.
    • Propósito: Lista todas las páginas indexables de un sitio.
    • Formato: XML.
    • Caso de uso: SEO y descubrimiento de contenido.

Ventajas clave de llms.txt

  1. Optimización específica para IA: A diferencia de robots.txt y sitemap.xml, llms.txt está diseñado para motores de razonamiento, no para buscadores tradicionales.
  2. Reducción de ruido: Se enfoca sólo en contenido de alto valor y legible por máquinas, omitiendo elementos innecesarios como anuncios o menús de navegación.
  3. Integración con Markdown: Se alinea con un formato amigable para LLMs para facilitar el análisis y procesamiento.

Integración y herramientas

Creación de un archivo llms.txt

  • Creación manual: Usa un editor de texto para escribir el archivo en formato Markdown.
  • Herramientas automáticas:
    • Mintlify: Genera automáticamente llms.txt y llms-full.txt para documentación alojada.
    • Firecrawl Generator: Extrae tu sitio web y crea llms.txt.

Alojamiento y validación

  • Coloca el archivo en el directorio raíz de tu sitio web (por ejemplo, https://example.com/llms.txt).
  • Valida el archivo usando herramientas como llms_txt2ctx para asegurar el cumplimiento con el estándar.

Integración con sistemas de IA

  • Carga directa: Algunas herramientas de IA permiten a los usuarios cargar archivos llms.txt o llms-full.txt directamente (por ejemplo, Claude o ChatGPT).
  • Frameworks: Usa herramientas como LangChain o LlamaIndex para integrar el archivo en flujos de recuperación aumentada por generación.

Desafíos y consideraciones

  1. Adopción por parte de grandes proveedores de LLM: Aunque llms.txt ha ganado tracción entre desarrolladores y plataformas pequeñas, aún no cuenta con soporte oficial de proveedores principales como OpenAI o Google.
  2. Mantenimiento: El archivo debe actualizarse regularmente para reflejar cambios en el contenido o estructura.
  3. Limitaciones de la ventana de contexto: Para documentación extensa, el archivo llms-full.txt puede exceder el tamaño de ventana de contexto de algunos LLMs.

A pesar de estos desafíos, llms.txt representa una propuesta innovadora para optimizar contenido para sistemas impulsados por IA. Adoptando este estándar, las organizaciones pueden asegurar que su contenido sea accesible, preciso y priorizado en un mundo orientado a la IA.

Investigación: Modelos de Lenguaje Grande (LLMs)

Los Modelos de Lenguaje Grande (LLMs) se han convertido en una tecnología dominante para el procesamiento de lenguaje natural, impulsando aplicaciones como chatbots, moderación de contenido y motores de búsqueda. En “Perdidos en la traducción: Modelos de Lenguaje Grande en el análisis de contenido no inglés” de Nicholas y Bhatia (2023), los autores ofrecen una clara explicación técnica de cómo funcionan los LLMs, destacando la brecha de disponibilidad de datos entre el inglés y otros idiomas y discutiendo los esfuerzos para cerrar esta brecha mediante modelos multilingües. El artículo detalla los desafíos del análisis de contenido usando LLMs, especialmente en contextos multilingües, y ofrece recomendaciones para investigadores, empresas y responsables de políticas sobre el despliegue y desarrollo de LLMs. Los autores enfatizan que, si bien se han logrado avances, persisten importantes limitaciones para los idiomas no ingleses. Leer el artículo

El artículo “Cedille: Un gran modelo de lenguaje autoregresivo para francés” de Müller y Laurent (2022) presenta Cedille, un modelo de lenguaje a gran escala específico para francés. Cedille es de código abierto y demuestra un rendimiento superior en pruebas zero-shot en francés frente a modelos existentes, incluso rivalizando con GPT-3 en varias tareas. El estudio también evalúa la seguridad de Cedille, mostrando mejoras en toxicidad mediante un cuidadoso filtrado de datos. Este trabajo resalta la importancia e impacto de desarrollar LLMs optimizados para idiomas específicos. El artículo subraya la necesidad de recursos específicos por idioma en el panorama de los LLMs. Leer el artículo

En “¿Qué tan buenos son los Modelos de Lenguaje Grande comerciales en idiomas africanos?” de Ojo y Ogueji (2023), los autores evalúan el desempeño de LLMs comerciales en idiomas africanos tanto para tareas de traducción como de clasificación de texto. Sus hallazgos indican que estos modelos generalmente tienen bajo rendimiento en idiomas africanos, con mejores resultados en clasificación que en traducción. El análisis cubre ocho idiomas africanos de varias familias y regiones. Los autores piden una mayor representación de los idiomas africanos en los LLMs comerciales, dada su creciente adopción. Este estudio resalta las brechas actuales y la necesidad de un desarrollo de modelos de lenguaje más inclusivo. Leer el artículo

“Goldfish: Modelos de Lenguaje Monolingües para 350 Idiomas” de Chang et al. (2024) investiga el desempeño de modelos monolingües frente a multilingües para idiomas de pocos recursos. La investigación demuestra que los modelos multilingües grandes a menudo tienen peor rendimiento que modelos bigrama simples para muchos idiomas, según la perplejidad FLORES. Goldfish introduce modelos monolingües entrenados para 350 idiomas, mejorando significativamente el rendimiento en lenguas de pocos recursos. Los autores abogan por un desarrollo más enfocado en modelos para idiomas menos representados. Este trabajo aporta una visión valiosa sobre las limitaciones de los LLMs multilingües actuales y el potencial de las alternativas monolingües. Leer el artículo

Preguntas frecuentes

¿Qué es llms.txt?

llms.txt es un archivo Markdown estandarizado alojado en la raíz de un sitio web (por ejemplo, /llms.txt) que proporciona un índice curado de contenido optimizado para Modelos de Lenguaje Grande, permitiendo interacciones eficientes impulsadas por IA.

¿En qué se diferencia llms.txt de robots.txt o sitemap.xml?

A diferencia de robots.txt (para rastreo de motores de búsqueda) o sitemap.xml (para indexación), llms.txt está diseñado para LLMs, ofreciendo una estructura simplificada basada en Markdown para priorizar contenido de alto valor para el razonamiento de IA.

¿Cuál es la estructura de un archivo llms.txt?

Incluye un encabezado H1 (título del sitio web), un resumen en blockquote, secciones detalladas para contexto, listas de recursos delimitadas por H2 con enlaces y descripciones, y una sección opcional para recursos secundarios.

¿Quién propuso llms.txt?

llms.txt fue propuesto por Jeremy Howard, cofundador de Answer.AI, en septiembre de 2024 para abordar las ineficiencias en cómo los LLMs procesan el contenido complejo de los sitios web.

¿Cuáles son los beneficios de usar llms.txt?

llms.txt mejora la eficiencia de los LLMs al reducir el ruido (por ejemplo, anuncios, JavaScript), optimizando el contenido para las ventanas de contexto y permitiendo un análisis preciso para aplicaciones como documentación técnica o comercio electrónico.

¿Cómo se puede crear y validar llms.txt?

Se puede escribir manualmente en Markdown o generar usando herramientas como Mintlify o Firecrawl. Herramientas de validación como llms_txt2ctx aseguran el cumplimiento con el estándar.

Optimiza tu sitio web para la IA

Aprende cómo implementar llms.txt con FlowHunt para que tu contenido esté listo para IA y mejora la interacción con los Modelos de Lenguaje Grande.

Saber más

Convertidor AI de Sitemap a LLM.txt
Convertidor AI de Sitemap a LLM.txt

Convertidor AI de Sitemap a LLM.txt

Transforma el sitemap.xml de tu sitio web en un formato de documentación compatible con LLM de forma automática. Este convertidor potenciado por IA extrae, proc...

2 min de lectura
AI Documentation +4