
Encontrando el Mejor LLM para Redacción de Contenidos: Probados y Clasificados
Hemos probado y clasificado las capacidades de redacción de 5 modelos populares disponibles en FlowHunt para encontrar el mejor LLM para crear contenido.
El archivo llms.txt
es un archivo de texto estandarizado en formato Markdown diseñado para mejorar la forma en que los Modelos de Lenguaje Grande (LLMs) acceden, entienden y procesan información de los sitios web. Alojado en la ruta raíz de un sitio web (por ejemplo, /llms.txt
), este archivo actúa como un índice curado que proporciona contenido estructurado y resumido, específicamente optimizado para el consumo por máquinas durante la inferencia. Su objetivo principal es evitar las complejidades del contenido HTML tradicional, como menús de navegación, anuncios y JavaScript, presentando datos claros, legibles para humanos y máquinas.
A diferencia de otros estándares web como robots.txt
o sitemap.xml
, llms.txt
está dirigido explícitamente a motores de razonamiento, como ChatGPT, Claude o Google Gemini, en lugar de motores de búsqueda. Ayuda a los sistemas de IA a recuperar sólo la información más relevante y valiosa dentro de las limitaciones de sus ventanas de contexto, que a menudo son demasiado pequeñas para manejar el contenido completo de un sitio web.
El concepto fue propuesto por Jeremy Howard, cofundador de Answer.AI, en septiembre de 2024. Surgió como una solución a las ineficiencias que enfrentan los LLMs al interactuar con sitios web complejos. Los métodos tradicionales de procesamiento de páginas HTML suelen conducir a un desperdicio de recursos computacionales y a la mala interpretación del contenido. Al crear un estándar como llms.txt
, los propietarios de sitios web pueden asegurarse de que su contenido sea interpretado de manera precisa y efectiva por los sistemas de IA.
El archivo llms.txt
cumple varios propósitos prácticos, principalmente en el ámbito de la inteligencia artificial y las interacciones impulsadas por LLMs. Su formato estructurado permite la recuperación y procesamiento eficiente del contenido del sitio web por los LLMs, superando limitaciones de tamaño de ventana de contexto y eficiencia de procesamiento.
El archivo llms.txt
sigue un esquema específico basado en Markdown para asegurar la compatibilidad tanto con humanos como con máquinas. La estructura incluye:
Ejemplo:
# Sitio Web de Ejemplo
> Una plataforma para compartir conocimientos y recursos sobre inteligencia artificial.
## Documentación
- [Guía de inicio rápido](https://example.com/docs/quickstart.md): Una guía amigable para principiantes.
- [Referencia API](https://example.com/docs/api.md): Documentación detallada de la API.
## Políticas
- [Términos de servicio](https://example.com/terms.md): Lineamientos legales para el uso de la plataforma.
- [Política de privacidad](https://example.com/privacy.md): Información sobre manejo de datos y privacidad de usuarios.
## Opcional
- [Historia de la empresa](https://example.com/history.md): Línea de tiempo de los principales hitos y logros.
llms.txt
para dirigir a los sistemas de IA a taxonomías de productos, políticas de devolución y guías de tallas.FastHTML, una biblioteca Python para crear aplicaciones web renderizadas en servidor, utiliza llms.txt
para simplificar el acceso a su documentación. Su archivo incluye enlaces a guías rápidas, referencias HTMX y aplicaciones de ejemplo, asegurando que los desarrolladores puedan recuperar rápidamente recursos específicos.
Fragmento de ejemplo:
# FastHTML
> Una biblioteca Python para crear aplicaciones hipermedia renderizadas en servidor.
## Docs
- [Inicio rápido](https://fastht.ml/docs/quickstart.md): Descripción general de las características clave.
- [Referencia HTMX](https://github.com/bigskysoftware/htmx/blob/master/www/content/reference.md): Todos los atributos y métodos de HTMX.
Un gigante del e-commerce como Nike podría usar un archivo llms.txt
para proporcionar a los sistemas de IA información sobre sus líneas de productos, iniciativas de sostenibilidad y políticas de atención al cliente.
Fragmento de ejemplo:
# Nike
> Líder mundial en calzado y ropa deportiva, con énfasis en sostenibilidad e innovación.
## Líneas de productos
- [Zapatillas de running](https://nike.com/products/running.md): Detalles sobre tecnologías React foam y Vaporweave.
- [Iniciativas de sostenibilidad](https://nike.com/sustainability.md): Objetivos para 2025 y materiales ecológicos.
## Atención al cliente
- [Política de devoluciones](https://nike.com/returns.md): Periodo de devolución de 60 días y excepciones.
- [Guías de tallas](https://nike.com/sizing.md): Tablas para tallas de calzado y ropa.
Aunque los tres estándares están diseñados para ayudar a sistemas automatizados, sus propósitos y audiencias objetivo difieren significativamente.
llms.txt:
robots.txt:
sitemap.xml:
robots.txt
y sitemap.xml
, llms.txt
está diseñado para motores de razonamiento, no para buscadores tradicionales.llms.txt
y llms-full.txt
para documentación alojada.llms.txt
.https://example.com/llms.txt
).llms_txt2ctx
para asegurar el cumplimiento con el estándar.llms.txt
o llms-full.txt
directamente (por ejemplo, Claude o ChatGPT).llms.txt
ha ganado tracción entre desarrolladores y plataformas pequeñas, aún no cuenta con soporte oficial de proveedores principales como OpenAI o Google.llms-full.txt
puede exceder el tamaño de ventana de contexto de algunos LLMs.A pesar de estos desafíos, llms.txt
representa una propuesta innovadora para optimizar contenido para sistemas impulsados por IA. Adoptando este estándar, las organizaciones pueden asegurar que su contenido sea accesible, preciso y priorizado en un mundo orientado a la IA.
Investigación: Modelos de Lenguaje Grande (LLMs)
Los Modelos de Lenguaje Grande (LLMs) se han convertido en una tecnología dominante para el procesamiento de lenguaje natural, impulsando aplicaciones como chatbots, moderación de contenido y motores de búsqueda. En “Perdidos en la traducción: Modelos de Lenguaje Grande en el análisis de contenido no inglés” de Nicholas y Bhatia (2023), los autores ofrecen una clara explicación técnica de cómo funcionan los LLMs, destacando la brecha de disponibilidad de datos entre el inglés y otros idiomas y discutiendo los esfuerzos para cerrar esta brecha mediante modelos multilingües. El artículo detalla los desafíos del análisis de contenido usando LLMs, especialmente en contextos multilingües, y ofrece recomendaciones para investigadores, empresas y responsables de políticas sobre el despliegue y desarrollo de LLMs. Los autores enfatizan que, si bien se han logrado avances, persisten importantes limitaciones para los idiomas no ingleses. Leer el artículo
El artículo “Cedille: Un gran modelo de lenguaje autoregresivo para francés” de Müller y Laurent (2022) presenta Cedille, un modelo de lenguaje a gran escala específico para francés. Cedille es de código abierto y demuestra un rendimiento superior en pruebas zero-shot en francés frente a modelos existentes, incluso rivalizando con GPT-3 en varias tareas. El estudio también evalúa la seguridad de Cedille, mostrando mejoras en toxicidad mediante un cuidadoso filtrado de datos. Este trabajo resalta la importancia e impacto de desarrollar LLMs optimizados para idiomas específicos. El artículo subraya la necesidad de recursos específicos por idioma en el panorama de los LLMs. Leer el artículo
En “¿Qué tan buenos son los Modelos de Lenguaje Grande comerciales en idiomas africanos?” de Ojo y Ogueji (2023), los autores evalúan el desempeño de LLMs comerciales en idiomas africanos tanto para tareas de traducción como de clasificación de texto. Sus hallazgos indican que estos modelos generalmente tienen bajo rendimiento en idiomas africanos, con mejores resultados en clasificación que en traducción. El análisis cubre ocho idiomas africanos de varias familias y regiones. Los autores piden una mayor representación de los idiomas africanos en los LLMs comerciales, dada su creciente adopción. Este estudio resalta las brechas actuales y la necesidad de un desarrollo de modelos de lenguaje más inclusivo. Leer el artículo
“Goldfish: Modelos de Lenguaje Monolingües para 350 Idiomas” de Chang et al. (2024) investiga el desempeño de modelos monolingües frente a multilingües para idiomas de pocos recursos. La investigación demuestra que los modelos multilingües grandes a menudo tienen peor rendimiento que modelos bigrama simples para muchos idiomas, según la perplejidad FLORES. Goldfish introduce modelos monolingües entrenados para 350 idiomas, mejorando significativamente el rendimiento en lenguas de pocos recursos. Los autores abogan por un desarrollo más enfocado en modelos para idiomas menos representados. Este trabajo aporta una visión valiosa sobre las limitaciones de los LLMs multilingües actuales y el potencial de las alternativas monolingües. Leer el artículo
llms.txt es un archivo Markdown estandarizado alojado en la raíz de un sitio web (por ejemplo, /llms.txt) que proporciona un índice curado de contenido optimizado para Modelos de Lenguaje Grande, permitiendo interacciones eficientes impulsadas por IA.
A diferencia de robots.txt (para rastreo de motores de búsqueda) o sitemap.xml (para indexación), llms.txt está diseñado para LLMs, ofreciendo una estructura simplificada basada en Markdown para priorizar contenido de alto valor para el razonamiento de IA.
Incluye un encabezado H1 (título del sitio web), un resumen en blockquote, secciones detalladas para contexto, listas de recursos delimitadas por H2 con enlaces y descripciones, y una sección opcional para recursos secundarios.
llms.txt fue propuesto por Jeremy Howard, cofundador de Answer.AI, en septiembre de 2024 para abordar las ineficiencias en cómo los LLMs procesan el contenido complejo de los sitios web.
llms.txt mejora la eficiencia de los LLMs al reducir el ruido (por ejemplo, anuncios, JavaScript), optimizando el contenido para las ventanas de contexto y permitiendo un análisis preciso para aplicaciones como documentación técnica o comercio electrónico.
Se puede escribir manualmente en Markdown o generar usando herramientas como Mintlify o Firecrawl. Herramientas de validación como llms_txt2ctx aseguran el cumplimiento con el estándar.
Aprende cómo implementar llms.txt con FlowHunt para que tu contenido esté listo para IA y mejora la interacción con los Modelos de Lenguaje Grande.
Hemos probado y clasificado las capacidades de redacción de 5 modelos populares disponibles en FlowHunt para encontrar el mejor LLM para crear contenido.
Transforma el sitemap.xml de tu sitio web en un formato de documentación compatible con LLM de forma automática. Este convertidor potenciado por IA extrae, proc...
Consentimiento de Cookies
Usamos cookies para mejorar tu experiencia de navegación y analizar nuestro tráfico. See our privacy policy.