Cómo un modelo de 7M parámetros está superando a los modelos AI de frontera

Cómo un modelo de 7M parámetros está superando a los modelos AI de frontera

AI Machine Learning Deep Learning Model Optimization

Introducción

El panorama de la inteligencia artificial ha operado durante mucho tiempo bajo un supuesto fundamental: más grande es mejor. Los modelos más grandes, con más parámetros, más datos de entrenamiento y más recursos computacionales, superan de manera consistente a sus contrapartes más pequeñas. Sin embargo, un revelador artículo de investigación de Samsung ha desafiado esta sabiduría convencional de una manera que podría transformar la forma en que pensamos sobre el diseño y la eficiencia de los modelos de IA. Una pequeña red neuronal con solo 7 millones de parámetros—una fracción del tamaño de modelos de frontera como GPT-4, Gemini 2.5 Pro o DeepSeek—está alcanzando ahora un rendimiento superior en algunos de los benchmarks de razonamiento más desafiantes de la inteligencia artificial. Este logro extraordinario no es el resultado de simplemente aumentar los datos de entrenamiento o los recursos computacionales. En cambio, representa una reconsideración fundamental de cómo las redes neuronales abordan la resolución de problemas complejos a través de una técnica llamada razonamiento jerárquico recursivo combinado con supervisión profunda. En esta guía completa, exploraremos cómo funciona este pequeño modelo, por qué es tan efectivo y lo que significa para el futuro del desarrollo y despliegue de la IA.

Thumbnail for Cómo un modelo de 7M parámetros supera a los modelos AI de frontera

Comprendiendo las limitaciones de los modelos de lenguaje grandes actuales

Antes de poder apreciar la innovación detrás del Tiny Recursive Model, necesitamos entender por qué los modelos de lenguaje grandes tienen dificultades con tareas de razonamiento complejo en primer lugar. Los modelos modernos de lenguaje como GPT-4, Claude y Gemini operan bajo un principio fundamental: predicen el siguiente token en una secuencia basándose en los tokens previos. Este enfoque autorregresivo ha demostrado ser sumamente efectivo para muchas tareas, desde traducción hasta resumen y escritura creativa. Sin embargo, cuando se trata de problemas de razonamiento difíciles—especialmente los que requieren múltiples pasos de deducción lógica, satisfacción de restricciones o reconocimiento de patrones abstractos—este enfoque revela limitaciones importantes. El problema central es que una sola predicción incorrecta de un token puede invalidar toda la respuesta. Imagina resolver una ecuación matemática compleja: si el modelo comete un error en el primer paso, todos los pasos posteriores pierden sentido. Este problema de error en cascada se agrava exponencialmente a medida que los problemas aumentan en complejidad. Además, los modelos grandes de lenguaje no “razonan” realmente como lo hacen los humanos. Realizan una sofisticada búsqueda de patrones basada en los datos de entrenamiento, pero no llevan a cabo inferencias lógicas genuinas. Cuando se enfrentan a problemas novedosos que requieren razonamiento más allá de su distribución de entrenamiento, suelen fallar estrepitosamente. Por eso, incluso los modelos de frontera más avanzados tienen dificultades con benchmarks como ARC AGI (Abstraction and Reasoning Corpus), que prueba específicamente la capacidad de resolver problemas nuevos que requieren pensamiento abstracto genuino en vez de solo reconocimiento de patrones.

La evolución de las técnicas de razonamiento en IA

La comunidad de investigación en IA ha desarrollado varias técnicas para abordar las limitaciones de razonamiento de los modelos de lenguaje grandes, cada una con sus propias fortalezas y debilidades. La más prominente es el chain-of-thought prompting, una técnica que se ha vuelto ubicua en los sistemas de IA modernos. Chain-of-thought funciona alentando al modelo a generar razonamientos paso a paso antes de proporcionar su respuesta final. En lugar de saltar directamente a una conclusión, se le pide al modelo que “piense” el problema, generando pasos intermedios de razonamiento que llevan a la respuesta. Este enfoque ha sido muy efectivo, y los estudios muestran que puede mejorar significativamente el rendimiento en tareas de razonamiento. Sin embargo, tiene importantes desventajas. Primero, es computacionalmente costoso—generar múltiples pasos de razonamiento requiere procesar muchos tokens adicionales, lo que incrementa el tiempo de inferencia y el costo computacional. Segundo, requiere datos de razonamiento de alta calidad para el entrenamiento, lo cual es costoso y consume mucho tiempo de crear. Tercero, y quizá lo más importante, el chain-of-thought es frágil. El razonamiento generado puede ser incorrecto y, si lo es, la respuesta final será errónea. El modelo en realidad no verifica su razonamiento; simplemente genera explicaciones plausibles que pueden o no ser lógicamente válidas. Otra técnica popular es el pass-at-K sampling, donde el modelo genera múltiples respuestas candidatas y selecciona la mejor. Si preguntas a un modelo “¿Cuánto es 5 por 5?”, puede generar diez respuestas distintas y elegir la más precisa. Aunque esto puede mejorar la exactitud, también es computacionalmente costoso y no aborda el problema fundamental: el modelo sigue sin razonar, solo genera varias predicciones esperando que una sea correcta. Estas técnicas representan lo que los investigadores llaman “escalado de cómputo en tiempo de prueba”—usar más recursos computacionales durante la inferencia para mejorar la calidad de las respuestas. Si bien es efectivo, este enfoque está limitado por el hecho de que el modelo subyacente sigue sin realizar razonamiento genuino; solo genera más predicciones con la esperanza de obtener mejores resultados.

El benchmark ARC AGI: por qué es importante

Para entender la importancia de los logros del Tiny Recursive Model, debemos comprender el benchmark en el que se evalúa: ARC AGI (Abstraction and Reasoning Corpus). El benchmark ARC AGI fue creado para probar algo que la mayoría de los benchmarks de IA no evalúan: la capacidad de razonamiento abstracto genuino. A diferencia de los benchmarks que prueban conocimiento o reconocimiento de patrones, ARC AGI presenta nuevos rompecabezas de razonamiento visual que requieren la habilidad de identificar patrones abstractos y aplicarlos a situaciones nuevas. El benchmark consiste en tareas donde el modelo ve algunos ejemplos de pares de entrada y salida y debe descubrir la regla o transformación subyacente, y luego aplicarla a nuevas entradas. No son tareas que puedan resolverse memorizando o reconociendo patrones de los datos de entrenamiento; requieren razonamiento genuino y la capacidad de generalizar conceptos abstractos. Desde su introducción en 2019, el benchmark ARC AGI se ha convertido en un estándar de oro para evaluar capacidades de razonamiento en sistemas de IA. A pesar de seis años de avances en modelos grandes de lenguaje, aún no se ha alcanzado precisión a nivel humano en ARC AGI. Esto es un recordatorio aleccionador de que, pese a las capacidades impresionantes de los sistemas modernos de IA, todavía luchan con tareas que los humanos consideran relativamente sencillas. Gemini 2.5 Pro, uno de los modelos de frontera más avanzados, alcanza solo un 4,9% de exactitud en ARC AGI 2 incluso utilizando abundantes recursos computacionales en tiempo de prueba. El nuevo benchmark ARC AGI 3 es aún más desafiante, y los modelos de frontera tienen dificultades para lograr avances significativos. Es en este contexto donde los logros del Tiny Recursive Model resultan verdaderamente notables. Un modelo con 7 millones de parámetros—menos del 0,01% de los parámetros de Gemini 2.5 Pro—alcanza un 45% de exactitud en ARC AGI 1 y un 8% en ARC AGI 2, superando ampliamente a estos modelos masivos de frontera.

¿Qué es el razonamiento jerárquico recursivo?

La innovación clave detrás del Tiny Recursive Model es una técnica llamada razonamiento jerárquico recursivo, que representa un enfoque fundamentalmente diferente sobre cómo las redes neuronales abordan problemas complejos. Para entender esta técnica, resulta útil pensar en una analogía: imagina que intentas resolver un Sudoku difícil. No lo resuelves de una sola vez, tomando todas las decisiones al mismo tiempo. En cambio, haces una suposición, piensas si esa suposición tiene sentido dadas las restricciones, y si no funciona, la revisas y lo intentas de nuevo. Puedes pasar por este ciclo docenas de veces, refinando tu solución en cada intento basándote en tus intentos previos y el razonamiento sobre por qué fallaron. Este proceso de refinamiento iterativo es, esencialmente, lo que hace el razonamiento jerárquico recursivo. El modelo mantiene dos piezas clave de información: su mejor conjetura actual sobre la solución y una traza del razonamiento que lo llevó a esa conjetura. En cada paso de recursión, el modelo actualiza ambas piezas de información. Observa su conjetura actual, piensa en el razonamiento que la originó y genera una conjetura mejorada basada en ese razonamiento. Luego repite este proceso, utilizando la conjetura mejorada y el razonamiento actualizado como entrada para la siguiente iteración. El modelo original de razonamiento jerárquico (HRM) que inspiró este trabajo usaba dos redes neuronales separadas operando en diferentes jerarquías o “velocidades”. La justificación biológica era que el cerebro humano opera a diferentes frecuencias temporales—algunos procesos son rápidos y reactivos, mientras que otros son lentos y deliberativos. Las dos redes en HRM pretendían emular esto, una operando rápidamente y otra más lentamente, trabajando juntas en un bucle. Sin embargo, los investigadores de Samsung que desarrollaron el Tiny Recursive Model cuestionaron esta justificación biológica. Si bien es interesante trazar paralelismos entre redes neuronales artificiales y cerebros biológicos, tales analogías no explican necesariamente por qué una elección arquitectónica específica es efectiva. El artículo original de HRM se apoyaba mucho en argumentos biológicos y teoremas matemáticos complejos (teoremas de punto fijo) para justificar su diseño, pero no proporcionaba estudios de ablación claros que mostraran qué componentes realmente contribuían a mejorar el rendimiento. Los investigadores se hicieron una pregunta simple pero profunda: ¿por qué usar dos redes? ¿Por qué no una? ¿Por qué no tres o cuatro? Y más fundamentalmente, ¿por qué necesitamos justificar elecciones arquitectónicas basándonos en la biología en lugar de en resultados empíricos?

El Tiny Recursive Model: simplificación a través de la innovación

La respuesta a estas preguntas llevó al desarrollo del Tiny Recursive Model (TRM), que toma la idea central del razonamiento recursivo pero elimina la complejidad y las justificaciones biológicas. En lugar de usar dos redes de tamaño medio operando en diferentes jerarquías, TRM utiliza una sola red pequeña de solo dos capas. El modelo es notablemente simple—el pseudocódigo de TRM es lo suficientemente corto como para caber en una sola pantalla. Esta simplicidad no es una limitación; es una característica. Al eliminar la complejidad innecesaria, los investigadores pudieron centrarse en lo que realmente importa: el proceso de refinamiento recursivo en sí. El hallazgo clave es que el modelo debe mantener dos piezas de información: su conjetura actual y la traza de razonamiento que la originó. No necesariamente son diferentes jerarquías o frecuencias temporales; simplemente son dos tipos de información que el modelo necesita rastrear. En cada paso de recursión, el modelo toma estas dos piezas de información como entrada, las procesa a través de su pequeña red de dos capas y produce versiones actualizadas tanto de la conjetura como de la traza de razonamiento. Este proceso se repite múltiples veces, con cada iteración mejorando potencialmente la solución. La belleza de este enfoque es que proporciona lo que los investigadores llaman “profundidad virtual”. Aunque la red solo tiene dos capas, al recursar varias veces a través de ella, el modelo adquiere efectivamente mucha más profundidad. Es como si el modelo simulara una red mucho más profunda mediante iteración en vez de añadir más capas. Esta es una idea crucial porque desafía la sabiduría convencional de que las redes más profundas siempre son mejores. En el diseño tradicional de redes neuronales, agregamos más capas para incrementar la capacidad del modelo para aprender funciones complejas. Pero el Tiny Recursive Model demuestra que se pueden lograr resultados similares o mejores manteniendo la red poco profunda e incrementando el número de pasos recursivos. Es una manera fundamentalmente diferente de pensar la arquitectura de modelos.

Supervisión profunda: aprendiendo en cada paso

La segunda innovación clave en el Tiny Recursive Model es una técnica llamada supervisión profunda. Mientras que el razonamiento recursivo proporciona el mecanismo de refinamiento iterativo, la supervisión profunda asegura que el modelo aprenda de manera efectiva en cada iteración. En el aprendizaje supervisado tradicional, un modelo realiza una predicción y solo recibe retroalimentación sobre la salida final. Si la respuesta final es incorrecta, el modelo aprende que todo el proceso estuvo mal, pero no recibe retroalimentación específica sobre qué pasos intermedios fallaron. La supervisión profunda cambia esto al proporcionar señales de supervisión en múltiples pasos intermedios durante el proceso de razonamiento. En vez de comprobar solo si la respuesta final es correcta, el modelo recibe retroalimentación en cada paso de recursión. Esto significa que el modelo aprende no solo si la respuesta final es correcta o no, sino si cada paso intermedio en su proceso de razonamiento va en la dirección correcta. El impacto de la supervisión profunda en el rendimiento es dramático. En experimentos iniciales, el uso de supervisión profunda duplicó la exactitud en comparación con la supervisión de un solo paso, mejorando del 19% al 39% la exactitud en ciertas tareas. Esto es una mejora enorme para un solo cambio arquitectónico. La razón por la que la supervisión profunda es tan efectiva es que proporciona señales de aprendizaje mucho más ricas. Cuando un modelo solo recibe retroalimentación sobre la respuesta final, debe averiguar mediante backpropagation qué pasos intermedios causaron el error. Este es un problema difícil de asignación de crédito, especialmente en redes profundas. Al proporcionar supervisión directa en cada paso, el modelo obtiene retroalimentación clara sobre si cada paso intermedio es correcto, facilitando el aprendizaje del comportamiento adecuado. Además, la supervisión profunda ayuda a evitar que el modelo quede atrapado en óptimos locales. Si el modelo toma un camino equivocado al principio de su proceso de razonamiento, la supervisión profunda lo detectará de inmediato y le dará retroalimentación para corregirlo, en lugar de permitir que el error se propague por varios pasos antes de ser detectado.

Resultados de rendimiento: los números que desafían la sabiduría convencional

Las mejoras de rendimiento logradas por el Tiny Recursive Model son realmente sorprendentes. En el benchmark Sudoku Extreme, el modelo pasó de un 55% a un 87% de exactitud. En el benchmark Maze Hard, mejoró de un 75% a un 85%. En ARC AGI 1, alcanzó un 45% de exactitud frente al 40% del enfoque anterior. En ARC AGI 2, logró un 8% de exactitud frente al 5% previo. Aunque las mejoras en ARC AGI 2 puedan parecer modestas—del 5% al 8%—representan una mejora relativa del 60%, lo cual es sustancial en un campo donde el progreso suele medirse en puntos porcentuales de un solo dígito. Más importante aún, estos resultados deben entenderse en el contexto del tamaño del modelo. El Tiny Recursive Model tiene solo 7 millones de parámetros. Para ponerlo en perspectiva, Gemini 2.5 Pro tiene cientos de miles de millones de parámetros, DeepSeek R1 tiene cientos de miles de millones de parámetros y Claude 3.7 también. El Tiny Recursive Model logra un rendimiento competitivo o superior en estos benchmarks usando menos del 0,01% de los parámetros de estos modelos de frontera. Si comparamos la relación rendimiento/parámetro, el Tiny Recursive Model es órdenes de magnitud más eficiente. Esto tiene profundas implicaciones para el despliegue de IA. Los modelos pequeños son más baratos de ejecutar, requieren menos infraestructura computacional y pueden desplegarse en dispositivos de borde o en entornos con recursos limitados. Si un modelo de 7 millones de parámetros puede lograr un rendimiento comparable o mejor que modelos con cientos de miles de millones de parámetros, esto abre posibilidades completamente nuevas para las aplicaciones de IA. El único modelo de frontera que superó al Tiny Recursive Model en estos benchmarks fue Gro for Thinking, que obtuvo resultados significativamente mejores. Sin embargo, Gro for Thinking es un modelo masivo con más de un billón de parámetros—más de 140.000 veces mayor que el TRM. Incluso considerando esta diferencia de tamaño, la eficiencia del Tiny Recursive Model es extraordinaria.

Por qué funciona el razonamiento recursivo: el mecanismo detrás de la magia

Comprender por qué el razonamiento recursivo es tan efectivo requiere pensar en la naturaleza de los problemas de razonamiento complejos. Muchas tareas difíciles de razonamiento tienen una estructura particular: implican encontrar una solución que satisfaga múltiples restricciones o descubrir un patrón que explique un conjunto de observaciones. Estos problemas a menudo no pueden resolverse en una sola pasada hacia adelante por una red neuronal. En cambio, requieren refinamiento iterativo: generas una solución candidata, la chequeas contra las restricciones u observaciones, identificas dónde falla y la refinas. Esto es exactamente lo que permite el razonamiento recursivo. Al mantener tanto una conjetura actual como una traza de razonamiento, el modelo puede participar en este proceso de refinamiento iterativo. La traza de razonamiento funciona como una forma de memoria de trabajo, permitiendo al modelo llevar un registro de lo que ha intentado, lo que funcionó y lo que no. Esto es fundamentalmente diferente de cómo operan las redes neuronales tradicionales. Una red neuronal convencional procesa la entrada a través de una serie de capas y produce una salida. No hay mecanismo para que la red revise sus decisiones previas o mantenga un registro de su proceso de razonamiento. La red no puede decir “Intenté este enfoque y no funcionó, así que probaré algo diferente.” Simplemente procesa la entrada y produce una salida. El razonamiento recursivo cambia esto al incorporar explícitamente un mecanismo para el refinamiento iterativo y el mantenimiento de una traza de razonamiento. Esto permite al modelo realizar un razonamiento mucho más cercano a cómo los humanos resolvemos problemas complejos. Cuando los humanos enfrentamos un rompecabezas difícil, no lo pensamos una vez y damos una respuesta. Lo pensamos, generamos una solución candidata, la comprobamos, encontramos problemas y la refinamos. Podemos pasar por este ciclo muchas veces. El razonamiento recursivo permite a las redes neuronales hacer algo similar. Otro hallazgo clave es que el razonamiento recursivo provee una forma de regularización. Al forzar al modelo a mantener una traza de razonamiento y refinar su respuesta iterativamente, el modelo está obligado a aprender soluciones más generalizables. Un modelo que solo puede producir una respuesta en una pasada podría memorizar patrones específicos de los datos de entrenamiento. Un modelo que debe refinar su respuesta y mantener una traza de razonamiento está forzado a aprender principios más fundamentales que pueden aplicarse a problemas nuevos. Esto ayuda a explicar por qué el Tiny Recursive Model generaliza tan bien a nuevos problemas, incluso cuando se entrena con cantidades relativamente pequeñas de datos.

FlowHunt y la automatización de flujos de razonamiento complejos

Las implicaciones del Tiny Recursive Model van más allá de la investigación académica hacia aplicaciones prácticas. Las organizaciones necesitan cada vez más automatizar tareas complejas de razonamiento—desde el análisis de datos y el reconocimiento de patrones hasta la toma de decisiones y la resolución de problemas. Tradicionalmente, estas tareas han requerido experiencia humana o modelos de IA grandes y costosos. El Tiny Recursive Model abre nuevas posibilidades para automatizar estas tareas de manera eficiente. FlowHunt, una plataforma de automatización de flujos de trabajo con IA, puede aprovechar estos avances en modelos de razonamiento para crear soluciones de automatización más eficientes y rentables. En vez de depender de modelos masivos de frontera que requieren grandes recursos computacionales, FlowHunt puede integrar modelos más pequeños y eficientes como el Tiny Recursive Model en flujos de trabajo automatizados. Esto permite a las organizaciones construir sistemas de automatización inteligentes capaces de manejar tareas complejas de razonamiento sin la sobrecarga de ejecutar modelos gigantescos. Por ejemplo, piensa en un flujo de trabajo que necesita analizar datos de clientes, identificar patrones y hacer recomendaciones. Usando un modelo tradicional grande de lenguaje, este flujo sería costoso de operar a escala. Usando un modelo recursivo pequeño integrado en un flujo de FlowHunt, la misma tarea podría realizarse a una fracción del costo. El modelo podría refinar su análisis iterativamente, manteniendo una traza de razonamiento que explique sus recomendaciones y proporcionando transparencia sobre cómo llegó a sus conclusiones. Esto es especialmente valioso en ámbitos donde la explicabilidad es importante, como salud, finanzas o aplicaciones legales. La traza de razonamiento mantenida por el modelo recursivo proporciona un registro claro del proceso de pensamiento del modelo, facilitando la comprensión y verificación de sus decisiones. Además, la eficiencia de los modelos recursivos pequeños permite desplegar capacidades de razonamiento en entornos de borde o dispositivos con recursos limitados. Una aplicación móvil podría incluir razonamiento que antes habría requerido procesamiento en la nube. Esto abre nuevas posibilidades para aplicaciones inteligentes que pueden operar sin conexión o con conectividad mínima.

Impulsa tu flujo de trabajo con FlowHunt

Experimenta cómo FlowHunt automatiza tus flujos de contenido y SEO con IA: desde la investigación y generación de contenido hasta la publicación y analítica, todo en un solo lugar.

Desafiando las leyes de escalado: un cambio de paradigma en el desarrollo de IA

El éxito del Tiny Recursive Model desafía uno de los supuestos más fundamentales en el desarrollo moderno de IA: las leyes de escalado que han guiado el campo durante la última década. Las leyes de escalado sugieren que el rendimiento mejora de manera predecible al aumentar el tamaño del modelo, los datos de entrenamiento y los recursos computacionales. Los modelos más grandes son mejores. Más datos es mejor. Más cómputo es mejor. Esta suposición ha impulsado el desarrollo de modelos cada vez más masivos, con compañías invirtiendo miles de millones de dólares en entrenar modelos de cientos de miles de millones o incluso billones de parámetros. El Tiny Recursive Model sugiere que esta suposición puede estar incompleta o incluso ser engañosa en ciertos contextos. Usando un enfoque arquitectónico diferente—razonamiento recursivo con supervisión profunda—un modelo pequeño puede alcanzar un rendimiento comparable o superior al de modelos masivos en ciertas tareas. Esto no significa que las leyes de escalado estén equivocadas; más bien, sugiere que existen múltiples caminos para lograr alto rendimiento, y aumentar el tamaño del modelo es solo uno de ellos. Esto tiene profundas implicaciones para el futuro del desarrollo de la IA. Si modelos pequeños pueden alcanzar un rendimiento comparable a modelos grandes gracias a innovaciones arquitectónicas inteligentes, esto podría llevar a un cambio en cómo se desarrollan y despliegan los sistemas de IA. En vez de centrarse exclusivamente en construir modelos cada vez más grandes, el campo podría girar hacia el desarrollo de arquitecturas más eficientes que logren alto rendimiento con menos parámetros. Esto tendría beneficios significativos para el medio ambiente, la eficiencia computacional y la accesibilidad. Entrenar y ejecutar modelos masivos requiere enormes cantidades de electricidad y recursos computacionales. Si podemos lograr un rendimiento similar con modelos mucho más pequeños, esto reduciría el impacto ambiental del desarrollo de IA y haría la IA más accesible para organizaciones con recursos computacionales limitados. El Tiny Recursive Model también sugiere que la relación entre el tamaño del modelo y la generalización puede ser más compleja de lo que se pensaba. La sabiduría convencional sugiere que los modelos grandes generalizan mejor porque tienen más capacidad para aprender patrones complejos. Sin embargo, el Tiny Recursive Model muestra que los modelos pequeños pueden generalizar mejor si se diseñan con los sesgos inductivos correctos. Al incluir mecanismos para refinamiento iterativo y mantenimiento de trazas de razonamiento, el modelo está obligado a aprender soluciones más generalizables. Este es un ejemplo de cómo las innovaciones arquitectónicas a veces pueden ser más importantes que el tamaño bruto del modelo.

El principio de simplicidad: por qué menos es más

Uno de los aspectos más sorprendentes del Tiny Recursive Model es su simplicidad. El modelo utiliza solo dos capas y logra su rendimiento mediante refinamiento recursivo en lugar de complejidad arquitectónica. Esta simplicidad no es accidental; es una elección de diseño deliberada basada en hallazgos empíricos. Los investigadores descubrieron que agregar más capas en realidad disminuía la generalización debido al sobreajuste. Este es un hallazgo contraintuitivo que desafía la sabiduría habitual del diseño de redes neuronales. Por lo general, pensamos que las redes más profundas son más poderosas y capaces de aprender funciones más complejas. Sin embargo, el Tiny Recursive Model muestra que, en el contexto de tareas de razonamiento, la profundidad mediante recursión es más efectiva que la profundidad mediante capas adicionales. ¿Por qué es así? Una explicación es que las capas adicionales incrementan la capacidad del modelo para memorizar patrones específicos de los datos de entrenamiento, lo que puede conducir al sobreajuste. Al mantener la red poco profunda e incrementar el número de pasos recursivos, el modelo se ve obligado a aprender soluciones más generalizables. Cada paso recursivo debe trabajar con la misma red de dos capas, por lo que la red debe aprender a realizar cálculos útiles que puedan aplicarse iterativamente. Esta restricción obliga a la red a aprender principios más fundamentales en vez de memorizar patrones concretos. Otra explicación está relacionada con la naturaleza de las tareas de razonamiento. Estas tareas suelen implicar refinamiento iterativo y satisfacción de restricciones. Una red poco profunda aplicada recursivamente es ideal para este tipo de problemas porque puede centrarse en hacer mejoras incrementales a la solución actual. Una red profunda, en cambio, puede intentar resolver todo el problema en una sola pasada, lo que es menos efectivo para problemas que requieren refinamiento iterativo. La simplicidad del Tiny Recursive Model también tiene beneficios prácticos. Los modelos simples son más fáciles de entender, depurar y modificar. Si quieres entender por qué el modelo tomó una decisión concreta, puedes rastrear su proceso de razonamiento paso a paso. Si quieres modificar el modelo para manejar un nuevo tipo de problema, puedes hacer cambios precisos en la arquitectura o el procedimiento de entrenamiento. Esto contrasta con los modelos masivos de miles de millones de parámetros, que son esencialmente cajas negras difíciles de comprender o modificar. El principio de que “menos es más” va más allá de la arquitectura del modelo. Los investigadores también descubrieron que el modelo no necesita teoremas matemáticos complejos ni justificaciones biológicas para funcionar efectivamente. El modelo original de razonamiento jerárquico dependía de teoremas de punto fijo y argumentos biológicos sobre cómo opera el cerebro. El Tiny Recursive Model funciona sin estas justificaciones teóricas. Es simplemente un modelo que mantiene dos piezas de información y las refina iterativamente. Esto sugiere que a veces la explicación más simple es la mejor y que no debemos complicar en exceso nuestros modelos con justificaciones teóricas innecesarias.

Implicaciones prácticas y direcciones futuras

El éxito del Tiny Recursive Model tiene importantes implicaciones sobre cómo se desarrollarán y desplegarán los sistemas de IA en el futuro. Primero, sugiere que la eficiencia debe ser un objetivo de diseño primario, no una idea secundaria. En vez de construir modelos masivos y luego intentar comprimirlos u optimizarlos para su despliegue, deberíamos diseñar modelos pensando en la eficiencia desde el principio. El Tiny Recursive Model demuestra que es posible lograr alto rendimiento con un modelo pequeño y eficiente si se diseña cuidadosamente la arquitectura. Segundo, sugiere que la innovación arquitectónica puede ser más importante que la escala. Aunque el campo se ha centrado mucho en escalar modelos, el Tiny Recursive Model muestra que innovaciones arquitectónicas inteligentes pueden ser más efectivas que simplemente aumentar el tamaño de los modelos. Esto podría llevar a un renovado enfoque en el diseño arquitectónico y a dejar atrás la mentalidad de “más grande es mejor” que ha dominado el campo. Tercero, sugiere que las capacidades de razonamiento pueden incorporarse en los modelos mediante el diseño arquitectónico en vez de solo por escala. El Tiny Recursive Model alcanza un rendimiento sólido en razonamiento no porque sea un modelo masivo, sino porque está diseñado con mecanismos para refinamiento iterativo y mantenimiento de trazas de razonamiento. Esto podría llevar a nuevos enfoques para dotar de capacidades de razonamiento a los sistemas de IA. Cuarto, tiene implicaciones sobre cómo evaluamos y medimos los sistemas de IA. El benchmark ARC AGI ha demostrado ser una herramienta valiosa para evaluar capacidades de razonamiento, y el éxito del Tiny Recursive Model en este benchmark sugiere que debemos seguir desarrollando benchmarks que prueben razonamiento genuino y no solo reconocimiento de patrones o recuperación de conocimiento. Mirando hacia adelante, hay varias direcciones en las que esta investigación podría extenderse. Una dirección es explorar cómo el razonamiento recursivo puede combinarse con otras técnicas, como el chain-of-thought prompting o la generación aumentada por recuperación. Otra es explorar cómo el razonamiento recursivo puede aplicarse a otros tipos de problemas más allá de tareas de razonamiento visual. Una tercera es ver cómo escalar el razonamiento recursivo a modelos más grandes y comprobar si los mismos principios aplican. Una cuarta es explorar cómo hacer el proceso de razonamiento más interpretable y transparente, para que los usuarios entiendan cómo el modelo llegó a sus conclusiones.

Conclusión

El Tiny Recursive Model representa un avance significativo en inteligencia artificial, demostrando que modelos más pequeños y eficientes pueden lograr un rendimiento superior en tareas complejas de razonamiento gracias a innovaciones arquitectónicas inteligentes. Combinando razonamiento jerárquico recursivo con supervisión profunda, el modelo alcanza un 45% de exactitud en ARC AGI 1 y un 8% en ARC AGI 2 usando solo 7 millones de parámetros—menos del 0,01% de los parámetros de modelos de frontera como Gemini 2.5 Pro. Este logro desafía supuestos fundamentales sobre el desarrollo de IA, sugiriendo que la innovación arquitectónica y la eficiencia deben priorizarse junto con la escala. Las implicaciones van más allá de la investigación académica hacia aplicaciones prácticas, donde las organizaciones pueden aprovechar modelos más pequeños y eficientes para automatizar tareas complejas de razonamiento a una fracción del costo de los modelos de frontera masivos. A medida que el campo siga evolucionando, los principios demostrados por el Tiny Recursive Model—simplicidad, refinamiento iterativo y diseño arquitectónico eficiente—probablemente serán cada vez más relevantes en el desarrollo de la próxima generación de sistemas de IA.

Preguntas frecuentes

¿Qué es el Tiny Recursive Model (TRM)?

El Tiny Recursive Model es una red neuronal de 7 millones de parámetros que utiliza razonamiento jerárquico recursivo y supervisión profunda para alcanzar un rendimiento superior en tareas de razonamiento complejo en comparación con modelos mucho más grandes como Gemini 2.5 Pro y DeepSeek.

¿Cómo supera el TRM a modelos más grandes?

TRM utiliza un enfoque novedoso que combina razonamiento recursivo (iterando a través de pasos de mejora) y supervisión profunda (transfiriendo características aprendidas entre pasos). Esto permite que el modelo pequeño piense en los problemas de manera iterativa, similar al razonamiento humano, en lugar de predecir respuestas en una sola pasada.

¿Cuáles son las métricas de rendimiento en los benchmarks ARC AGI?

TRM alcanza un 45% de exactitud en ARC AGI 1 y un 8% en ARC AGI 2, superando a Gemini 2.5 Pro (4,9%), DeepSeek R1 y Claude 3.7, mientras utiliza menos del 0,01% de sus parámetros.

¿Por qué el razonamiento recursivo es más efectivo que el chain-of-thought?

El razonamiento recursivo permite al modelo refinar su respuesta de manera iterativa manteniendo dos piezas clave de información: su conjetura actual y la traza de razonamiento. Esto crea un bucle de retroalimentación donde el modelo puede autoevaluarse y revisar sus respuestas varias veces, similar a cómo los humanos resolvemos problemas complejos mediante ensayo y refinamiento.

¿Cómo contribuye la supervisión profunda al rendimiento?

La supervisión profunda mejora la exactitud proporcionando señales de supervisión en múltiples pasos durante el proceso de razonamiento. En lugar de comprobar solo la respuesta final, el modelo recibe retroalimentación en cada paso intermedio, lo que duplicó la exactitud del 19% al 39% en los experimentos iniciales.

Arshia es ingeniera de flujos de trabajo de IA en FlowHunt. Con formación en ciencias de la computación y una pasión por la IA, se especializa en crear flujos de trabajo eficientes que integran herramientas de IA en las tareas cotidianas, mejorando la productividad y la creatividad.

Arshia Kahani
Arshia Kahani
Ingeniera de flujos de trabajo de IA

Automatiza tus flujos de trabajo de IA con FlowHunt

Crea flujos inteligentes de automatización que aprovechan modelos de IA de vanguardia y técnicas de razonamiento para resolver problemas complejos de manera eficiente.

Saber más

LG EXAONE Deep vs DeepSeek R1: Comparativa de modelos de razonamiento AI
LG EXAONE Deep vs DeepSeek R1: Comparativa de modelos de razonamiento AI

LG EXAONE Deep vs DeepSeek R1: Comparativa de modelos de razonamiento AI

Un análisis en profundidad del modelo de razonamiento EXAONE Deep 32B de LG, probado frente a DeepSeek R1 y QwQ de Alibaba, examinando las afirmaciones de rendi...

15 min de lectura
AI Models LLM Testing +3
OpenAI O3 Mini Agente de IA: Un Modelo de IA Compacto pero Potente
OpenAI O3 Mini Agente de IA: Un Modelo de IA Compacto pero Potente

OpenAI O3 Mini Agente de IA: Un Modelo de IA Compacto pero Potente

¿Es OpenAI O3 Mini la herramienta de IA adecuada para ti? Lo pusimos a prueba con generación de contenido, cálculos y más. Descubre cómo este modelo equilibra e...

7 min de lectura
OpenAI AI Model +3
Dentro de la mente de Llama 3.3 70B Versatile 128k como Agente de IA
Dentro de la mente de Llama 3.3 70B Versatile 128k como Agente de IA

Dentro de la mente de Llama 3.3 70B Versatile 128k como Agente de IA

Explora las capacidades avanzadas de Llama 3.3 70B Versatile 128k como Agente de IA. Esta revisión en profundidad examina sus habilidades de razonamiento, resol...

8 min de lectura
AI Agent Llama 3 +5