Come un modello da 7 milioni di parametri sta superando i modelli AI di frontiera

Come un modello da 7 milioni di parametri sta superando i modelli AI di frontiera

AI Machine Learning Deep Learning Model Optimization

Introduzione

Il panorama dell’intelligenza artificiale si è a lungo basato su un presupposto fondamentale: più grande è meglio. Modelli più grandi, con più parametri, più dati di addestramento e maggiori risorse computazionali, hanno costantemente superato i loro omologhi più piccoli. Tuttavia, un rivoluzionario articolo di ricerca di Samsung ha messo in discussione questa saggezza convenzionale in un modo che potrebbe ridefinire il modo in cui pensiamo al design e all’efficienza dei modelli AI. Una piccola rete neurale con soli 7 milioni di parametri—una frazione delle dimensioni di modelli di frontiera come GPT-4, Gemini 2.5 Pro o DeepSeek—sta ora ottenendo prestazioni superiori su alcuni dei benchmark di ragionamento più impegnativi dell’intelligenza artificiale. Questo straordinario risultato non è il frutto di un semplice aumento dei dati di addestramento o delle risorse computazionali. Rappresenta piuttosto una riprogettazione fondamentale dell’approccio delle reti neurali alla risoluzione di problemi complessi grazie a una tecnica chiamata ragionamento gerarchico ricorsivo combinato con deep supervision. In questa guida completa, esploreremo come funziona questo minuscolo modello, perché è così efficace e cosa significa per il futuro dello sviluppo e della distribuzione dell’AI.

Thumbnail for Come un modello da 7 milioni di parametri supera i modelli AI di frontiera

Capire i limiti degli attuali large language model

Prima di poter apprezzare l’innovazione dietro il Tiny Recursive Model, dobbiamo capire perché i large language model faticano con i compiti di ragionamento complesso. I moderni large language model come GPT-4, Claude e Gemini operano su un principio fondamentale: predicono il token successivo in una sequenza sulla base dei token precedenti. Questo approccio autoregressivo si è rivelato estremamente efficace per molti compiti, dalla traduzione al riassunto fino alla scrittura creativa. Tuttavia, quando si tratta di problemi di ragionamento difficili—soprattutto quelli che richiedono più passaggi di deduzione logica, soddisfacimento di vincoli o riconoscimento astratto di pattern—questo approccio mostra limiti significativi. Il problema principale è che una singola predizione errata di un token può invalidare l’intera risposta. Immagina di risolvere una complessa equazione matematica: se il modello commette un errore nel primo passaggio, tutti i passaggi successivi diventano inutili. Questo effetto cascata peggiora esponenzialmente con l’aumentare della complessità dei problemi. Inoltre, i large language model non “ragionano” davvero come fanno gli esseri umani. Eseguono un sofisticato riconoscimento di pattern basato sui dati di addestramento, senza un vero processo di inferenza logica. Quando si trovano davanti a problemi nuovi che richiedono un ragionamento oltre il proprio training, spesso falliscono in modo clamoroso. Ecco perché anche i modelli più avanzati faticano con benchmark come ARC AGI (Abstraction and Reasoning Corpus), che testa specificamente la capacità di risolvere problemi di ragionamento astratto che richiedono pensiero genuinamente astratto e non solo riconoscimento di pattern.

L’evoluzione delle tecniche di ragionamento nell’AI

La comunità di ricerca sull’AI ha sviluppato diverse tecniche per affrontare i limiti di ragionamento dei large language model, ognuna con i suoi punti di forza e debolezze. La più nota è il chain-of-thought prompting, una tecnica ormai onnipresente nei sistemi AI moderni. Il chain-of-thought incoraggia il modello a generare un ragionamento passo-passo prima di fornire la risposta finale. Invece di saltare subito alle conclusioni, il modello viene guidato a “pensare al problema”, producendo passaggi intermedi che conducono alla risposta. Questo approccio si è dimostrato estremamente efficace e gli studi mostrano che il chain-of-thought può migliorare significativamente le prestazioni nei compiti di ragionamento. Tuttavia, porta con sé anche degli svantaggi notevoli. Innanzitutto, è costoso a livello computazionale: generare più passaggi di ragionamento richiede l’elaborazione di molti token aggiuntivi, aumentando tempi e costi di inferenza. In secondo luogo, richiede dati di ragionamento di alta qualità per l’addestramento, costosi e lunghi da produrre. Terzo, e forse più importante, il chain-of-thought è fragile: il ragionamento generato può essere errato e, se lo è, anche la risposta finale sarà sbagliata. Il modello non verifica davvero il suo ragionamento; si limita a generare spiegazioni plausibili che possono non essere logicamente solide. Un’altra tecnica popolare è il pass-at-K sampling, dove il modello genera più risposte candidate e seleziona la migliore. Se chiedi a un modello “Quanto fa 5 per 5?”, potrebbe generare dieci risposte diverse e scegliere la più corretta. Anche se questo può migliorare l’accuratezza, è costoso a livello computazionale e non risolve il problema principale: il modello ancora non ragiona davvero, ma si limita a generare più predizioni sperando che una sia giusta. Queste tecniche rappresentano ciò che i ricercatori chiamano “test-time compute scaling” — usare più risorse computazionali in fase di inferenza per migliorare la qualità delle risposte. Sebbene efficaci, sono limitate dal fatto che il modello sottostante continua a non eseguire un vero ragionamento, ma si limita a produrre più predizioni sperando nel risultato migliore.

Il benchmark ARC AGI: perché è importante

Per comprendere l’importanza dei risultati raggiunti dal Tiny Recursive Model, dobbiamo capire il benchmark su cui viene valutato: ARC AGI (Abstraction and Reasoning Corpus). ARC AGI è stato creato per testare qualcosa che la maggior parte dei benchmark AI non valuta: la vera capacità di ragionamento astratto. A differenza dei benchmark che testano la conoscenza o il riconoscimento di pattern, ARC AGI presenta rompicapi di ragionamento visivo che richiedono l’identificazione di pattern astratti e la loro applicazione a situazioni nuove. Il benchmark consiste in compiti in cui al modello vengono mostrati alcuni esempi di coppie input-output e deve individuare la regola o la trasformazione sottostante, applicandola poi a nuovi input. Non sono compiti risolvibili tramite memorizzazione o riconoscimento di pattern dai dati di training: richiedono vero ragionamento e capacità di generalizzare concetti astratti. Dal 2019, ARC AGI è diventato uno standard per valutare le capacità di ragionamento dei sistemi AI. Nonostante sei anni di progressi nei large language model, un livello di accuratezza paragonabile a quello umano su ARC AGI non è ancora stato raggiunto. Questo ricorda quanto, nonostante le impressionanti capacità dei sistemi AI moderni, essi fatichino ancora su compiti che gli umani trovano relativamente semplici. Gemini 2.5 Pro, uno dei modelli di frontiera più avanzati, raggiunge solo il 4,9% di accuratezza su ARC AGI 2 anche utilizzando notevoli risorse computazionali in fase di test. Il più recente ARC AGI 3 è ancora più impegnativo, con i modelli di frontiera che faticano a fare progressi significativi. È in questo contesto che i risultati del Tiny Recursive Model diventano davvero notevoli. Un modello con 7 milioni di parametri—meno dello 0,01% di quelli di Gemini 2.5 Pro—raggiunge il 45% di accuratezza su ARC AGI 1 e l’8% su ARC AGI 2, superando di molto questi enormi modelli di frontiera.

Cos’è il ragionamento gerarchico ricorsivo?

L’innovazione chiave alla base del Tiny Recursive Model è una tecnica chiamata ragionamento gerarchico ricorsivo, che rappresenta un approccio fondamentalmente diverso al modo in cui le reti neurali affrontano problemi complessi. Per capirla, è utile pensare a un’analogia: immagina di dover risolvere un sudoku difficile. Non lo risolvi in un unico passaggio, prendendo tutte le decisioni insieme. Invece, fai una stima, rifletti se questa abbia senso con i vincoli, e, se non funziona, la rivedi e riprovi. Potresti ripetere questo ciclo decine di volte, ogni volta migliorando la soluzione sulla base dei tentativi precedenti e del ragionamento sui motivi dei fallimenti. Questo processo di raffinamento iterativo è, in sostanza, ciò che fa il ragionamento gerarchico ricorsivo. Il modello mantiene due informazioni chiave: la sua stima attuale della soluzione e una traccia del ragionamento che ha portato a quella stima. A ogni passaggio ricorsivo, il modello aggiorna entrambe. Osserva la stima attuale, riflette sul ragionamento che l’ha prodotta e genera una stima migliorata. Poi ripete il processo, usando la nuova stima e la traccia aggiornata come input al ciclo successivo. Il modello di ragionamento gerarchico originale (HRM) che ha ispirato questo lavoro usava due reti neurali distinte che operavano su gerarchie o “velocità” diverse. La giustificazione biologica era che il cervello umano opera su diverse frequenze temporali: alcuni processi sono rapidi e reattivi, altri lenti e deliberativi. Le due reti di HRM volevano emulare questo, con una rete veloce e una lenta, che lavoravano in un ciclo. Tuttavia, i ricercatori Samsung che hanno sviluppato il Tiny Recursive Model hanno messo in dubbio questa giustificazione biologica. Sebbene sia interessante tracciare parallelismi tra reti neurali artificiali e cervelli biologici, tali analogie non spiegano necessariamente perché una scelta architetturale sia efficace. L’articolo HRM originale si basava molto su argomentazioni biologiche e teoremi matematici complessi (teoremi del punto fisso) per giustificare il design, ma non forniva chiare ablation study su quali componenti contribuissero davvero alle prestazioni. I ricercatori si sono posti una domanda semplice ma profonda: perché usare due reti? Perché non una? Perché non tre o quattro? E più fondamentalmente, perché giustificare le scelte architetturali sulla base della biologia invece che dei risultati empirici?

Il Tiny Recursive Model: semplificazione tramite innovazione

La risposta a queste domande ha portato allo sviluppo del Tiny Recursive Model (TRM), che prende il nucleo del ragionamento ricorsivo ma elimina la complessità e le giustificazioni biologiche. Invece di usare due reti di media grandezza su gerarchie diverse, TRM usa una sola piccola rete con solo due layer. Il modello è straordinariamente semplice—il pseudocodice di TRM entra in una sola schermata. Questa semplicità non è un limite, è una caratteristica. Eliminando la complessità superflua, i ricercatori si sono potuti concentrare su ciò che conta davvero: il processo di raffinamento ricorsivo. L’intuizione chiave è che il modello deve mantenere due informazioni: la stima attuale e la traccia del ragionamento. Queste non sono necessariamente gerarchie diverse o frequenze temporali differenti; sono semplicemente due tipi di informazione da tracciare. A ogni ciclo ricorsivo, il modello prende queste due informazioni, le elabora nella sua piccola rete a due layer e produce versioni aggiornate sia della stima che della traccia di ragionamento. Questo processo si ripete più volte, con ogni iterazione che potenzialmente migliora la soluzione. La bellezza di questo approccio è che fornisce quella che i ricercatori chiamano “profondità virtuale”. Anche se la rete ha solo due layer, ricorrendo più volte su se stessa il modello ha effettivamente molta più profondità. È come se simulasse una rete molto più profonda tramite l’iterazione, invece che tramite layer aggiuntivi. Questa è un’intuizione cruciale perché mette in discussione la convinzione che reti più profonde siano sempre migliori. Nel design tradizionale delle reti neurali, aggiungiamo layer per aumentare la capacità di apprendere funzioni complesse. Ma il Tiny Recursive Model dimostra che si possono ottenere risultati simili o migliori mantenendo la rete “shallow” e aumentando il numero dei passi ricorsivi. È un modo di pensare completamente diverso all’architettura dei modelli.

Deep Supervision: apprendere a ogni passaggio

La seconda innovazione chiave del Tiny Recursive Model è una tecnica chiamata deep supervision. Mentre il ragionamento ricorsivo fornisce il meccanismo di raffinamento iterativo, la deep supervision assicura che il modello apprenda efficacemente da ogni iterazione. Nell’apprendimento supervisionato tradizionale, un modello fa una predizione e riceve feedback solo sull’output finale. Se la risposta è sbagliata, il modello apprende che l’intero processo era errato, ma non ottiene feedback specifici su quali passaggi intermedi fossero problematici. La deep supervision cambia questo fornendo segnali di supervisione a molteplici step intermedi durante il ragionamento. Invece di controllare solo se la risposta finale è corretta, il modello riceve feedback a ogni passaggio ricorsivo. Significa che il modello apprende non solo se la risposta finale è giusta o sbagliata, ma anche se ciascun step intermedio del ragionamento sta procedendo nella direzione giusta. L’impatto della deep supervision sulle prestazioni è drammatico. Nei primi esperimenti, l’uso della deep supervision ha raddoppiato l’accuratezza rispetto alla supervisione single-step, passando dal 19% al 39% su certi task. Questo è un enorme miglioramento da un solo cambiamento architetturale. Il motivo per cui la deep supervision è così efficace è che fornisce segnali di apprendimento molto più ricchi. Quando un modello riceve feedback solo sulla risposta finale, deve capire tramite backpropagation quali step intermedi sono stati responsabili dell’errore. È un problema difficile di “credit assignment”, in particolare nelle reti profonde. Fornendo supervisione diretta a ogni step, il modello ottiene feedback chiari su ogni passaggio, rendendo molto più facile apprendere il comportamento corretto. Inoltre, la deep supervision aiuta a evitare che il modello resti bloccato in ottimi locali. Se il modello prende una strada sbagliata all’inizio del ragionamento, la deep supervision lo corregge subito, invece di permettere che l’errore si propaghi per molti step prima di essere rilevato.

Risultati: numeri che sfidano la saggezza convenzionale

I miglioramenti ottenuti dal Tiny Recursive Model sono a dir poco straordinari. Sul benchmark Sudoku Extreme, il modello è passato dal 55% all’87% di accuratezza. Sul Maze Hard, dal 75% all’85%. Su ARC AGI 1 ha raggiunto il 45% di accuratezza rispetto al 40% dell’approccio precedente. Su ARC AGI 2, ha raggiunto l’8% contro il 5% dell’approccio precedente. Anche se i miglioramenti su ARC AGI 2 possono sembrare modesti—dal 5% all’8%—rappresentano un miglioramento relativo del 60%, che è significativo in un campo dove i progressi si misurano spesso in punti percentuali singoli. Ma soprattutto, questi risultati vanno valutati considerando la dimensione del modello. Il Tiny Recursive Model ha solo 7 milioni di parametri. Per fare un confronto, Gemini 2.5 Pro ne ha centinaia di miliardi, così come DeepSeek R1 e Claude 3.7. Il Tiny Recursive Model ottiene prestazioni competitive o superiori su questi benchmark usando meno dello 0,01% dei parametri dei modelli di frontiera. Se si confronta il rapporto prestazioni/parametri, il Tiny Recursive Model è ordini di grandezza più efficiente. Questo ha profonde implicazioni per la distribuzione dell’AI. Modelli più piccoli costano meno, richiedono meno infrastruttura computazionale e possono essere distribuiti su dispositivi edge o in ambienti con risorse limitate. Se un modello da 7 milioni di parametri può ottenere prestazioni paragonabili o migliori rispetto a modelli con centinaia di miliardi di parametri, si aprono nuove possibilità per le applicazioni AI. L’unico modello di frontiera che ha superato il Tiny Recursive Model su questi benchmark è stato Gro for Thinking, che ha ottenuto risultati significativamente migliori. Tuttavia, Gro for Thinking è un modello enorme con oltre un trilione di parametri—più di 140.000 volte più grande del TRM. Anche tenendo conto di questa differenza di dimensione, l’efficienza del Tiny Recursive Model è notevole.

Perché il ragionamento ricorsivo funziona: il meccanismo dietro la magia

Capire perché il ragionamento ricorsivo sia così efficace richiede una riflessione sulla natura dei problemi di ragionamento complesso. Molti task di ragionamento difficili hanno una struttura particolare: richiedono di trovare una soluzione che soddisfi più vincoli o di scoprire un pattern che spieghi un set di osservazioni. Questi problemi non possono spesso essere risolti in un’unica passata attraverso una rete neurale. Richiedono invece un raffinamento iterativo, in cui si genera una soluzione candidata, la si verifica rispetto ai vincoli o alle osservazioni, si individuano i punti deboli e la si affina. Ed è proprio ciò che abilita il ragionamento ricorsivo. Mantenendo sia una stima attuale che una traccia di ragionamento, il modello può impegnarsi in questo processo iterativo. La traccia di ragionamento funge da memoria di lavoro, permettendo al modello di tenere traccia di ciò che ha già provato, di ciò che ha funzionato e di ciò che non ha funzionato. Questo è fondamentalmente diverso dal modo in cui operano le reti neurali tradizionali, che processano l’input attraverso una serie di layer e producono un output, senza la possibilità di rivedere decisioni precedenti o mantenere una traccia del ragionamento. Il modello non può dire “ho provato questo approccio e non ha funzionato, ora ne provo un altro.” Si limita a elaborare l’input e produrre un output. Il ragionamento ricorsivo cambia questo, costruendo esplicitamente un meccanismo di raffinamento iterativo e mantenimento della traccia di ragionamento. Questo permette al modello di ragionare in modo più simile a come gli umani risolvono problemi complessi. Quando affrontiamo un puzzle difficile, non ci pensiamo una sola volta e produciamo una risposta; pensiamo, generiamo una soluzione candidata, la verifichiamo, troviamo problemi e la affiniamo, ripetendo il ciclo. Il ragionamento ricorsivo permette alle reti neurali di fare qualcosa di simile. Un’altra intuizione chiave è che il ragionamento ricorsivo funge da regolarizzazione. Costringendo il modello a mantenere una traccia del ragionamento e a raffinare iterativamente la risposta, il modello è costretto a imparare soluzioni più generalizzabili. Un modello che può produrre una risposta in un solo passaggio rischia di memorizzare pattern specifici dei dati di training. Un modello che deve iterare e mantenere una traccia di ragionamento è costretto a imparare principi più fondamentali, applicabili a problemi nuovi. Questo spiega perché il Tiny Recursive Model generalizza così bene, pur essendo addestrato su quantità di dati relativamente piccole.

FlowHunt e l’automazione dei workflow di ragionamento complesso

Le implicazioni del Tiny Recursive Model vanno oltre la ricerca accademica e toccano le applicazioni pratiche. Le organizzazioni hanno sempre più bisogno di automatizzare task complessi di ragionamento—dall’analisi dati al riconoscimento di pattern, dal decision-making alla risoluzione di problemi. Tradizionalmente, questi compiti richiedevano expertise umana o grandi, costosi modelli AI. Il Tiny Recursive Model apre nuove possibilità per automatizzare questi compiti in modo efficiente. FlowHunt, piattaforma per l’automazione dei workflow AI, può sfruttare questi progressi nei modelli di ragionamento per creare soluzioni di automazione più efficienti ed economiche. Invece di affidarsi a enormi modelli di frontiera che richiedono molte risorse, FlowHunt può integrare modelli più piccoli ed efficienti come il Tiny Recursive Model nei workflow automatici. Questo permette alle organizzazioni di costruire sistemi di automazione intelligenti in grado di gestire task di ragionamento complesso senza il costo di modelli mastodontici. Ad esempio, pensa a un workflow che deve analizzare dati clienti, identificare pattern e fornire raccomandazioni. Con un large language model tradizionale, sarebbe costoso da eseguire su larga scala. Usando un tiny recursive model integrato in un workflow FlowHunt, lo stesso compito può essere svolto a una frazione del costo. Il modello può affinare iterativamente l’analisi, mantenendo una traccia del ragionamento che spiega le sue raccomandazioni e fornendo trasparenza sul processo decisionale. Questo è particolarmente prezioso in ambiti dove la spiegabilità è importante, come sanità, finanza o legale. La traccia di ragionamento mantenuta dal modello ricorsivo offre un chiaro resoconto del processo decisionale, facilitando la comprensione e la verifica delle decisioni del modello. Inoltre, l’efficienza dei tiny recursive model consente di distribuire capacità di ragionamento su dispositivi edge o risorse limitate. Un’app mobile potrebbe includere capacità di ragionamento che prima richiedevano elaborazione in cloud. Questo apre nuove possibilità per applicazioni intelligenti che possono operare offline o con connettività minima.

Potenzia i tuoi workflow con FlowHunt

Scopri come FlowHunt automatizza i tuoi workflow di contenuti e SEO con l’AI — dalla ricerca e generazione di contenuti alla pubblicazione e analytics — tutto in un’unica piattaforma.

Sfida alle scaling law: un cambio di paradigma nello sviluppo AI

Il successo del Tiny Recursive Model mette in discussione uno dei presupposti fondamentali dell’AI moderna: le scaling law che hanno guidato il settore nell’ultimo decennio. Le scaling law suggeriscono che le prestazioni migliorano prevedibilmente all’aumentare delle dimensioni del modello, dei dati di training e delle risorse computazionali. Più grande è meglio. Più dati è meglio. Più potenza di calcolo è meglio. Questo presupposto ha alimentato lo sviluppo di modelli sempre più massicci, con aziende che investono miliardi di dollari in modelli da centinaia di miliardi o addirittura trilioni di parametri. Il Tiny Recursive Model suggerisce che questo assunto potrebbe essere incompleto o, in certi contesti, fuorviante. Usando un approccio architetturale diverso—ragionamento ricorsivo con deep supervision—un modello minuscolo può ottenere prestazioni paragonabili o superiori a modelli enormi su alcuni task. Non significa che le scaling law siano sbagliate; piuttosto, suggerisce che esistono più strade per ottenere alte prestazioni e che aumentare le dimensioni è solo una di queste. Questo ha profonde implicazioni per il futuro dello sviluppo AI. Se modelli piccoli possono raggiungere prestazioni comparabili a quelli grandi grazie a innovazioni architetturali intelligenti, potremmo assistere a un cambio di paradigma: dallo sviluppo esclusivo di modelli sempre più grandi a quello di architetture più efficienti, capaci di alte prestazioni con meno parametri. Ciò avrebbe vantaggi significativi per l’ambiente, l’efficienza computazionale e l’accessibilità. Addestrare e far girare modelli enormi richiede immense quantità di energia e risorse. Se possiamo ottenere prestazioni simili con modelli molto più piccoli, si riduce l’impatto ambientale dell’AI e si rende la tecnologia più accessibile a organizzazioni con risorse limitate. Il Tiny Recursive Model suggerisce anche che la relazione tra dimensione del modello e generalizzazione è più complessa di quanto si pensasse. La saggezza convenzionale sostiene che modelli più grandi generalizzano meglio perché hanno maggiore capacità di apprendere pattern complessi. Tuttavia, il Tiny Recursive Model dimostra che modelli piccoli possono generalizzare meglio se progettati con i giusti bias induttivi. Incorporando meccanismi di raffinamento iterativo e mantenimento della traccia di ragionamento, il modello è costretto a imparare soluzioni più generalizzabili. È un esempio di come l’innovazione architetturale possa talvolta essere più importante della mera dimensione del modello.

Il principio della semplicità: quando meno è di più

Uno degli aspetti più sorprendenti del Tiny Recursive Model è la sua semplicità. Usa solo due layer e raggiunge le sue performance tramite raffinamento ricorsivo, non tramite complessità architetturale. Questa semplicità non è un caso; è una scelta progettuale deliberata basata su risultati empirici. I ricercatori hanno scoperto che aggiungere layer in realtà peggiora la generalizzazione a causa dell’overfitting. È una scoperta controintuitiva che sfida la saggezza tradizionale delle reti neurali. Di solito, pensiamo che reti più profonde siano più potenti e capaci di apprendere funzioni complesse. Tuttavia, il Tiny Recursive Model mostra che, nei compiti di ragionamento, la profondità tramite ricorsione è più efficace della profondità tramite layer aggiuntivi. Perché? Una spiegazione è che più layer aumentano la capacità del modello di memorizzare pattern specifici, portando a overfitting. Mantenendo la rete “shallow” e aumentando i passi ricorsivi, il modello è costretto a imparare soluzioni più generalizzabili. Ogni passo ricorsivo deve lavorare con la stessa rete a due layer, quindi questa deve imparare a svolgere calcoli utili e iterabili. Questa costrizione obbliga il modello a imparare principi fondamentali, invece di memorizzare pattern. Un’altra spiegazione riguarda la natura dei compiti di ragionamento, che spesso richiedono raffinamento iterativo e soddisfacimento di vincoli. Una rete poco profonda applicata ricorsivamente è adatta a questo tipo di problema, perché può concentrarsi su piccoli miglioramenti incrementali. Una rete profonda, al contrario, potrebbe cercare di risolvere il problema in un solo passaggio, inefficace per problemi che richiedono raffinamento iterativo. La semplicità del Tiny Recursive Model ha anche vantaggi pratici. Modelli semplici sono più facili da capire, da debuggare e da modificare. Se vuoi capire perché il modello ha preso una decisione, puoi seguire il ragionamento passo per passo. Se vuoi adattare il modello a un nuovo tipo di problema, puoi modificare miratamente l’architettura o la procedura di training. Questo è molto più difficile nei modelli mastodontici da miliardi di parametri, che sono di fatto black box. Il principio del “meno è di più” va oltre l’architettura del modello. I ricercatori hanno anche scoperto che il modello non ha bisogno di teoremi matematici complessi o giustificazioni biologiche per funzionare. Il modello HRM originale si basava su teoremi del punto fisso e argomentazioni biologiche su come opera il cervello. Il Tiny Recursive Model funziona senza queste giustificazioni teoriche. È semplicemente un modello che mantiene due informazioni e le raffina iterativamente. Questo suggerisce che, a volte, la spiegazione più semplice è la migliore, e che non dovremmo complicare troppo i modelli con giustificazioni teoriche non necessarie.

Implicazioni pratiche e prospettive future

Il successo del Tiny Recursive Model ha importanti implicazioni per lo sviluppo e il deployment dei sistemi AI futuri. Primo, suggerisce che l’efficienza deve essere un obiettivo progettuale primario, non secondario. Invece di costruire modelli enormi e poi comprimerli o ottimizzarli per la distribuzione, dovremmo progettarli efficienti fin dall’inizio. Il Tiny Recursive Model dimostra che si possono ottenere grandi prestazioni con modelli piccoli ed efficienti se si cura l’architettura. Secondo, suggerisce che l’innovazione architetturale può essere più importante della scala. Sebbene il settore si sia concentrato molto sull’upscaling dei modelli, il Tiny Recursive Model dimostra che innovazioni architetturali intelligenti possono essere più efficaci dell’aumento di dimensioni. Potrebbe portare a un rinnovato interesse per il design architetturale e a un allontanamento dalla mentalità “più grande è meglio”. Terzo, suggerisce che le capacità di ragionamento possono essere costruite nei modelli tramite design architetturale, non solo tramite la scala. Il Tiny Recursive Model ottiene ottime performance di ragionamento non perché è enorme, ma perché è progettato con meccanismi di raffinamento iterativo e mantenimento della traccia di ragionamento. Questo potrebbe portare a nuovi approcci per integrare capacità di ragionamento nei sistemi AI. Quarto, ha implicazioni su come valutiamo e testiamo i sistemi AI. Il benchmark ARC AGI si è rivelato uno strumento prezioso per valutare il ragionamento, e il successo del Tiny Recursive Model suggerisce di continuare a sviluppare benchmark che testino il ragionamento autentico, non solo pattern recognition o retrieval di conoscenze. Guardando avanti, la ricerca può evolversi in diverse direzioni: combinare il ragionamento ricorsivo con altre tecniche (come chain-of-thought o retrieval-augmented generation), applicarlo a nuovi tipi di problemi, scalarlo a modelli più grandi per vedere se i principi restano validi, oppure rendere il processo di ragionamento ancora più interpretabile e trasparente, così che gli utenti possano capire come il modello arriva alle conclusioni.

Conclusione

Il Tiny Recursive Model rappresenta un’importante svolta nell’intelligenza artificiale, dimostrando che modelli più piccoli ed efficienti possono ottenere prestazioni superiori nei task di ragionamento complesso grazie a innovazioni architetturali intelligenti. Combinando ragionamento gerarchico ricorsivo e deep supervision, il modello raggiunge il 45% di accuratezza su ARC AGI 1 e l’8% su ARC AGI 2 usando solo 7 milioni di parametri—meno dello 0,01% dei parametri di modelli di frontiera come Gemini 2.5 Pro. Questo risultato mette in discussione i presupposti fondamentali dello sviluppo AI, suggerendo che innovazione architetturale ed efficienza dovrebbero essere prioritarie quanto la scala. Le implicazioni vanno oltre la ricerca, offrendo alle organizzazioni la possibilità di automatizzare task di ragionamento complesso con modelli piccoli ed efficienti, a una frazione del costo dei modelli di frontiera. Mentre il settore continua a evolversi, i principi dimostrati dal Tiny Recursive Model—semplicità, raffinamento iterativo e design architetturale efficiente—diventeranno probabilmente sempre più importanti nello sviluppo della prossima generazione di sistemi AI.

Domande frequenti

Cos'è il Tiny Recursive Model (TRM)?

Il Tiny Recursive Model è una rete neurale da 7 milioni di parametri che utilizza ragionamento gerarchico ricorsivo e deep supervision per ottenere prestazioni superiori nei compiti di ragionamento complesso rispetto a modelli molto più grandi come Gemini 2.5 Pro e DeepSeek.

Come fa TRM a superare i modelli più grandi?

TRM utilizza un approccio innovativo che combina ragionamento ricorsivo (cicli di miglioramento iterativi) e deep supervision (passaggio di feature apprese tra i vari step). Questo permette al piccolo modello di riflettere sui problemi in modo iterativo, simile al ragionamento umano, invece di prevedere le risposte in un solo passaggio.

Quali sono le metriche di performance sui benchmark ARC AGI?

TRM raggiunge il 45% di accuratezza su ARC AGI 1 e l'8% su ARC AGI 2, superando Gemini 2.5 Pro (4,9%), DeepSeek R1 e Claude 3.7, utilizzando meno dello 0,01% dei loro parametri.

Perché il ragionamento ricorsivo è più efficace del chain-of-thought?

Il ragionamento ricorsivo permette al modello di affinare iterativamente la sua risposta mantenendo due informazioni chiave: la stima attuale e la traccia del ragionamento. Questo crea un ciclo di feedback in cui il modello può autocriticarsi e rivedere le risposte più volte, proprio come gli umani risolvono problemi complessi per tentativi ed errori.

In che modo la deep supervision contribuisce alle performance?

La deep supervision migliora l'accuratezza fornendo segnali di supervisione a più step durante il processo di ragionamento. Invece di controllare solo la risposta finale, il modello riceve feedback ad ogni passaggio intermedio, raddoppiando l'accuratezza dal 19% al 39% nei primi esperimenti.

Arshia è una AI Workflow Engineer presso FlowHunt. Con una formazione in informatica e una passione per l'IA, è specializzata nella creazione di workflow efficienti che integrano strumenti di intelligenza artificiale nelle attività quotidiane, migliorando produttività e creatività.

Arshia Kahani
Arshia Kahani
AI Workflow Engineer

Automatizza i tuoi workflow AI con FlowHunt

Crea flussi di automazione intelligenti che sfruttano modelli AI all'avanguardia e tecniche di ragionamento per risolvere problemi complessi in modo efficiente.

Scopri di più

LG EXAONE Deep vs DeepSeek R1: Confronto tra Modelli di Ragionamento AI
LG EXAONE Deep vs DeepSeek R1: Confronto tra Modelli di Ragionamento AI

LG EXAONE Deep vs DeepSeek R1: Confronto tra Modelli di Ragionamento AI

Un'analisi approfondita del modello di ragionamento EXAONE Deep 32B di LG testato contro DeepSeek R1 e QwQ di Alibaba, esaminando le affermazioni sulle prestazi...

15 min di lettura
AI Models LLM Testing +3