Làm thế nào một mô hình 7 triệu tham số lại vượt trội hơn các mô hình AI hàng đầu

Làm thế nào một mô hình 7 triệu tham số lại vượt trội hơn các mô hình AI hàng đầu

AI Machine Learning Deep Learning Model Optimization

Giới thiệu

Lĩnh vực trí tuệ nhân tạo từ lâu vẫn dựa trên một giả định cơ bản: lớn hơn thì tốt hơn. Các mô hình có nhiều tham số hơn, nhiều dữ liệu huấn luyện hơn và tài nguyên tính toán mạnh mẽ hơn luôn vượt trội so với các mô hình nhỏ hơn. Tuy nhiên, một bài báo nghiên cứu đột phá từ Samsung đã thách thức hoàn toàn lối suy nghĩ này, có thể làm thay đổi cách chúng ta thiết kế và tối ưu hóa mô hình AI. Một mạng nơ-ron nhỏ chỉ với 7 triệu tham số—chỉ là phần rất nhỏ so với các mô hình hàng đầu như GPT-4, Gemini 2.5 Pro hay DeepSeek—nay lại đạt hiệu suất vượt trội trên những bài kiểm tra suy luận khó nhất của AI. Thành tích đáng kinh ngạc này không phải nhờ huấn luyện nhiều dữ liệu hơn hay tăng tài nguyên tính toán. Thay vào đó, nó xuất phát từ việc tái tư duy căn bản về cách mạng nơ-ron giải quyết bài toán phức tạp thông qua kỹ thuật suy luận phân cấp đệ quy kết hợp giám sát sâu. Trong bài viết tổng hợp này, chúng ta sẽ tìm hiểu mô hình nhỏ này hoạt động như thế nào, tại sao nó hiệu quả và điều đó có ý nghĩa gì cho tương lai phát triển, triển khai AI.

Thumbnail for How a 7M Parameter Model Beats Frontier AI Models

Hiểu giới hạn của các mô hình ngôn ngữ lớn hiện nay

Trước khi đánh giá sự đổi mới của Mô hình Đệ quy Nhỏ, chúng ta cần hiểu tại sao các mô hình ngôn ngữ lớn lại gặp khó với các tác vụ suy luận phức tạp. Các mô hình hiện đại như GPT-4, Claude, Gemini dựa trên nguyên lý cơ bản: dự đoán token tiếp theo trong chuỗi, dựa vào các token trước đó. Phương pháp tự hồi quy này cực kỳ hiệu quả cho nhiều tác vụ như dịch thuật, tóm tắt, sáng tác. Tuy nhiên, với các bài toán suy luận khó—đặc biệt là yêu cầu nhiều bước suy luận logic, thỏa mãn ràng buộc hoặc nhận diện mẫu trừu tượng—cách tiếp cận này bộc lộ nhiều hạn chế lớn. Vấn đề cốt lõi là chỉ một token dự đoán sai cũng có thể khiến toàn bộ đáp án vô giá trị. Hãy tưởng tượng giải một phương trình toán học phức tạp: nếu mô hình sai ở bước đầu, mọi bước sau đều vô nghĩa. Vấn đề lỗi dây chuyền này càng nghiêm trọng khi độ phức tạp tăng cao. Ngoài ra, các mô hình ngôn ngữ lớn không thực sự “suy luận” như con người. Chúng thực hiện khớp mẫu tinh vi dựa trên dữ liệu huấn luyện, chứ không phải suy luận logic thực sự. Khi gặp bài toán mới vượt ngoài phân phối huấn luyện, chúng thường thất bại nghiêm trọng. Đây là lý do ngay cả các mô hình tiên tiến nhất cũng chật vật với các bộ đánh giá như ARC AGI (Abstraction and Reasoning Corpus), vốn kiểm tra khả năng giải quyết vấn đề trừu tượng, chứ không chỉ nhận diện mẫu.

Sự phát triển của các kỹ thuật suy luận trong AI

Cộng đồng nghiên cứu AI đã phát triển nhiều kỹ thuật để khắc phục hạn chế suy luận của mô hình ngôn ngữ lớn, mỗi kỹ thuật có ưu và nhược điểm riêng. Tiêu biểu nhất là chain-of-thought prompting, kỹ thuật đã trở nên rất phổ biến. Chain-of-thought khuyến khích mô hình tạo ra từng bước suy luận trước khi đưa ra đáp án cuối cùng. Thay vì nhảy vọt đến kết luận, mô hình được nhắc nhở “suy nghĩ qua từng bước”, tạo ra các bước trung gian dẫn đến đáp án. Phương pháp này cho hiệu quả cao, nhiều nghiên cứu cho thấy chain-of-thought cải thiện rõ rệt hiệu suất trên tác vụ suy luận. Tuy nhiên, chain-of-thought có nhiều nhược điểm: Thứ nhất, tốn nhiều tài nguyên tính toán—tạo nhiều bước suy luận nghĩa là phải xử lý thêm nhiều token, tăng thời gian và chi phí suy luận. Thứ hai, cần dữ liệu suy luận chất lượng cao để huấn luyện, vốn đắt đỏ và mất thời gian. Thứ ba, chain-of-thought còn rất mong manh. Lý do là các bước suy luận tạo ra có thể sai, và nếu sai thì đáp án cuối cùng cũng sai theo. Mô hình không thực sự kiểm chứng suy luận của mình; nó chỉ tạo ra lời giải thích nghe có vẻ hợp lý, dù đúng hay sai logic. Một kỹ thuật khác là pass-at-K sampling, nơi mô hình tạo ra nhiều đáp án ứng viên và chọn đáp án tốt nhất. Ví dụ hỏi “5 nhân 5 bằng mấy?”, mô hình có thể sinh ra 10 đáp án, sau đó chọn đáp án chính xác nhất. Tuy cũng cải thiện độ chính xác, phương pháp này tốn nhiều tài nguyên và không giải quyết gốc rễ vấn đề: mô hình vẫn không thực sự suy luận mà chỉ dự đoán nhiều đáp án và hy vọng có cái đúng. Các kỹ thuật này thuộc về “test-time compute scaling”—tăng tài nguyên lúc suy luận để cải thiện chất lượng đáp án. Dù hiệu quả, cách này bị giới hạn căn bản bởi chính mô hình không suy luận thực mà chỉ dự đoán nhiều hơn.

ARC AGI Benchmark: Tại sao quan trọng?

Để hiểu giá trị của thành tựu Mô hình Đệ quy Nhỏ, cần hiểu bộ đánh giá mà nó được kiểm tra: ARC AGI (Abstraction and Reasoning Corpus). ARC AGI được tạo ra để kiểm tra điều mà hầu hết các bộ đánh giá AI khác không làm được: khả năng suy luận trừu tượng thực thụ. Không giống như các bộ kiểm tra kiến thức hay nhận diện mẫu, ARC AGI đưa ra các câu đố suy luận hình ảnh mới lạ, đòi hỏi nhận dạng mẫu trừu tượng và áp dụng vào tình huống mới. Bộ này gồm các tác vụ mà mô hình được cho một số cặp đầu vào-đầu ra và phải tìm ra quy luật hoặc phép biến đổi ẩn, sau đó áp dụng quy luật đó cho dữ liệu mới. Không thể giải các tác vụ này chỉ bằng ghi nhớ hay khớp mẫu từ dữ liệu huấn luyện; chúng yêu cầu suy luận và khả năng khái quát hóa trừu tượng. Từ khi ARC AGI ra mắt năm 2019, nó đã trở thành tiêu chuẩn vàng để đánh giá khả năng suy luận của hệ thống AI. Dù các mô hình ngôn ngữ lớn đã phát triển sáu năm, vẫn chưa đạt độ chính xác ngang với con người trên ARC AGI. Điều này nhắc nhở rằng dù AI hiện đại rất mạnh, chúng vẫn gặp khó với các nhiệm vụ con người làm dễ dàng. Gemini 2.5 Pro, một trong những mô hình hàng đầu, chỉ đạt 4,9% trên ARC AGI 2 dù được tăng cường tài nguyên tính toán. ARC AGI 3 còn khó hơn, các mô hình lớn hầu như không tiến bộ. Đó là bối cảnh mà thành tựu của Mô hình Đệ quy Nhỏ trở nên xuất sắc. Một mô hình chỉ 7 triệu tham số—chưa tới 0,01% tham số của Gemini 2.5 Pro—đạt 45% trên ARC AGI 1 và 8% trên ARC AGI 2, vượt xa các mô hình hàng đầu này.

Suy luận phân cấp đệ quy là gì?

Đột phá then chốt của Mô hình Đệ quy Nhỏ là kỹ thuật suy luận phân cấp đệ quy, đại diện cho cách tiếp cận hoàn toàn khác biệt trong giải quyết bài toán phức tạp. Có thể hình dung như sau: bạn giải một bài Sudoku khó, bạn không giải ngay trong một lần, mà thử đoán, kiểm tra xem đoán đó có hợp lý không, nếu không hợp lý thì điều chỉnh và thử lại. Quá trình này lặp đi lặp lại, mỗi lần bạn lại cải thiện đáp án dựa trên suy nghĩ về các lần trước. Đây chính là bản chất của suy luận phân cấp đệ quy. Mô hình duy trì hai thông tin: phỏng đoán hiện tại về đáp án và dấu vết suy luận dẫn đến phỏng đoán đó. Ở mỗi bước đệ quy, mô hình cập nhật cả hai thông tin: nhìn lại phỏng đoán, suy nghĩ về lý do dẫn đến nó, rồi tạo ra phỏng đoán tốt hơn dựa trên suy luận đó. Quá trình này lặp lại, dùng đáp án cải thiện và dấu vết mới làm đầu vào cho lần tiếp theo. Mô hình suy luận phân cấp nguyên bản (HRM) từng dùng hai mạng nơ-ron hoạt động ở hai cấp độ khác nhau—lấy cảm hứng từ não bộ con người có quá trình nhanh và chậm. Tuy nhiên, các nhà nghiên cứu Samsung đặt lại vấn đề: tại sao cần hai mạng? Một? Ba hay bốn? Và quan trọng hơn, tại sao phải viện dẫn yếu tố sinh học thay vì dựa vào thực nghiệm? Họ nhận ra: điều cốt lõi là quá trình cải thiện đệ quy, không phải số lượng mạng hay tầng bậc sinh học.

Mô hình Đệ quy Nhỏ: Tối giản qua đổi mới

Câu trả lời dẫn đến sự ra đời của Tiny Recursive Model (TRM), giữ lại tinh thần suy luận đệ quy nhưng loại bỏ sự phức tạp không cần thiết. Thay vì hai mạng vừa, TRM chỉ dùng duy nhất một mạng siêu nhỏ hai lớp. Mô hình cực kỳ đơn giản—mã giả cho TRM chỉ trong một màn hình. Sự đơn giản này là ưu điểm, không phải hạn chế. Bằng cách loại bỏ phức tạp, các nhà nghiên cứu tập trung vào quá trình cải thiện đệ quy. Thông tin cần duy trì là phỏng đoán hiện tại và dấu vết suy luận. Chúng không nhất thiết là hai tầng bậc khác nhau, chỉ là hai loại thông tin mà mô hình cần theo dõi. Ở mỗi bước đệ quy, cả hai thông tin được đưa qua mạng hai lớp siêu nhỏ, xuất ra phiên bản cập nhật của phỏng đoán và dấu vết suy luận. Quá trình lặp lại nhiều lần, mỗi lần có thể cải thiện đáp án. Cách tiếp cận này đem lại cái gọi là “độ sâu ảo”—dù chỉ có hai lớp, việc lặp đi lặp lại giúp mô hình tựa như một mạng rất sâu. Thay vì thêm lớp để tăng khả năng học hàm phức tạp, TRM giữ mạng nông nhưng tăng số bước đệ quy. Đây là cách tư duy hoàn toàn mới về kiến trúc mô hình.

Giám sát sâu: Học hỏi ở mọi bước

Đổi mới thứ hai của TRM là kỹ thuật giám sát sâu. Nếu suy luận đệ quy giúp mô hình lặp lại cải thiện đáp án, thì giám sát sâu đảm bảo mô hình học hiệu quả qua từng vòng lặp. Ở học có giám sát truyền thống, mô hình chỉ nhận phản hồi ở đầu ra cuối cùng. Nếu sai đáp án, mô hình chỉ biết toàn bộ quá trình sai, nhưng không rõ bước nào gây lỗi. Giám sát sâu thay đổi điều này bằng cách đưa tín hiệu phản hồi ở nhiều bước trung gian. Không chỉ kiểm tra đáp án cuối, mô hình được phản hồi tại mỗi vòng lặp đệ quy. Điều này giúp mô hình học được không chỉ đáp án cuối đúng hay sai mà từng bước trung gian có đi đúng hướng không. Ảnh hưởng của giám sát sâu là rất lớn: trong thử nghiệm ban đầu, độ chính xác tăng gấp đôi, từ 19% lên 39%. Khi chỉ nhận phản hồi ở đầu ra cuối, mô hình phải tự suy ra bước nào gây lỗi, rất khó trong mạng sâu. Nhận phản hồi trực tiếp ở từng bước giúp mô hình học đúng hành vi dễ dàng hơn, đồng thời tránh bị mắc kẹt ở cực tiểu cục bộ—nếu sai ở bước đầu, giám sát sâu phát hiện và sửa ngay thay vì để lỗi lan tới đáp án cuối.

Kết quả hiệu suất: Những con số thách thức quan niệm cũ

Những cải tiến mà TRM đạt được thực sự ấn tượng. Trên bộ Sudoku Extreme, mô hình tăng từ 55% lên 87% chính xác. Trên Maze Hard, từ 75% lên 85%. Trên ARC AGI 1, đạt 45% so với 40% phương pháp cũ; ARC AGI 2 đạt 8% so với 5%. Dù mức tăng ARC AGI 2 chỉ từ 5% lên 8%, nhưng đó là cải thiện 60% tương đối—rất lớn trong lĩnh vực mà mỗi phần trăm đều quý giá. Quan trọng hơn là xét trong bối cảnh kích thước mô hình: TRM chỉ có 7 triệu tham số, trong khi Gemini 2.5 Pro, DeepSeek R1, Claude 3.7 đều hàng trăm tỷ tham số. TRM đạt hiệu suất tương đương hoặc vượt trội trong khi chỉ dùng chưa đến 0,01% số tham số các mô hình hàng đầu. Tỷ lệ hiệu suất trên tham số cao hơn nhiều bậc. Điều này có ý nghĩa lớn cho triển khai AI: mô hình nhỏ rẻ hơn, yêu cầu hạ tầng thấp, có thể chạy trên thiết bị biên hoặc môi trường hạn chế tài nguyên. Nếu một mô hình 7 triệu tham số có thể làm được như vậy, nhiều ứng dụng AI mới sẽ mở ra. Mô hình hàng đầu duy nhất vượt TRM là Gro for Thinking (hơn một nghìn tỷ tham số—gấp 140.000 lần TRM). Dù vậy, hiệu suất trên mỗi tham số của TRM vẫn cực kỳ ấn tượng.

Vì sao suy luận đệ quy hiệu quả: Cơ chế đằng sau

Hiểu vì sao suy luận đệ quy hiệu quả cần nhìn vào bản chất của các bài toán suy luận phức tạp. Nhiều tác vụ khó có cấu trúc: cần tìm đáp án thỏa mãn nhiều ràng buộc hoặc phát hiện quy luật giải thích quan sát. Các bài toán này không thể giải trong một lần truyền thẳng duy nhất qua mạng nơ-ron, mà cần cải thiện lặp đi lặp lại: tạo đáp án thử, kiểm tra, xác định thất bại ở đâu rồi sửa lại. Đó chính là điều suy luận đệ quy cho phép. Bằng cách duy trì phỏng đoán và dấu vết suy luận, mô hình có thể liên tục điều chỉnh đáp án. Dấu vết suy luận đóng vai trò bộ nhớ làm việc, giúp mô hình ghi lại đã thử gì, cái gì hiệu quả, cái gì không. Khác hẳn mạng nơ-ron truyền thống, vốn truyền thẳng đầu vào qua các lớp để ra đầu ra, không cơ chế xem lại quyết định trước đó hoặc ghi nhớ quá trình suy luận. Suy luận đệ quy xây dựng cơ chế lặp lại cải thiện và duy trì dấu vết suy luận. Nhờ đó, mô hình gần giống cách con người giải bài toán: thử - kiểm tra - sửa - lặp lại. Ngoài ra, suy luận đệ quy còn giúp regularize mô hình: bắt buộc mô hình duy trì dấu vết và cải thiện đáp án tuần tự, giúp học được nguyên lý tổng quát thay vì chỉ ghi nhớ mẫu huấn luyện. Nhờ vậy, TRM tổng quát hóa tốt dù dữ liệu huấn luyện ít.

FlowHunt và tự động hóa quy trình suy luận phức tạp

Ảnh hưởng của TRM không chỉ nằm ở nghiên cứu học thuật mà còn ở ứng dụng thực tế. Ngày càng nhiều tổ chức cần tự động hóa các tác vụ suy luận phức tạp—từ phân tích dữ liệu, nhận diện mẫu, ra quyết định đến giải quyết vấn đề. Trước đây, các tác vụ này thường cần chuyên gia con người hoặc mô hình AI lớn, đắt đỏ. TRM mở ra khả năng tự động hóa hiệu quả hơn. FlowHunt, nền tảng tự động hóa quy trình AI, có thể tận dụng các tiến bộ trong mô hình suy luận mới này để xây dựng giải pháp tự động hóa hiệu quả, tiết kiệm chi phí. Thay vì dựa vào mô hình lớn ngốn nhiều tài nguyên, FlowHunt có thể tích hợp mô hình nhỏ như TRM vào luồng tự động hóa. Nhờ đó, tổ chức có thể xây dựng hệ thống thông minh xử lý tác vụ suy luận phức tạp với chi phí thấp. Ví dụ, một quy trình phân tích dữ liệu khách hàng, nhận diện mẫu, đưa ra khuyến nghị, nếu dùng mô hình lớn sẽ tốn kém, còn dùng mô hình đệ quy nhỏ trong FlowHunt thì chi phí cực thấp. Mô hình có thể liên tục cải thiện phân tích, lưu lại dấu vết suy luận giải thích quyết định, giúp minh bạch quy trình. Điều này đặc biệt hữu ích ở các lĩnh vực yêu cầu giải thích như y tế, tài chính, pháp lý—dấu vết suy luận giúp minh bạch và kiểm chứng quyết định. Ngoài ra, hiệu quả của mô hình nhỏ còn cho phép triển khai trên thiết bị biên, thiết bị di động, nơi trước đây chỉ có thể xử lý trên cloud.

Tăng tốc quy trình của bạn với FlowHunt

Trải nghiệm FlowHunt tự động hóa toàn bộ quy trình nội dung AI và SEO — từ nghiên cứu, tạo nội dung, xuất bản đến phân tích — tất cả trong một nền tảng.

Thách thức các quy luật mở rộng: Sự thay đổi mô hình phát triển AI

Thành công của Mô hình Đệ quy Nhỏ thách thức một trong những giả định lớn nhất của AI hiện đại: quy luật mở rộng (scaling laws) đã dẫn dắt ngành này suốt thập kỷ qua. Scaling laws cho rằng hiệu suất tăng đều khi tăng kích thước mô hình, dữ liệu huấn luyện, tài nguyên tính toán. Mô hình càng lớn càng tốt. Dữ liệu càng nhiều càng tốt. Tính toán càng mạnh càng tốt. Giả định này khiến các công ty đầu tư hàng tỷ đô để huấn luyện mô hình hàng trăm tỷ tới nghìn tỷ tham số. TRM cho thấy giả định này có thể chưa đầy đủ hoặc thậm chí sai trong một số bối cảnh. Bằng cách dùng kiến trúc khác—suy luận đệ quy với giám sát sâu—một mô hình nhỏ vẫn đạt hiệu suất ngang hoặc hơn các mô hình lớn ở một số tác vụ. Điều này không có nghĩa scaling laws sai, mà cho thấy có nhiều con đường để đạt hiệu suất cao, không chỉ là tăng kích thước. Điều này rất quan trọng cho tương lai phát triển AI. Nếu mô hình nhỏ có thể đạt hiệu suất như mô hình lớn nhờ cải tiến kiến trúc, ngành AI sẽ chuyển hướng sang tối ưu hiệu quả thay vì chỉ tăng kích thước. Lợi ích rõ rệt về môi trường, hiệu năng và khả năng tiếp cận. Việc huấn luyện và vận hành mô hình lớn tiêu tốn điện năng, tài nguyên khổng lồ. Nếu đạt hiệu suất tương đương với mô hình nhỏ hơn hàng trăm lần, AI sẽ thân thiện môi trường hơn, tiếp cận dễ dàng hơn cho tổ chức nhỏ. TRM còn cho thấy mối quan hệ giữa kích thước và khả năng tổng quát hóa phức tạp hơn ta nghĩ. Thông thường, mô hình lớn tổng quát hóa tốt vì học được nhiều mẫu phức tạp. Nhưng TRM cho thấy mô hình nhỏ có thể tổng quát hóa tốt nếu được thiết kế với đúng xu hướng quy nạp (inductive bias), như khả năng cải thiện lặp đi lặp lại và duy trì dấu vết suy luận.

Nguyên lý tối giản: Ít hơn lại tốt hơn

Điều nổi bật nhất của TRM là sự đơn giản. Chỉ hai lớp, đạt hiệu suất cao nhờ cải thiện đệ quy chứ không phải phức tạp hóa kiến trúc. Sự đơn giản này là chủ đích dựa vào thực nghiệm. Các nhà nghiên cứu nhận ra thêm nhiều lớp lại làm giảm tổng quát hóa vì overfitting—một phát hiện ngược với quan điểm truyền thống. Thông thường, mạng sâu được cho là học tốt hàm phức tạp. Nhưng TRM cho thấy, với bài toán suy luận, sâu nhờ lặp lại hiệu quả hơn sâu nhờ thêm lớp. Vì sao vậy? Một lý do là càng nhiều lớp thì càng dễ ghi nhớ mẫu dữ liệu, dẫn đến overfit. Giữ mạng nông và tăng số bước đệ quy buộc mạng học giải pháp tổng quát hơn. Mỗi bước phải làm việc với cùng mạng hai lớp, nên mạng phải học tính toán hữu ích có thể áp dụng lặp lại. Ngoài ra, bản chất bài toán suy luận phù hợp với mạng nông nhưng lặp lại nhiều: giúp cải thiện dần giải pháp. Mạng sâu lại cố giải toàn bộ trong một lần, kém hiệu quả cho bài toán cần lặp lại. Sự đơn giản của TRM còn có lợi thực tế: dễ hiểu, dễ sửa, dễ mở rộng. Nếu muốn kiểm tra quyết định mô hình, ta chỉ cần xem qua từng bước suy luận. Nếu muốn mở rộng cho bài toán mới, chỉ cần chỉnh sửa mục tiêu hoặc quy trình huấn luyện. Trái lại, mô hình hàng tỷ tham số là hộp đen khó kiểm tra hoặc sửa đổi. Nguyên lý “ít hơn lại tốt hơn” còn thể hiện ở chỗ TRM không cần các định lý toán học phức tạp hay dẫn chứng sinh học để hoạt động. Mô hình HRM gốc dựa vào định lý điểm bất động, lập luận sinh học. TRM thì chỉ đơn giản duy trì hai thông tin và cải thiện lặp lại. Đôi khi, giải thích đơn giản lại là tốt nhất—không nên phức tạp hóa mô hình bằng lý thuyết không cần thiết.

Ý nghĩa thực tiễn và hướng phát triển tương lai

Thành công của TRM có ý nghĩa lớn về cách phát triển và triển khai hệ thống AI trong tương lai. Thứ nhất, hiệu quả nên là mục tiêu hàng đầu, không phải nghĩ sau. Thay vì xây mô hình lớn rồi mới tìm cách nén, tối ưu hóa, ta nên thiết kế hiệu quả ngay từ đầu. TRM chứng minh mô hình nhỏ, hiệu quả vẫn có thể đạt hiệu suất cao nếu kiến trúc hợp lý. Thứ hai, đổi mới kiến trúc có thể quan trọng hơn mở rộng quy mô. Lĩnh vực AI lâu nay tập trung vào scaling, nhưng TRM cho thấy đổi mới kiến trúc có thể hiệu quả hơn chỉ tăng kích thước. Điều này sẽ khuyến khích tập trung vào thiết kế kiến trúc, thay vì chỉ chạy đua tăng kích thước. Thứ ba, khả năng suy luận có thể được tích hợp vào mô hình qua thiết kế kiến trúc thay vì chỉ tăng quy mô. TRM có khả năng suy luận mạnh không phải vì nó lớn, mà vì nó được thiết kế để cải thiện lặp lại, lưu dấu vết suy luận. Đây có thể là hướng mới để tích hợp khả năng suy luận vào AI. Thứ tư, nó cũng ảnh hưởng tới cách đánh giá AI. ARC AGI chứng minh giá trị của đánh giá khả năng suy luận thực thụ, và thành công của TRM cho thấy nên tiếp tục phát triển các bộ đánh giá chú trọng suy luận thay vì chỉ nhận diện mẫu hay truy xuất kiến thức. Trong tương lai, có nhiều hướng mở rộng: kết hợp suy luận đệ quy với chain-of-thought hoặc retrieval-augmented generation; áp dụng đệ quy vào các bài toán ngoài suy luận hình ảnh; mở rộng TRM lên mô hình lớn xem nguyên lý còn đúng không; hoặc làm cho quá trình suy luận minh bạch, dễ giải thích hơn.

Kết luận

Mô hình Đệ quy Nhỏ là một đột phá lớn trong AI, chứng minh mô hình nhỏ, hiệu quả vẫn có thể vượt trội trên các tác vụ suy luận phức tạp nhờ đổi mới kiến trúc. Kết hợp suy luận phân cấp đệ quy với giám sát sâu, mô hình đạt 45% trên ARC AGI 1 và 8% trên ARC AGI 2 chỉ với 7 triệu tham số—ít hơn 0,01% tham số của các mô hình như Gemini 2.5 Pro. Thành tựu này thách thức những giả định cốt lõi về phát triển AI, cho thấy cần ưu tiên đổi mới kiến trúc, hiệu quả song song với quy mô. Ảnh hưởng của nó vượt khỏi nghiên cứu hàn lâm, mở ra khả năng ứng dụng thực tế—tổ chức có thể tận dụng mô hình nhỏ, hiệu quả để tự động hóa các tác vụ suy luận phức tạp với chi phí thấp hơn nhiều so với mô hình lớn. Khi lĩnh vực AI tiếp tục phát triển, những nguyên lý TRM đã chứng minh—tối giản, cải thiện lặp lại, thiết kế kiến trúc hiệu quả—sẽ ngày càng quan trọng trong phát triển thế hệ AI tiếp theo.

Câu hỏi thường gặp

Mô hình Đệ quy Nhỏ (TRM) là gì?

Tiny Recursive Model là một mạng nơ-ron với chỉ 7 triệu tham số, sử dụng suy luận phân cấp đệ quy và giám sát sâu để đạt hiệu suất vượt trội trên các tác vụ suy luận phức tạp so với các mô hình lớn hơn nhiều như Gemini 2.5 Pro và DeepSeek.

TRM vượt trội hơn các mô hình lớn như thế nào?

TRM sử dụng một cách tiếp cận mới kết hợp suy luận đệ quy (lặp lại nhiều bước cải thiện) và giám sát sâu (truyền đặc trưng học được giữa các bước). Điều này cho phép mô hình nhỏ có thể suy nghĩ lặp đi lặp lại về vấn đề, giống như cách con người suy luận, thay vì dự đoán câu trả lời chỉ trong một lần.

Các chỉ số hiệu suất trên bộ đánh giá ARC AGI như thế nào?

TRM đạt 45% độ chính xác trên ARC AGI 1 và 8% trên ARC AGI 2, vượt qua Gemini 2.5 Pro (4.9%), DeepSeek R1 và Claude 3.7, trong khi chỉ sử dụng chưa đến 0,01% số tham số của họ.

Tại sao suy luận đệ quy hiệu quả hơn chain-of-thought?

Suy luận đệ quy cho phép mô hình liên tục điều chỉnh đáp án bằng cách duy trì hai thông tin chính: phỏng đoán hiện tại và dấu vết suy luận. Điều này tạo ra một vòng lặp phản hồi, giúp mô hình tự đánh giá và sửa đáp án nhiều lần, tương tự như cách con người giải quyết các vấn đề phức tạp qua thử - sai và cải tiến.

Giám sát sâu đóng góp như thế nào vào hiệu suất?

Giám sát sâu cải thiện độ chính xác bằng cách cung cấp tín hiệu giám sát tại nhiều bước trong quá trình suy luận. Không chỉ kiểm tra đáp án cuối cùng, mô hình còn nhận phản hồi ở từng bước trung gian, giúp tăng gấp đôi độ chính xác từ 19% lên 39% trong các thử nghiệm ban đầu.

Arshia là Kỹ sư Quy trình AI tại FlowHunt. Với nền tảng về khoa học máy tính và niềm đam mê AI, anh chuyên tạo ra các quy trình hiệu quả tích hợp công cụ AI vào các nhiệm vụ hàng ngày, nâng cao năng suất và sự sáng tạo.

Arshia Kahani
Arshia Kahani
Kỹ sư Quy trình AI

Tự động hóa quy trình AI với FlowHunt

Xây dựng luồng tự động hóa thông minh ứng dụng các mô hình AI tiên tiến và kỹ thuật suy luận để giải quyết bài toán phức tạp một cách hiệu quả.

Tìm hiểu thêm

OpenAI O3 Mini AI Agent: Một Mô Hình AI Nhỏ Gọn Nhưng Mạnh Mẽ
OpenAI O3 Mini AI Agent: Một Mô Hình AI Nhỏ Gọn Nhưng Mạnh Mẽ

OpenAI O3 Mini AI Agent: Một Mô Hình AI Nhỏ Gọn Nhưng Mạnh Mẽ

OpenAI O3 Mini có phải là công cụ AI phù hợp với bạn không? Chúng tôi đã thử nghiệm với tạo nội dung, tính toán và nhiều hơn nữa. Xem cách mô hình này cân bằng ...

9 phút đọc
OpenAI AI Model +3
LG EXAONE Deep vs DeepSeek R1: So sánh các mô hình AI suy luận
LG EXAONE Deep vs DeepSeek R1: So sánh các mô hình AI suy luận

LG EXAONE Deep vs DeepSeek R1: So sánh các mô hình AI suy luận

Phân tích chuyên sâu về mô hình suy luận EXAONE Deep 32B của LG được kiểm tra đối đầu với DeepSeek R1 và QwQ của Alibaba, xem xét các tuyên bố về hiệu suất vượt...

18 phút đọc
AI Models LLM Testing +3
So sánh OpenAI O3 Mini và DeepSeek cho Tác vụ Agentic
So sánh OpenAI O3 Mini và DeepSeek cho Tác vụ Agentic

So sánh OpenAI O3 Mini và DeepSeek cho Tác vụ Agentic

So sánh OpenAI O3 Mini và DeepSeek về nhiệm vụ lập luận, chiến lược cờ vua và sử dụng công cụ agentic. Xem mô hình AI nào vượt trội về độ chính xác, giá thành v...

10 phút đọc
AI Models OpenAI +5