"Chính xác thì ảo giác trong mô hình ngôn ngữ là gì?"

"Ảo giác xảy ra khi mô hình ngôn ngữ tạo ra thông tin nghe có vẻ hợp lý nhưng thực tế lại sai hoàn toàn với mức độ tự tin cao. Ví dụ, mô hình có thể tự tin đưa ra một ngày sinh không đúng hoặc bịa ra những thông tin chưa từng xuất hiện trong dữ liệu đào tạo. Những ảo giác này đặc biệt nguy hiểm vì mô hình trình bày chúng như sự thật, khiến người dùng khó nhận biết đâu là sai sót."

"Tại sao các mô hình ngôn ngữ lại thích đoán hơn là nói 'Tôi không biết'?"

"Các mô hình ngôn ngữ được đào tạo dựa trên các tiêu chí đánh giá thưởng cho câu trả lời đúng và phạt câu trả lời sai, nhưng thường không chấm điểm cho việc bỏ qua hoặc nói 'Tôi không biết'. Điều này tạo ra một động lực giống như các kỳ thi trắc nghiệm, nơi việc đoán có 25% khả năng đúng, còn bỏ trống chắc chắn không có điểm. Các mô hình học được rằng đưa ra một câu trả lời cụ thể, tự tin—even nếu sai—vẫn tốt hơn là thể hiện sự không chắc chắn."

"Có thể loại bỏ hoàn toàn ảo giác không?"

"Theo nghiên cứu của OpenAI, ảo giác là điều không thể tránh khỏi với các mô hình gốc, nhưng có thể giảm đáng kể thông qua đào tạo và thiết kế đánh giá hợp lý sau đào tạo. Giải pháp bao gồm thiết lập ngưỡng tự tin, thưởng cho mô hình khi bỏ qua nếu không chắc chắn, và cập nhật thang điểm để ghi nhận các câu trả lời 'Tôi không biết'. Tuy nhiên, việc loại bỏ hoàn toàn đòi hỏi phải thay đổi toàn diện cách đào tạo và đánh giá mô hình."

"Học tăng cường góp phần vào ảo giác như thế nào?"

"Học tăng cường trong giai đoạn hậu đào tạo thực tế có thể khiến các mô hình trở nên tự tin hơn nhưng lại kém chính xác hơn. Nghiên cứu cho thấy trong khi mô hình gốc có thể hiệu chuẩn tốt (độ tự tin phù hợp với độ chính xác), học tăng cường thường làm chúng trở nên quá tự tin. Một mô hình có thể tuyên bố tự tin 80% nhưng thực tế chỉ đúng 45%, đẩy mô hình tránh thể hiện sự không chắc chắn và hướng đến các câu trả lời quyết đoán nhưng kém đáng tin cậy hơn."

"Các thang điểm đánh giá đóng vai trò gì trong việc tạo ra ảo giác?"

"Các thang điểm hiện tại như GPQA, MMLU Pro và Math sử dụng hệ thống chấm điểm nhị phân, không thưởng điểm cho câu trả lời 'Tôi không biết'. Điều này lặp lại vấn đề trong đào tạo—mô hình học được rằng chiến lược tốt nhất là luôn trả lời thay vì thừa nhận không biết. Các thang điểm như WildBench có ghi nhận trường hợp bỏ qua cho kết quả tốt hơn, cho thấy việc cập nhật tiêu chí đánh giá là rất quan trọng để giảm ảo giác."

Tại Sao Các Mô Hình Ngôn Ngữ Bị Ảo Giác? Nghiên Cứu Từ OpenAI

Khám phá cách nghiên cứu mới nhất của OpenAI xác định nguyên nhân khiến các mô hình ngôn ngữ tạo ra thông tin sai lệch nhưng rất tự tin. Tìm hiểu nguyên nhân gốc rễ và các giải pháp thực tế để giảm ảo giác trong hệ thống AI.

AI Language Models Machine Learning Research

Dùng thử ngay Đặt lịch Demo

Giới thiệu

Các mô hình ngôn ngữ ngày càng mạnh mẽ, nhưng vẫn tồn tại một nhược điểm quan trọng: hiện tượng ảo giác. Đây là những phát biểu nghe rất hợp lý, tự tin nhưng lại hoàn toàn sai sự thật. Bài báo khoa học mới đây của OpenAI, “Tại Sao Các Mô Hình Ngôn Ngữ Bị Ảo Giác”, cung cấp cái nhìn đột phá về nguyên nhân gốc rễ của hiện tượng này và đưa ra các giải pháp thực tiễn. Ảo giác không chỉ là lỗi ngẫu nhiên hoặc sai sót không tránh khỏi, mà thực tế lại nằm ngay trong cách chúng ta xây dựng và huấn luyện các mô hình ngôn ngữ hiện đại. Việc hiểu rõ nghiên cứu này là điều tối quan trọng với bất kỳ ai làm việc cùng hệ thống AI, bởi nó cho thấy ảo giác không đơn thuần là vấn đề kỹ thuật—mà là vấn đề hệ thống bắt nguồn từ cách huấn luyện, đánh giá và tạo động lực cho mô hình. Bài viết này sẽ tóm tắt các phát hiện chính của bài báo và phân tích ý nghĩa của chúng đối với tương lai của AI đáng tin cậy.

Hiểu Về Ảo Giác Của Mô Hình Ngôn Ngữ: Vấn Đề Độ Tự Tin

Các mô hình ngôn ngữ được biết đến với khả năng tạo ra những gì các nhà nghiên cứu gọi là “thông tin sai nhưng nghe hợp lý”—tức là các phát biểu nghe rất hợp lý, nói với độ tự tin cao nhưng thực tế lại sai. Điều này hoàn toàn khác với việc chỉ đơn giản mắc lỗi. Một mô hình nói “Tôi không chắc chắn” khi không biết rõ sẽ rất khác với mô hình tự tin phát biểu điều sai. Vấn đề là, khi mô hình tự tin nhưng lại trả lời sai, chúng ta cực kỳ khó có thể tin tưởng vào mô hình đó trong bất kỳ bối cảnh nào. Người dùng không dễ dàng phân biệt đâu là thông tin đúng và đâu là ảo giác, làm giảm giá trị ứng dụng của toàn bộ hệ thống. Điều này đặc biệt nguy hiểm với các ứng dụng quan trọng như chẩn đoán y khoa, nghiên cứu pháp lý hoặc phân tích tài chính, nơi thông tin sai lầm nhưng tự tin có thể gây ra hậu quả nghiêm trọng. Thách thức không chỉ nằm ở việc mô hình đôi khi trả lời sai—mà là nó trả lời sai với sự tự tin tuyệt đối.

Nguồn gốc của vấn đề này nằm ở việc hiểu ảo giác xuất hiện ở đâu trong quá trình phát triển mô hình. Dù dễ cho rằng ảo giác chủ yếu đến từ lỗi trong dữ liệu đào tạo, thực tế lại phức tạp và cơ bản hơn nhiều. Kể cả khi bạn có thể tạo ra một bộ dữ liệu hoàn hảo không hề có lỗi—điều này về lý thuyết là bất khả thi—ảo giác vẫn sẽ xảy ra. Nguyên nhân không chỉ nằm ở những gì mô hình học được từ dữ liệu, mà còn ở cách mô hình được huấn luyện để hành xử và mục tiêu tối ưu mà nó hướng tới. Chính quá trình huấn luyện, thông qua các cơ chế phản hồi và cấu trúc thưởng-phạt, đã chủ động khuyến khích hành vi dẫn đến ảo giác.

Vấn Đề Dữ Liệu Đào Tạo: Vì Sao Dữ Liệu Hoàn Hảo Vẫn Không Đủ

Khi các mô hình ngôn ngữ được huấn luyện, chúng học từ khối lượng văn bản khổng lồ không thể tránh khỏi lỗi, thiếu chính xác và cả những nửa sự thật. Một mô hình học từ Wikipedia, sách, bài báo và nội dung web sẽ tiếp thu không chỉ thông tin đúng mà cả những sai sót, quan niệm sai lầm, và thông tin bịa đặt có trong nguồn đó. Nếu 20% thông tin về ngày sinh chỉ xuất hiện một lần trong dữ liệu, thì mô hình sẽ ảo giác khoảng 20% các truy vấn liên quan vì nó không học đủ chắc chắn để trả lời chính xác. Đây là một trong những nguyên nhân gây ảo giác, nhưng chưa phải là nguyên nhân chính.

Vấn đề lớn hơn nằm ở chỗ, ngay cả với dữ liệu đào tạo không có lỗi, các mục tiêu tối ưu hóa trong huấn luyện mô hình ngôn ngữ vẫn dẫn đến ảo giác. Đây là một phát hiện then chốt làm thay đổi cách chúng ta nhìn nhận vấn đề. Các mục tiêu huấn luyện—cách mô hình được chấm điểm tốt/xấu—vốn không phù hợp với mục tiêu giảm ảo giác. Trong quá trình huấn luyện, các mô hình học cách tối ưu cho các chỉ số và tín hiệu thưởng cụ thể, mà những tín hiệu này thường khuyến khích đoán tự tin hơn là thể hiện sự không chắc chắn. Mô hình học được rằng đưa ra một câu trả lời cụ thể, tự tin sẽ được thưởng cao hơn là thừa nhận không biết. Điều này tạo ra một cấu trúc động lực ngược, nơi ảo giác trở thành chiến lược hợp lý từ góc nhìn của mô hình.

Sự Bất Cân Xứng Giữa Sinh Tạo và Thẩm Định

Một trong những phát hiện quan trọng nhất từ nghiên cứu của OpenAI là: việc tạo ra câu trả lời đúng khó hơn nhiều so với việc thẩm định xem câu trả lời đó có đúng không. Sự bất cân xứng này là then chốt để hiểu vì sao ảo giác xuất hiện. Khi bạn được yêu cầu thẩm định một đáp án—xác định nó đúng hay sai—bạn thực hiện một nhiệm vụ đơn giản hơn nhiều. Bạn có thể kiểm tra thông tin, tìm mâu thuẫn, và đánh giá sự nhất quán. Nhưng khi phải tự tạo ra câu trả lời từ đầu, bạn không chỉ phải tìm ra đáp án đúng mà còn phải tránh tất cả những đáp án sai, mà số đáp án sai lúc nào cũng nhiều hơn đúng rất nhiều. Điều này khiến việc sinh tạo luôn khó hơn thẩm định.

Sự bất cân xứng này giải thích vì sao nhiều AI cùng phối hợp thường cho kết quả tốt hơn một AI hoạt động đơn lẻ. Khi một tác nhân AI kiểm tra đầu ra của tác nhân khác, nó thực hiện nhiệm vụ thẩm định—dễ và đáng tin cậy hơn sinh tạo. Đây cũng là lý do người dùng nhận thấy khi bảo mô hình “Không đúng đâu. Sửa lại đi,” mô hình thường trả lời đúng hơn. Lúc đó, mô hình chuyển sang chế độ thẩm định—kiểm tra đáp án trước và đưa ra thay thế—thay vì tự nghĩ ra từ đầu. Phát hiện này có ý nghĩa lớn trong việc thiết kế hệ thống AI và cải thiện độ tin cậy của chúng.

So Sánh Với Kỳ Thi Trắc Nghiệm: Vì Sao Mô Hình Thích Đoán

Bài báo sử dụng một phép so sánh thuyết phục: hành vi của mô hình ngôn ngữ giống như cách học sinh làm bài trắc nghiệm khi không chắc chắn. Ở một bài thi 4 lựa chọn, nếu không biết đáp án, bạn đoán vẫn có 25% cơ hội đúng. Nhưng nếu bỏ trống—tức là nói “Tôi không biết”—chắc chắn bạn không có điểm. Với hệ thống chấm điểm nhị phân (đúng: 1 điểm, bỏ trống/sai: 0 điểm), đoán giúp tối đa hóa điểm số kỳ vọng. Đó chính là điều mà các mô hình ngôn ngữ học được khi huấn luyện.

Khi không chắc chắn, mô hình học cách “đánh liều”—đưa ra đáp án cụ thể, tự tin hơn là thừa nhận không biết. Đáng nói, những lần “đánh liều” này thường rất cụ thể thay vì mơ hồ. Mô hình sẽ trả lời “30 tháng 9” thay vì “khoảng mùa thu” khi không biết chắc ngày tháng. Sự cụ thể này thực chất là một dạng ảo giác vì nó thể hiện sự tự tin sai lệch. Mô hình học rằng trả lời cụ thể, tự tin sẽ được thưởng nhiều hơn là né tránh hoặc thể hiện không chắc chắn. Hành vi này càng được củng cố bởi các thang điểm đánh giá hiệu suất mô hình. Phần lớn các benchmark hiện nay như GPQA, MMLU Pro, Math đều dùng chấm điểm nhị phân như các kỳ thi người thật. Chúng thưởng cho trả lời đúng, phạt trả lời sai, nhưng không thưởng cho bỏ qua hoặc thể hiện không biết. Chỉ những thang điểm như WildBench mới có thưởng cho đáp án “Tôi không biết”, và đặc biệt mô hình cho kết quả khác biệt trên các benchmark này.

Học Tăng Cường Làm Gia Tăng Ảo Giác

Giai đoạn hậu đào tạo, nơi mô hình được tinh chỉnh qua học tăng cường và các kỹ thuật khác, vốn dĩ để giảm ảo giác. Tuy nhiên, nghiên cứu cho thấy học tăng cường thực tế có thể đẩy mô hình đi sai hướng. Trong hậu đào tạo, mô hình thường được thưởng cho sự hữu ích, quyết đoán và tự tin. Đây là những phẩm chất tốt trong nhiều tình huống, nhưng lại có thể làm giảm độ chính xác và hiệu chuẩn. Hiệu chuẩn ở đây là sự phù hợp giữa độ tự tin và tỷ lệ chính xác thực tế. Một mô hình hiệu chuẩn tốt tuyên bố tự tin 70% thì cũng đúng khoảng 70% trường hợp. Nếu tự tin 80% thì cũng đúng 80% số lần.

Nhưng khi qua học tăng cường, hiệu chuẩn này bị phá vỡ. Mô hình gốc có thể khá hiệu chuẩn, độ tự tin khớp với tỷ lệ đúng thực tế. Nhưng sau học tăng cường, mô hình trở nên quá tự tin. Nó có thể tuyên bố tự tin 80% nhưng thực ra chỉ đúng 45%. Nguyên do vì học tăng cường ép mô hình trở nên hữu ích và quyết đoán hơn, đồng nghĩa với việc thể hiện tự tin nhiều hơn mức nên có. Mô hình học được rằng thể hiện không chắc chắn bị phạt, còn trả lời tự tin—even nếu sai—vẫn được thưởng. Đây là vấn đề căn bản trong cách chúng ta huấn luyện mô hình ngôn ngữ hiện nay và cần thay đổi toàn diện mới khắc phục được.

Vai Trò Của Thang Điểm Đánh Giá Trong Việc Duy Trì Ảo Giác

Vấn đề ảo giác không chỉ xuất phát từ đào tạo mà còn từ khâu đánh giá. Các benchmark dùng để đo hiệu suất mô hình thường củng cố chính những hành vi dẫn đến ảo giác. Khi xem xét các benchmark lớn—GPQA, MMLU Pro, Wildbench, Math, SWEBench—gần như tất cả đều dùng chấm điểm nhị phân. Hoặc cho điểm tối đa nếu đúng, hoặc không điểm nếu sai. Quan trọng hơn, chúng hầu như không cho điểm các trường hợp bỏ qua hay nói “Tôi không biết”. Điều này tạo ra sự lệch pha giữa cái chúng ta đo lường và cái chúng ta thực sự mong muốn mô hình làm.

Benchmark duy nhất không dùng chấm điểm nhị phân tuyệt đối và có ghi nhận đáp án “Tôi không biết” là WildBench. Sự khác biệt này rất lớn, bởi nó có nghĩa là mô hình được đánh giá trên tiêu chí không phạt sự không chắc chắn. Khi mô hình được huấn luyện và đánh giá trên các chỉ số thưởng cho trả lời tự tin hơn là thể hiện không biết, chúng sẽ ưu tiên sự tự tin hơn độ chính xác. Đây là vấn đề hệ thống ảnh hưởng tới toàn bộ lĩnh vực. Những người xây dựng benchmark, phát triển mô hình, và các nhà nghiên cứu đều góp phần khiến vấn đề này tồn tại bằng cách dùng tiêu chí đánh giá không thưởng đúng cho việc bỏ qua. Giải pháp đòi hỏi sự phối hợp toàn ngành để cập nhật benchmark và thực hành đánh giá.

Cách Tiếp Cận Của FlowHunt Cho Tự Động Hóa AI Đáng Tin Cậy

Khi xây dựng quy trình và hệ thống tự động hóa dựa trên AI, độ tin cậy là yếu tố then chốt. FlowHunt nhận ra rằng ảo giác và sự không chắc chắn của mô hình là thách thức cần giải quyết ở cấp hệ thống. Thay vì chỉ dựa vào đầu ra của một mô hình duy nhất, kiến trúc của FlowHunt tích hợp nhiều lớp thẩm định và ngưỡng tự tin. Cách tiếp cận này phản ánh phát hiện nghiên cứu rằng thẩm định dễ và đáng tin cậy hơn sinh tạo. Bằng việc thiết kế hệ thống để các tác nhân AI kiểm tra lẫn nhau, FlowHunt giảm khả năng ảo giác lan rộng trong các quy trình tự động.

Bên cạnh đó, nền tảng FlowHunt cho phép người dùng thiết lập ngưỡng tự tin cho từng loại nhiệm vụ. Đối với tạo nội dung, nghiên cứu và phân tích, người dùng có thể chỉ định hệ thống chỉ tiếp tục với kết quả đáp ứng ngưỡng tự tin nhất định, hoặc đánh dấu các đầu ra không chắc chắn để con người kiểm tra lại. Điều này phù hợp với khuyến nghị nghiên cứu rằng mô hình nên bỏ qua khi độ tự tin thấp hơn ngưỡng nhất định. Khi tích hợp các nguyên tắc này vào nền tảng, FlowHunt giúp tổ chức xây dựng quy trình AI đáng tin cậy, không chỉ tối đa hóa đầu ra mà còn tối đa hóa độ tin cậy của đầu ra.

Giải Pháp: Ngưỡng Tự Tin và Thưởng Cho Việc Bỏ Qua

Nghiên cứu của OpenAI đề xuất một giải pháp đơn giản nhưng mạnh mẽ cho vấn đề ảo giác: thiết lập ngưỡng tự tin và thưởng cho mô hình khi bỏ qua nếu không chắc chắn. Thay vì ép mô hình lúc nào cũng phải trả lời, giải pháp là chấp nhận—thậm chí thưởng—cho mô hình nói “Tôi không biết”. Điều này cần sự thay đổi ở nhiều cấp độ: trong cách huấn luyện mô hình, cách đánh giá, và cách thiết kế hệ thống sử dụng AI.

Việc triển khai giải pháp này rất đơn giản. Trong hậu đào tạo, mô hình có thể được huấn luyện chỉ trả lời khi độ tự tin vượt qua một ngưỡng nhất định, ví dụ 75%. Dưới ngưỡng này, nên trả lời “Tôi không biết” hoặc thể hiện sự không chắc chắn. Điều này có thể được củng cố qua tín hiệu thưởng trong học tăng cường. Thay vì hệ thống nhị phân hiện tại (trả lời đúng: +1, trả lời sai: 0), hệ thống tốt hơn sẽ là đúng: +1, “Tôi không biết”: 0, sai: -1. Như vậy, trả lời đúng vẫn được thưởng, sai bị phạt nặng hơn bỏ qua, còn bỏ qua là trung lập.

Quan trọng là giải pháp này không đòi hỏi dữ liệu hay mô hình hoàn hảo. Nó hiệu quả vì tạo động lực phù hợp với điều chúng ta mong muốn: thông tin đáng tin khi mô hình tự tin, và sự thành thật khi không chắc chắn. Mô hình học được rằng chiến lược tốt nhất không phải là đánh liều hoặc ảo giác; mà là cung cấp thông tin chính xác khi có thể và thừa nhận không biết khi cần thiết. Đây là hành vi trung thực và hữu ích hơn nhiều so với cách làm hiện nay.

Cải Cách Benchmark: Mảnh Ghép Còn Thiếu

Để giải pháp này hiệu quả ở quy mô lớn, các benchmark cần được cập nhật để ghi nhận việc bỏ qua. Nếu mô hình được huấn luyện để bỏ qua khi không chắc chắn, nhưng lại bị đánh giá trên thang điểm phạt bỏ qua, thì chúng sẽ bỏ qua huấn luyện và quay lại chiến lược đoán liều. Do đó, cải cách benchmark là điều tối quan trọng. Người xây dựng benchmark nên áp dụng hệ thống chấm điểm thưởng cho trả lời đúng, ghi nhận trung lập hoặc tích cực cho “Tôi không biết”, và phạt trả lời sai. Có thể áp dụng: đúng +1, “Tôi không biết” 0, sai -1.

Tin vui là thay đổi này đã bắt đầu xuất hiện. Theo các báo cáo, GPT-5 đang thử nghiệm hành vi này. Khi gặp câu hỏi không chắc chắn, GPT-5 đôi khi sẽ trả lời “Tôi không biết” sau khi suy nghĩ, thay vì cố đưa ra một đáp án tự tin nhưng có thể sai. Đây là sự chuyển dịch về cách huấn luyện mô hình và các hành vi được thưởng. Khi nhiều mô hình áp dụng cách này và nhiều benchmark được cập nhật theo hướng ghi nhận bỏ qua, chúng ta sẽ chứng kiến sự giảm mạnh ảo giác trên diện rộng.

Ảnh Hưởng Thực Tế và Phản Ứng Ngành

Ảnh hưởng của nghiên cứu này vượt xa phạm vi hàn lâm. Trong thực tế, ảo giác gây ra hậu quả nghiêm trọng. Một mô hình tự tin đưa ra thông tin y khoa, pháp lý hoặc tài chính sai có thể gây nguy hiểm thực sự. Khi hiểu rằng ảo giác không phải là điều tất yếu mà là hệ quả của cách huấn luyện và đánh giá cụ thể, ngành AI có thể thay đổi mục tiêu để giảm bớt vấn đề. Nghiên cứu này cung cấp lộ trình cho sự thay đổi đó.

Phản ứng từ các phòng thí nghiệm AI lớn rất tích cực. Anthropic, trong nghiên cứu riêng về cách mô hình ngôn ngữ hoạt động nội tại, cũng xác định được vấn đề tương tự và đề xuất giải pháp bổ sung. Họ nhận thấy mô hình có “quán tính” hướng đến việc trả lời đầy đủ, tự tin—even khi không chắc chắn. Quán tính này nằm trong cấu trúc và quy trình huấn luyện mô hình. Khi hiểu được điều này, các nhà nghiên cứu có thể thiết kế giải pháp khắc chế và khuyến khích thể hiện sự không chắc chắn một cách trung thực. Sự hội tụ của nhiều nhóm nghiên cứu trên vấn đề này cho thấy ngành đang dần đạt được đồng thuận về cả vấn đề lẫn hướng giải quyết.

Tăng Tốc Quy Trình Làm Việc Cùng FlowHunt

Trải nghiệm FlowHunt tự động hóa quy trình AI và SEO—từ nghiên cứu, tạo nội dung đến xuất bản và phân tích—tất cả trong một nơi. Xây dựng tự động hóa AI đáng tin cậy, kiểm soát ảo giác nhờ hiệu chuẩn tự tin tích hợp.

Get started Tìm hiểu thêm

Hiệu Chuẩn Hành Vi: Đo Lường Điều Thực Sự Quan Trọng

Không chỉ dừng lại ở việc thiết lập ngưỡng tự tin, nghiên cứu còn đưa ra khái niệm hiệu chuẩn hành vi. Điều này vượt lên trên việc kiểm tra xác suất đầu ra của mô hình. Hiệu chuẩn hành vi là kiểm tra xem độ tự tin mà mô hình tuyên bố có thực sự phù hợp với tỷ lệ trả lời đúng của nó hay không. Ở mức tự tin 50%, mô hình có đúng 50% số lần không? Ở 90%, có đúng 90% không? Đây là cách xác định mô hình có hành xử trung thực, đáng tin hay không.

Đánh giá hiệu chuẩn hành vi đòi hỏi cách tiếp cận khác với benchmark truyền thống. Thay vì chỉ đo tổng tỷ lệ chính xác, cần đo tỷ lệ đúng ở các mức tự tin khác nhau. Điều này sẽ chỉ ra mô hình có hiệu chuẩn tốt hay chỉ là quá tự tin. Một mô hình có thể chính xác tổng thể cao nhưng hiệu chuẩn kém, nghĩa là độ tự tin không khớp với thực tế. Ngược lại, một mô hình tổng thể chính xác thấp hơn nhưng hiệu chuẩn tốt lại hữu ích hơn, vì bạn biết khi nào nên tin và khi nào cần kiểm tra lại hoặc nhờ con người đánh giá.

Định Hướng Tương Lai: Cần Sự Thay Đổi Hệ Thống

Giải quyết vấn đề ảo giác đòi hỏi thay đổi ở nhiều cấp độ trong quy trình phát triển AI. Thứ nhất, các nhà phát triển mô hình cần triển khai ngưỡng tự tin và thưởng cho việc bỏ qua trong quá trình huấn luyện và hậu huấn luyện. Thứ hai, những người xây dựng benchmark cần cập nhật tiêu chí đánh giá để ghi nhận câu trả lời “Tôi không biết” cũng như đo hiệu chuẩn hành vi. Thứ ba, các tổ chức triển khai AI cần thiết kế quy trình tích hợp bước thẩm định và đánh giá của con người với các đầu ra không chắc chắn. Thứ tư, người dùng AI cần hiểu rằng mô hình thể hiện sự không chắc chắn là tính năng, không phải lỗi, và nên được trân trọng.

Đây không phải là vấn đề mà một cá nhân hay tổ chức có thể tự mình giải quyết. Cần sự phối hợp và đồng thuận giữa các nhà phát triển mô hình, nhà nghiên cứu, người xây dựng benchmark và người dùng. Tin vui là giải pháp khá rõ ràng và không đòi hỏi đột phá về kiến trúc AI hay phương pháp huấn luyện. Chủ yếu là việc căn chỉnh động lực và tiêu chí đánh giá với điều chúng ta thực sự mong muốn: hệ thống AI trung thực, đáng tin và biết giới hạn của mình.

Khi ngành AI áp dụng rộng rãi các thực hành này, chúng ta sẽ thấy sự cải thiện đáng kể trong độ tin cậy của các mô hình ngôn ngữ.

Kết Luận

Nghiên cứu của OpenAI về lý do các mô hình ngôn ngữ bị ảo giác cho thấy vấn đề không phải là điều không thể tránh khỏi, mà là hệ quả trực tiếp của các thực hành huấn luyện và đánh giá khuyến khích đoán tự tin thay vì thể hiện không chắc chắn. Ảo giác xuất hiện vì mô hình được huấn luyện và đánh giá trên tiêu chí thưởng cho câu trả lời đúng, và phạt cả trả lời sai lẫn bỏ qua như nhau, tạo động lực cho việc “đánh liều” khi không chắc chắn. Giải pháp là áp dụng ngưỡng tự tin, thưởng cho mô hình khi nói “Tôi không biết”, và cập nhật benchmark để ghi nhận việc bỏ qua. Sự thay đổi hệ thống này, đã bắt đầu xuất hiện ở các mô hình như GPT-5, đánh dấu sự chuyển dịch căn bản trong cách tiếp cận độ tin cậy của AI. Khi căn chỉnh động lực mô hình với điều chúng ta mong muốn—thông tin đáng tin khi tự tin, thể hiện không biết khi cần thiết—chúng ta có thể giảm mạnh ảo giác và xây dựng hệ thống AI đáng tin cậy hơn.

Câu hỏi thường gặp

Chính xác thì ảo giác trong mô hình ngôn ngữ là gì?: Ảo giác xảy ra khi mô hình ngôn ngữ tạo ra thông tin nghe có vẻ hợp lý nhưng thực tế lại sai hoàn toàn với mức độ tự tin cao. Ví dụ, mô hình có thể tự tin đưa ra một ngày sinh không đúng hoặc bịa ra những thông tin chưa từng xuất hiện trong dữ liệu đào tạo. Những ảo giác này đặc biệt nguy hiểm vì mô hình trình bày chúng như sự thật, khiến người dùng khó nhận biết đâu là sai sót.
Tại sao các mô hình ngôn ngữ lại thích đoán hơn là nói 'Tôi không biết'?: Các mô hình ngôn ngữ được đào tạo dựa trên các tiêu chí đánh giá thưởng cho câu trả lời đúng và phạt câu trả lời sai, nhưng thường không chấm điểm cho việc bỏ qua hoặc nói 'Tôi không biết'. Điều này tạo ra một động lực giống như các kỳ thi trắc nghiệm, nơi việc đoán có 25% khả năng đúng, còn bỏ trống chắc chắn không có điểm. Các mô hình học được rằng đưa ra một câu trả lời cụ thể, tự tin—even nếu sai—vẫn tốt hơn là thể hiện sự không chắc chắn.
Có thể loại bỏ hoàn toàn ảo giác không?: Theo nghiên cứu của OpenAI, ảo giác là điều không thể tránh khỏi với các mô hình gốc, nhưng có thể giảm đáng kể thông qua đào tạo và thiết kế đánh giá hợp lý sau đào tạo. Giải pháp bao gồm thiết lập ngưỡng tự tin, thưởng cho mô hình khi bỏ qua nếu không chắc chắn, và cập nhật thang điểm để ghi nhận các câu trả lời 'Tôi không biết'. Tuy nhiên, việc loại bỏ hoàn toàn đòi hỏi phải thay đổi toàn diện cách đào tạo và đánh giá mô hình.
Học tăng cường góp phần vào ảo giác như thế nào?: Học tăng cường trong giai đoạn hậu đào tạo thực tế có thể khiến các mô hình trở nên tự tin hơn nhưng lại kém chính xác hơn. Nghiên cứu cho thấy trong khi mô hình gốc có thể hiệu chuẩn tốt (độ tự tin phù hợp với độ chính xác), học tăng cường thường làm chúng trở nên quá tự tin. Một mô hình có thể tuyên bố tự tin 80% nhưng thực tế chỉ đúng 45%, đẩy mô hình tránh thể hiện sự không chắc chắn và hướng đến các câu trả lời quyết đoán nhưng kém đáng tin cậy hơn.
Các thang điểm đánh giá đóng vai trò gì trong việc tạo ra ảo giác?: Các thang điểm hiện tại như GPQA, MMLU Pro và Math sử dụng hệ thống chấm điểm nhị phân, không thưởng điểm cho câu trả lời 'Tôi không biết'. Điều này lặp lại vấn đề trong đào tạo—mô hình học được rằng chiến lược tốt nhất là luôn trả lời thay vì thừa nhận không biết. Các thang điểm như WildBench có ghi nhận trường hợp bỏ qua cho kết quả tốt hơn, cho thấy việc cập nhật tiêu chí đánh giá là rất quan trọng để giảm ảo giác.

Tối Ưu Quy Trình AI Cùng FlowHunt

Xây dựng tự động hóa AI đáng tin cậy với hiệu chuẩn độ tự tin và xử lý lỗi thông minh được tích hợp sẵn.

Dùng thử ngay Đặt lịch Demo

Tìm hiểu thêm

Ảo giác

Ảo giác trong các mô hình ngôn ngữ xảy ra khi AI tạo ra văn bản có vẻ hợp lý nhưng thực chất lại sai hoặc bịa đặt. Tìm hiểu về nguyên nhân, phương pháp phát hiệ...

May 30, 2025 4 phút đọc

AI Hallucination +3

Hiểu và Phòng Ngừa Ảo giác trong Chatbot AI

Ảo giác trong AI là gì, vì sao chúng xảy ra và bạn có thể tránh như thế nào? Tìm hiểu cách giữ cho câu trả lời của chatbot AI chính xác với các chiến lược thực ...

Jul 24, 2025 6 phút đọc

Theory Intermediate

Đánh Bại Tính Không Xác Định trong LLM: Giải Quyết Khủng Hoảng Tái Lập Kết Quả của AI

Khám phá cách phòng thí nghiệm Thinking Machines Lab của Mira Murati giải quyết vấn đề không xác định trong các mô hình ngôn ngữ lớn, cho phép AI tạo ra kết quả...

Nov 4, 2025 18 phút đọc

AI LLMs +3