
Điểm số ROUGE
Điểm số ROUGE là tập hợp các chỉ số dùng để đánh giá chất lượng tóm tắt và dịch thuật do máy tạo ra bằng cách so sánh với các tham chiếu do con người viết. Được...
Điểm BLEU là chỉ số được sử dụng rộng rãi để đánh giá chất lượng bản dịch do máy tạo ra bằng cách so sánh với bản dịch của con người dựa trên n-grams, độ chính xác và hình phạt ngắn gọn.
Điểm BLEU, hay Bilingual Evaluation Understudy, là một chỉ số quan trọng trong việc đánh giá chất lượng văn bản do các hệ thống dịch máy tạo ra. Được IBM phát triển vào năm 2001, đây là một chỉ số tiên phong cho thấy sự tương quan mạnh mẽ với đánh giá chất lượng bản dịch của con người. Điểm BLEU vẫn là nền tảng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và được sử dụng rộng rãi để đánh giá các hệ thống dịch máy.
Về bản chất, điểm BLEU đo lường mức độ tương đồng giữa bản dịch do máy tạo ra với một hoặc nhiều bản dịch tham chiếu của con người. Bản dịch của máy càng gần với bản tham chiếu của con người thì điểm BLEU càng cao, với thang điểm từ 0 đến 1. Điểm gần 1 cho thấy mức độ tương đồng lớn, mặc dù điểm tuyệt đối 1 là rất hiếm và có thể biểu hiện hiện tượng quá khớp – điều này không lý tưởng.
N-gram là các chuỗi liên tiếp gồm ‘n’ phần tử từ một văn bản hoặc mẫu phát biểu, thường là từ. Trong BLEU, n-gram được sử dụng để so sánh bản dịch máy với bản dịch tham chiếu. Ví dụ, trong cụm từ “The cat is on the mat,” các n-gram bao gồm:
BLEU tính độ chính xác bằng các n-gram này để đánh giá mức độ trùng khớp giữa bản dịch ứng viên và bản dịch tham chiếu.
BLEU định nghĩa độ chính xác là tỷ lệ n-gram trong bản dịch ứng viên xuất hiện trong bản dịch tham chiếu. Để tránh khen thưởng việc lặp lại n-gram, BLEU sử dụng “độ chính xác điều chỉnh”, giới hạn số lần xuất hiện của mỗi n-gram trong bản dịch ứng viên bằng số lần xuất hiện tối đa của nó trong bất kỳ bản tham chiếu nào.
Hình phạt ngắn gọn rất quan trọng trong BLEU, nhằm phạt các bản dịch quá ngắn. Dịch ngắn có thể đạt độ chính xác cao bằng cách bỏ qua các phần văn bản không chắc chắn. Hình phạt này được tính dựa trên tỷ lệ độ dài giữa bản dịch ứng viên và bản dịch tham chiếu, đảm bảo bản dịch không quá ngắn hoặc quá dài so với tham chiếu.
BLEU tổng hợp các điểm chính xác trên các kích thước n-gram khác nhau (thường đến 4-gram) bằng trung bình hình học, giúp cân bằng giữa việc nắm bắt ngữ cảnh cục bộ và rộng hơn trong bản dịch.
Điểm BLEU được biểu diễn toán học như sau:
[ \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log(p_n)\right) ]
Trong đó:
BLEU chủ yếu được dùng để đánh giá các hệ thống dịch máy, cung cấp chỉ số định lượng để so sánh các hệ thống khác nhau và theo dõi sự cải tiến. Nó đặc biệt hữu ích trong nghiên cứu và phát triển để kiểm tra hiệu quả của các mô hình dịch thuật.
Ban đầu dành cho dịch thuật, BLEU cũng được áp dụng cho các nhiệm vụ NLP khác như tóm tắt văn bản và diễn đạt lại, nơi đòi hỏi tạo ra văn bản gần giống với tham chiếu của con người.
BLEU có thể đánh giá chất lượng phản hồi do mô hình AI tạo ra trong tự động hóa và chatbot, đảm bảo đầu ra mạch lạc và phù hợp với ngữ cảnh so với phản hồi của con người.
Dù được sử dụng rộng rãi, BLEU có các hạn chế:
Điểm BLEU (Bilingual Evaluation Understudy) là một chỉ số dùng để đánh giá chất lượng bản dịch do máy tạo ra bằng cách so sánh với một hoặc nhiều bản dịch tham chiếu của con người dựa trên trùng lặp n-gram, độ chính xác, hình phạt ngắn gọn và trung bình hình học.
Các thành phần quan trọng bao gồm n-gram, độ chính xác điều chỉnh, hình phạt ngắn gọn và trung bình hình học của các điểm chính xác trên các kích thước n-gram khác nhau.
BLEU tập trung vào sự tương đồng chuỗi ký tự và không xét đến ý nghĩa ngữ nghĩa, nhạy cảm với số lượng và chất lượng bản dịch tham chiếu, có thể cho điểm cao sai lệch đối với hệ thống quá khớp dữ liệu và không xử lý đầy đủ thứ tự từ sai.
Chatbot thông minh và các công cụ AI trong một nền tảng. Kết nối các khối trực quan để biến ý tưởng của bạn thành quy trình tự động.
Điểm số ROUGE là tập hợp các chỉ số dùng để đánh giá chất lượng tóm tắt và dịch thuật do máy tạo ra bằng cách so sánh với các tham chiếu do con người viết. Được...
Đánh giá độ dễ đọc của bất kỳ văn bản nào trong quy trình làm việc của bạn bằng thành phần Trình Đánh Giá Độ Dễ Đọc. Phân tích tức thì với các chỉ số đã được th...
Khung năng lực Lexile cho Đọc hiểu là một phương pháp khoa học để đo lường cả khả năng đọc của người đọc và độ phức tạp của văn bản trên cùng một thang phát tri...