Phương pháp luận
Chúng tôi đã kiểm tra 20 mô hình tác nhân AI khác nhau trên năm nhiệm vụ cốt lõi, mỗi nhiệm vụ nhằm kiểm tra các năng lực khác biệt:
- Tạo nội dung: Viết một bài chi tiết về các nguyên lý quản lý dự án.
- Giải quyết vấn đề: Tính toán liên quan đến doanh thu và lợi nhuận.
- Tóm tắt: Rút gọn những phát hiện chính từ một bài viết phức tạp.
- So sánh: Phân tích tác động môi trường của xe điện và xe chạy hydro.
- Viết sáng tạo: Sáng tác câu chuyện tương lai lấy đề tài về xe điện.
Phân tích tập trung cả vào chất lượng kết quả lẫn quá trình tư duy của tác nhân, đánh giá khả năng lập kế hoạch, lý luận, thích ứng và tận dụng công cụ sẵn có. Chúng tôi xếp hạng các mô hình dựa trên hiệu suất với vai trò tác nhân AI, trong đó quy trình tư duy và chiến lược được coi trọng hơn.
Hiệu suất mô hình tác nhân AI – Phân tích từng nhiệm vụ
Nhiệm vụ 1: Tạo nội dung
Cả 20 mô hình đều thể hiện khả năng tạo ra các bài viết chất lượng cao, nhiều thông tin. Tuy nhiên, bảng xếp hạng sau đây xem xét cả quy trình tư duy nội bộ và cách các tác nhân đi đến kết quả cuối cùng:
- Gemini 1.5 Pro: Hiểu rõ đề bài, tiếp cận nghiên cứu chiến lược và kết quả trình bày khoa học.
- Claude 3.5 Sonnet: Lập kế hoạch tốt cùng kết quả rõ ràng, ngắn gọn và dễ tiếp cận.
- Mistral 8x7B: Chọn công cụ hiệu quả, trình bày rõ ràng, cấu trúc tốt.
- Mistral 7B: Nghiên cứu chiến lược, kết quả cuối cùng trình bày hợp lý.
- GPT-4o AI Agent (Original): Giỏi lựa chọn công cụ và thể hiện khả năng nghiên cứu linh hoạt.
- Gemini 1.5 Flash 8B: Kết quả chất lượng cao nhưng thiếu minh bạch về quy trình nội bộ.
- Claude 3 Haiku: Thể hiện tốt, hiểu đề bài rõ ràng.
- GPT-4 Vision Preview AI Agent: Thể hiện tốt, kết quả chất lượng cao.
- GPT-o1 Mini AI Agent: Linh hoạt, lặp lại hợp lý, sử dụng công cụ tốt.
- Llama 3.2 3B: Viết sáng tạo, kết quả chi tiết, tuy nhiên không thể hiện quy trình nội bộ.
- Claude 3: Thể hiện cách tiếp cận lặp lại và thích ứng với chỉ dẫn, nhưng không trình bày tư duy nội bộ.
- Claude 2: Kỹ năng viết tốt, đồng thời thể hiện hiểu yêu cầu đề bài.
- GPT-3.5 Turbo AI Agent: Tuân thủ chỉ dẫn, định dạng chuẩn, nhưng thiếu quy trình nội bộ.
- Gemini 2.0 Flash Experimental: Kết quả tốt nhưng quy trình lặp lại.
- Grok Beta AI Agent: Sử dụng công cụ chiến lược nhưng gặp khó khăn với vòng lặp lặp lại.
- Gemini 1.5 Flash AI Agent: Tiếp cận logic nhưng tư duy lặp lại.
- Mistral Large AI Agent: Kết quả trình bày tốt nhưng tư duy nội bộ không minh bạch.
- o1 Preview AI Agent: Thể hiện tốt nhưng thiếu minh bạch về tư duy nội bộ.
- GPT 4o mini AI Agent: Kết quả tốt nhưng không thể hiện quy trình tư duy nội bộ.
- Llama 3.2 1B: Thực hiện tốt nhưng thiếu sâu sát quy trình nội bộ, không có cách tiếp cận độc đáo.
Nhiệm vụ 2: Giải quyết vấn đề và tính toán
Chúng tôi đánh giá khả năng toán học và chiến lược giải quyết vấn đề của các mô hình:
- Claude 3.5 Sonnet: Độ chính xác cao, tư duy chiến lược, giải thích rõ ràng.
- Mistral 7B: Giải pháp rõ ràng, chính xác, thể hiện tư duy chiến lược.
- GPT-4 Vision Preview AI Agent: Hiểu đúng đề bài, tính toán chuẩn xác.
- Claude 3 Haiku: Tính toán hiệu quả, giải thích mạch lạc.
- o1 Preview AI Agent: Có khả năng phân tích bài toán thành nhiều bước.
- Mistral Large AI Agent: Tính toán chính xác, trình bày kết quả tốt.
- o1 mini: Tư duy chiến lược, nắm chắc các kiến thức toán học cần thiết.
- Gemini 1.5 Pro: Tính toán chi tiết, chính xác và định dạng tốt.
- Llama 3.2 1B: Phân tích bài toán tốt, nhưng lỗi định dạng.
- GPT-4o AI Agent (Original): Hầu hết tính toán tốt, phân tích nhiệm vụ rõ ràng, hợp lý.
- GPT-4o Mini AI Agent: Thực hiện tính toán nhưng lỗi ở đáp án cuối, định dạng cũng chưa tốt.
- Claude 3: Tiếp cận bài toán rõ ràng nhưng chưa nổi bật hơn.
- Gemini 2.0 Flash Experimental: Tính toán cơ bản chuẩn xác nhưng lỗi ở kết quả cuối.
- GPT-3.5 Turbo AI Agent: Tính toán cơ bản chuẩn, nhưng còn vấn đề chiến lược và đáp án cuối chưa chính xác.
- Gemini 1.5 Flash AI Agent: Một số lỗi tính toán liên quan đến số lượng bổ sung.
- Mistral 8x7B: Chủ yếu tính toán chuẩn, nhưng chưa khai thác hết các phương án giải.
- Claude 2: Đầu bài toán đúng, nhưng chiến lược chưa tốt và lỗi ở đáp án cuối.
- Gemini 1.5 Flash 8B: Một số lỗi ở đáp án cuối.
- Grok Beta AI Agent: Không hoàn thành đầy đủ nhiệm vụ, thiếu kết quả hoàn chỉnh.
- Llama 3.2 3B: Lỗi tính toán, trình bày chưa hoàn thiện.
Nhiệm vụ 3: Tóm tắt
Chúng tôi đánh giá khả năng rút trích thông tin chính và tạo ra bản tóm tắt ngắn gọn của các mô hình:
- GPT-4o Mini AI Agent: Rất giỏi tóm tắt các ý chính, đồng thời tuân thủ giới hạn từ.
- Gemini 1.5 Pro: Tóm tắt tốt văn bản, tuân thủ yêu cầu về độ dài.
- o1 Preview AI Agent: Tóm tắt súc tích, cấu trúc tốt.
- Claude 3 Haiku: Tóm tắt hiệu quả, đúng yêu cầu đề ra.
- Mistral 7B: Tóm tắt chính xác, tuân thủ giới hạn từ.
- Mistral 8x7B: Cô đọng thông tin hiệu quả, tuân thủ đúng yêu cầu.
- GPT-4 Vision Preview AI Agent: Tóm tắt chính xác nội dung văn bản.
- GPT-3.5 Turbo AI Agent: Khả năng tóm tắt tốt, nêu bật các điểm quan trọng.
- Llama 3.2 1B: Tóm tắt ngắn gọn, cấu trúc hợp lý.
- Claude 3.5 Sonnet: Tóm tắt ngắn gọn, đồng thời giữ định dạng theo yêu cầu.
- Claude 2: Tóm tắt ngắn gọn, hiểu đúng văn bản gốc.
- Claude 3: Cô đọng thông tin thành bản tóm tắt ngắn gọn.
- Mistral Large AI Agent: Tóm tắt tốt nhưng chưa hoàn toàn đúng giới hạn từ.