방법론
20개의 다양한 AI 에이전트 모델을 다섯 가지 핵심 작업에 대해 테스트하였습니다. 각 작업은 서로 다른 역량을 평가하도록 설계되었습니다.
- 콘텐츠 생성: 프로젝트 관리의 기본에 대한 상세 기사 작성
- 문제 해결: 매출 및 이익 관련 계산 수행
- 요약: 복잡한 기사에서 핵심 내용 추출 및 요약
- 비교: 전기차와 수소차의 환경영향 분석
- 창의적 글쓰기: 전기차를 주제로 한 미래 지향적 이야기 창작
분석은 출력 결과의 품질과 에이전트의 사고 과정을 모두 중점적으로 다루었습니다. 계획, 추론, 적응, 도구 활용 능력을 평가했으며, AI 에이전트로서의 성과 기준으로 모델을 순위화했습니다. 특히 사고 과정과 전략에 더 큰 비중을 두었습니다.
AI 에이전트 모델 성과 – 작업별 분석
작업 1: 콘텐츠 생성
20개 모든 모델이 고품질의 유익한 기사를 생성하는 강점을 보였으나, 아래 순위는 각 에이전트의 내부 사고 과정과 결과물 도출 과정을 함께 고려한 결과입니다.
- Gemini 1.5 Pro: 프롬프트에 대한 이해도, 전략적 리서치, 체계적인 결과물에서 강점을 보임
- Claude 3.5 Sonnet: 명확한 계획과 간결하고 접근성 높은 결과물로 높은 평가
- Mistral 8x7B: 도구 선정이 뛰어나며, 명확하고 잘 구조화된 결과물 생성
- Mistral 7B: 전략적인 리서치와 보기 좋은 최종 결과물
- GPT-4o AI Agent (Original): 도구 선택에 강점, 유연한 연구 접근법을 보임
- Gemini 1.5 Flash 8B: 고품질 결과물이지만 내부 프로세스의 투명성 부족
- Claude 3 Haiku: 프롬프트에 대한 이해력과 강한 퍼포먼스
- GPT-4 Vision Preview AI Agent: 우수한 결과물
- GPT-o1 Mini AI Agent: 도구 활용이 뛰어나고, 적응력 및 반복적 접근 강점
- Llama 3.2 3B: 창의적 글쓰기 및 상세한 결과물이지만 내적 프로세스 노출 미흡
- Claude 3: 반복적 접근은 잘 드러나나, 내부 사고 과정은 노출되지 않음
- Claude 2: 글쓰기 능력과 프롬프트 이해력 모두 우수
- GPT-3.5 Turbo AI Agent: 지침과 포맷 준수는 했으나, 내부 프로세스 부족
- Gemini 2.0 Flash Experimental: 결과물은 우수하나, 반복적 프로세스가 드러남
- Grok Beta AI Agent: 전략적 도구 사용은 우수하나, 반복 루프 문제
- Gemini 1.5 Flash AI Agent: 논리적 접근은 있었으나 사고 과정이 반복적임
- Mistral Large AI Agent: 결과물은 구조적이나 내부 사고 과정이 투명하지 않음
- o1 Preview AI Agent: 결과물은 좋으나 사고 과정의 투명성 부족
- GPT 4o mini AI Agent: 결과물은 좋으나 내부 프로세스 노출 미흡
- Llama 3.2 1B: 결과물은 양호하나 내부 사고 과정 및 독창성 부족
작업 2: 문제 해결 및 계산
수학적 역량과 문제 해결 전략을 평가했습니다.
- Claude 3.5 Sonnet: 높은 정확성, 전략적 사고, 명확한 해설
- Mistral 7B: 명확하고 정확한 솔루션, 전략적 사고
- GPT-4 Vision Preview AI Agent: 정확한 이해와 계산
- Claude 3 Haiku: 효과적인 계산과 명확한 설명
- o1 Preview AI Agent: 계산을 여러 단계로 나눌 수 있는 능력
- Mistral Large AI Agent: 정확한 계산 및 명확한 최종 답변 제시
- o1 mini: 전략적 사고와 수학적 이해력
- Gemini 1.5 Pro: 상세하고 정확한 계산, 포맷도 우수
- Llama 3.2 1B: 계산 절차는 잘 나누었으나, 포맷 오류 있음
- GPT-4o AI Agent (Original): 대부분의 계산 정확, 논리적 단계 분해도 명확
- GPT-4o Mini AI Agent: 계산은 수행했으나, 최종 답변에 오류 및 포맷 문제
- Claude 3: 명확한 계산 접근법, 그 외 특별한 부분은 없음
- Gemini 2.0 Flash Experimental: 기본 계산은 정확하나, 결과물에 일부 오류 있음
- GPT-3.5 Turbo AI Agent: 기본 계산은 정확하지만, 전략과 최종 답변의 정확성에 문제
- Gemini 1.5 Flash AI Agent: 추가 단위 계산에서 오류 발생
- Mistral 8x7B: 대부분 정확한 계산이나, 다양한 해법 탐색이 부족
- Claude 2: 초기 계산은 정확하나, 전략적 문제와 최종 해답 오류
- Gemini 1.5 Flash 8B: 최종 해답에 오류 있음
- Grok Beta AI Agent: 작업을 완벽히 수행하지 못하고 결과물 미흡
- Llama 3.2 3B: 계산 오류 및 결과물 미완성
작업 3: 요약
핵심 정보 추출 및 간결한 요약 능력을 평가하였습니다.
- GPT-4o Mini AI Agent: 핵심 요점 요약에 매우 뛰어나며, 단어 제한도 잘 준수
- Gemini 1.5 Pro: 제공된 텍스트 요약 능력 우수, 요청된 단어 수 준수
- o1 Preview AI Agent: 간결하고 구조화된 요약
- Claude 3 Haiku: 효과적인 요약 및 지정된 조건 준수
- Mistral 7B: 정확한 요약과 단어 제한 준수
- Mistral 8x7B: 정보를 효과적으로 축약, 조건 준수
- GPT-4 Vision Preview AI Agent: 매우 정확한 요약
- GPT-3.5 Turbo AI Agent: 중요한 부분을 강조하며 요약 능력 우수
- Llama 3.2 1B: 간결하고 구조화된 요약
- Claude 3.5 Sonnet: 포맷 요청을 준수하며 간결한 요약
- Claude 2: 제공된 텍스트를 효과적으로 이해하며 간결하게 요약
- Claude 3: 정보를 효과적으로 축약
- Mistral Large AI Agent: 텍스트 요약은 잘했으나, 단어 제한은 완전히 준수하지 못함