추론 LLM을 활용한 RAG: OpenAI O1 vs OpenAI GPT4o

추론 LLM을 활용한 RAG: OpenAI O1 vs OpenAI GPT4o

OpenAI O1은 강화 학습과 기본 체인 오브 쏘트 추론을 활용하여 복잡한 RAG 작업에서 GPT4o를 능가하지만, 비용이 더 높습니다.

OpenAI는 최근 OpenAI O1이라는 새로운 O1 시리즈 모델을 출시했습니다. 이 모델의 주요 아키텍처 변화는 사용자의 질문에 답하기 전에 스스로 사고할 수 있다는 점입니다. 이 블로그에서는 OpenAI O1의 핵심 변화와 이 모델이 사용하는 새로운 패러다임, 그리고 RAG 정확도를 크게 높일 수 있는 이유를 심도 있게 다룹니다. 또한 OpenAI GPT4o와 OpenAI O1 모델을 이용한 간단한 RAG 플로우를 비교해보겠습니다.

OpenAI O1은 이전 모델과 어떻게 다른가요?

대규모 강화 학습

O1 모델은 학습 과정에서 대규모 강화 학습 알고리즘을 활용합니다. 이를 통해 모델은 견고한 “Chain of Thought"를 개발하여 문제에 대해 더 깊고 전략적으로 사고할 수 있습니다. 강화 학습을 통해 지속적으로 추론 경로를 최적화함으로써, O1 모델은 복잡한 과제를 효율적으로 분석하고 해결하는 능력이 크게 향상되었습니다.

Evaluation of GPT4o in Test Time and inference time

체인 오브 쏘트(Chain of Thought) 통합

기존에는 체인 오브 쏘트가 LLM이 스스로 사고하며 복잡한 질문에 단계적으로 답할 수 있도록 하는 프롬프트 엔지니어링 기법으로 활용되었습니다. O1 모델에서는 이 과정이 기본적으로 모델에 내장되어 추론 시점에 자동으로 적용되어 수학적/코딩 문제 해결에 매우 유용합니다.

O1은 RL로 학습되어, 응답 전에 비공개 체인 오브 쏘트를 통해 “생각”합니다. 생각 시간이 길수록 추론 과제에서 더 나은 성과를 냅니다. 이는 확장성의 새로운 차원을 엽니다. 이제는 사전학습에만 제한되지 않고 추론 컴퓨트도 확장할 수 있습니다. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 2024년 9월 12일

뛰어난 벤치마크 성능

광범위한 평가에서 O1 모델은 다양한 벤치마크에서 탁월한 성능을 입증했습니다.

  • AIME(미국 수학 올림피아드 예선): 전체 문제의 83%를 정확히 해결, GPT-4o의 13%에 비해 크게 향상됨.
  • GPQA(과학 분야 박사급 전문가 테스트): 인류 최초로 박사급 전문가를 능가한 AI 모델로 기록됨.
  • MMLU(다중 과제 언어 이해): 57개 하위 카테고리 중 54개에서 우수, 시각 인식 활성화 시 78.2% 성과 달성.
  • 코딩 대회: Codeforces 등에서 상위권을 기록하며, 참가한 인간의 93%를 능가함.

RAG 플로우에서 OpenAI O1 vs OpenAI GPT4o

OpenAI O1과 GPT4o의 성능을 비교하기 위해 두 가지 동일한 플로우를 만들고 각각 다른 LLM을 적용했습니다. 두 모델이 OpenAI O1 기술 보고서 관련 소스에 대해 질문-답변 능력을 어떻게 보이는지 비교합니다.

먼저 FlowHunt에서 간단한 RAG 플로우를 만듭니다. 구성 요소는 Chat Input, Document Retriever(연관 문서 검색), Prompt, Generator, Chat Output으로 이루어져 있습니다. LLM OpenAI 컴포넌트를 추가하여 모델을 지정할 수 있으며, 미지정 시 기본값은 GPT4o입니다.

다음은 GPT4o의 응답입니다:

Response of OpenAI GPT4o model for the query

아래는 OpenAI O1의 결과입니다:

Response of OpenAI O1 model for the query

보시다시피, OpenAI O1은 기사에서 더 많은 아키텍처상의 강점을 포착했습니다—6가지 포인트, GPT4o는 4가지였습니다. 또한 O1은 각 포인트마다 논리적 함의를 추가하여, 아키텍처 변화의 유용성에 대한 인사이트를 풍부하게 제시합니다.

OpenAI O1 모델, 사용할 가치가 있을까?

실험 결과, O1 모델은 정확도를 높인 만큼 비용도 더 듭니다. 새 모델은 프롬프트 토큰, 컴플리션 토큰, 그리고 새로 추가된 Reason 토큰의 3종류 토큰을 사용하기 때문에 비용이 더 높아질 수 있습니다. 대부분의 경우, OpenAI O1이 사실에 근거할 때 더 유용한 답변을 제공합니다. 그러나 일부 작업에서는 GPT4o가 OpenAI O1보다 더 좋은 결과를 내기도 하며, 추론이 필요 없는 간단한 과업에서는 GPT4o가 더 적합할 수 있습니다.

GPT4o outperforms OpenAI O1 model in tasks that don't need reasoning

자주 묻는 질문

OpenAI O1은 GPT4o와 어떻게 다른가요?

OpenAI O1은 대규모 강화 학습을 사용하며, 추론 시점에 체인 오브 쏘트 추론을 통합하여 GPT4o보다 더 깊고 전략적인 문제 해결이 가능합니다.

OpenAI O1이 벤치마크에서 GPT4o보다 뛰어난가요?

네, O1은 AIME(83% vs. GPT4o의 13%), GPQA(박사급 전문가 능가), MMLU 등에서 더 높은 점수를 기록하며, 57개 카테고리 중 54개에서 탁월한 성과를 보입니다.

OpenAI O1이 항상 GPT4o보다 좋은가요?

항상 그런 것은 아닙니다. O1은 추론이 중요한 작업에서 우수하지만, 고급 추론이 필요 없는 간단한 사용 사례에서는 GPT4o가 더 나을 수 있습니다.

OpenAI O1의 새로운 토큰 유형은 무엇인가요?

O1은 프롬프트 토큰, 컴플리션 토큰 외에 새로운 'Reason' 토큰을 도입하여 더 정교한 추론이 가능하지만, 운영 비용이 증가할 수 있습니다.

내 프로젝트에서 OpenAI O1을 어떻게 활용할 수 있나요?

FlowHunt와 같은 플랫폼을 사용하여 고급 추론과 정확한 문서 검색이 필요한 작업에 OpenAI O1 기반 RAG 플로우와 AI 에이전트를 구축할 수 있습니다.

야샤는 파이썬, 자바, 머신러닝을 전문으로 하는 재능 있는 소프트웨어 개발자입니다. 야샤는 AI, 프롬프트 엔지니어링, 챗봇 개발에 관한 기술 기사를 작성합니다.

야샤 보루만드
야샤 보루만드
CTO, 플로우헌트

FlowHunt로 고급 RAG 플로우 구축

FlowHunt를 사용하여 OpenAI O1 및 GPT4o와 같은 최신 LLM을 활용해 뛰어난 추론과 검색 강화 생성 기능을 경험해보세요.

더 알아보기

신규 소식: GPT 4.1, HubSpot 및 9종 이미지 모델 추가
신규 소식: GPT 4.1, HubSpot 및 9종 이미지 모델 추가

신규 소식: GPT 4.1, HubSpot 및 9종 이미지 모델 추가

FlowHunt v2.19.14에서는 OpenAI의 GPT-4.1 모델, Stable Diffusion, Google, Ideogram의 9종 신규 이미지 생성 모델과 HubSpot 연동으로 더욱 간편한 워크플로우와 자동화를 제공합니다....

2 분 읽기
AI OpenAI +8
LLM 오픈AI
LLM 오픈AI

LLM 오픈AI

FlowHunt는 OpenAI를 포함한 수십 가지 텍스트 생성 모델을 지원합니다. AI 도구와 챗봇에서 ChatGPT를 사용하는 방법을 알아보세요....

3 분 읽기
AI LLM +5
AI 에이전트의 내부: o1 Preview의 사고 과정
AI 에이전트의 내부: o1 Preview의 사고 과정

AI 에이전트의 내부: o1 Preview의 사고 과정

GPT-o1 Preview AI 에이전트의 고급 기능을 탐구해보세요. 이 심층 분석은 텍스트 생성 그 이상을 넘어, 다양한 작업을 통해 추론, 문제 해결, 창의력 등 AI의 능력을 보여줍니다....

7 분 읽기
AI AI Agents +5