具有推理能力的大模型RAG:OpenAI O1 对比 OpenAI GPT4o

具有推理能力的大模型RAG:OpenAI O1 对比 OpenAI GPT4o

OpenAI O1 利用强化学习和原生链式思考推理能力,在复杂 RAG 任务中超越 GPT4o,但成本更高。

OpenAI 刚刚发布了名为 OpenAI O1 的新一代 O1 系列模型。这一系列模型的主要架构变革,是具备了在回答用户问题前“思考”的能力。本文将深入探讨 OpenAI O1 的关键变革、模型所采用的新范式,以及该模型如何显著提升 RAG 的准确率。我们还将对比使用 OpenAI GPT4o 和 OpenAI O1 的简单 RAG 流程。

OpenAI O1 与以往模型有何不同?

大规模强化学习

O1 模型在训练过程中采用了大规模强化学习算法。这使得模型能够发展出强大的“链式思考”能力,从而对问题进行更深入、更具策略性的思考。通过强化学习不断优化推理路径,O1 显著提升了解析和高效解决复杂任务的能力。

Evaluation of GPT4o in Test Time and inference time

链式思考原生集成

以往,链式思考常作为提示工程手段,让大模型“自主思考”,以分步方式解答复杂问题。而 O1 模型将这一步骤内置,并在推理时原生集成,使其在数学与编程等问题求解任务中表现更为出色。

O1 通过强化学习训练,在回答前以私有链式思考“思考”。思考越久,推理任务表现越佳。这为模型扩展开启了新维度,不再受限于预训练,现在也能扩展推理算力。pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 2024年9月12日

卓越的基准测试表现

在大量评测中,O1 模型在多个基准测试中表现卓越:

  • AIME(美国邀请数学考试): 正确解决 83% 的问题,远超 GPT-4o 的 13%。
  • GPQA(科学领域专家级测试): 超越博士级专家,成为首个在该基准上超过人类的 AI 模型。
  • MMLU(多任务语言理解): 57 个子类别中有 54 个表现优异,开启视觉感知后达到 78.2% 的成绩。
  • 编程竞赛: 在 Codeforces 等平台排名靠前,超越 93% 的人类参赛者。

OpenAI O1 与 OpenAI GPT4o 在 RAG 流程中的对比

为测试 OpenAI O1 和 GPT4o 的性能准确性,我们分别用两个不同的大模型,构建了两条完全相同的流程。我们将对比两个模型在关于 OpenAI O1 技术报告的两个知识源上的问答能力。

首先,我们在 FlowHunt 中搭建了一个简单的 RAG 流程,包含:聊天输入、文档检索器(获取相关文档)、提示、生成器和聊天输出。再通过 LLM OpenAI 组件指定模型(否则默认用 GPT4o)。

以下为 GPT4o 的回答:

Response of OpenAI GPT4o model for the query

以下为 OpenAI O1 的回答:

Response of OpenAI O1 model for the query

如上图所示,OpenAI O1 从原文中提取了更多架构优势——共计 6 点,而 GPT4o 仅为 4 点。此外,O1 还能针对每一点作出逻辑推断,进一步丰富了文档内容,阐明架构变更的意义。

OpenAI O1 值得使用吗?

从我们的实验来看,O1 模型为了更高的准确率,成本也会更高。新模型包含三种 token 类型:提示 Token(Prompt Token)完成 Token(Completion Token) 和新增的 推理 Token(Reason Token),因此可能更为昂贵。大多数情况下,如果答案以事实为基础,OpenAI O1 会显得更有帮助。但也有部分场景,GPT4o 的表现优于 O1——有些任务本不需要推理。

GPT4o outperforms OpenAI O1 model in tasks that don't need reasoning

常见问题

OpenAI O1 与 GPT4o 有哪些不同?

OpenAI O1 采用大规模强化学习,并在推理时集成链式思考推理,使其在解决问题时比 GPT4o 更深入、更具策略性。

OpenAI O1 在基准测试中表现优于 GPT4o 吗?

是的,O1 在 AIME(83%,而 GPT4o 为 13%)、GPQA(超越博士级专家)和 MMLU 等基准测试中表现更好,在 57 个类别中有 54 项领先。

OpenAI O1 总是优于 GPT4o 吗?

并非总是如此。虽然 O1 在需要大量推理的任务中表现出色,但在不需要高级推理的简单场景中,GPT4o 有时会更好。

OpenAI O1 有哪些新 token 类型?

O1 新增了 'Reason' token,除了 Prompt 和 Completion token 外,还能进行更复杂的推理,但可能增加运营成本。

如何在项目中利用 OpenAI O1?

你可以通过 FlowHunt 等平台,结合 OpenAI O1 构建需要高级推理和精准文档检索的 RAG 流程与 AI 智能体。

Yasha 是一位才华横溢的软件开发者,专攻 Python、Java 以及机器学习。Yasha 撰写关于人工智能、提示工程和聊天机器人开发的技术文章。

Yasha Boroumand
Yasha Boroumand
CTO,FlowHunt

用 FlowHunt 搭建高级 RAG 流程

试试 FlowHunt,利用 OpenAI O1 和 GPT4o 等最新大模型,实现更强推理与检索增强生成。

了解更多

LLM OpenAI
LLM OpenAI

LLM OpenAI

FlowHunt 支持数十种文本生成模型,包括 OpenAI 的模型。以下是在您的 AI 工具和聊天机器人中使用 ChatGPT 的方法。

1 分钟阅读
AI LLM +5
GPT-4.1:标准AI任务的性能分析
GPT-4.1:标准AI任务的性能分析

GPT-4.1:标准AI任务的性能分析

OpenAI 的 GPT-4.1 标志着 AI 性能的重大飞跃。本文分析了其在五大核心AI任务——内容生成、数学计算、摘要、比较分析和创意写作——中的优势与局限,揭示了其推理能力、效率、工具使用和输出质量的见解。...

2 分钟阅读
AI GPT-4.1 +8
最新动态:GPT 4.1、HubSpot 集成及 9 款全新图像模型
最新动态:GPT 4.1、HubSpot 集成及 9 款全新图像模型

最新动态:GPT 4.1、HubSpot 集成及 9 款全新图像模型

FlowHunt v2.19.14 带来了 OpenAI 的 GPT-4.1 模型、来自 Stable Diffusion、Google 和 Ideogram 的 9 款全新图像生成模型,以及 HubSpot 集成,助力流程自动化更高效。...

1 分钟阅读
AI OpenAI +8