OpenAI 的 O3:功能、O1 比较、发布日期等

Real-time financial market data for stocks and trends.
Post Reply
mostakimvip06
Posts: 423
Joined: Mon Dec 23, 2024 5:04 am

OpenAI 的 O3:功能、O1 比较、发布日期等

Post by mostakimvip06 »

OpenAI 在其为期 12 天的活动中推出了其最新的 AI 模型o3以及其经济高效的兄弟模型o3 mini 。

o3 最初被定位为一个独立的突破,但随着 2025 年 2 月 12 日Sam Altman 的宣布,o3 的命运发生了改变,他透露 o3 不会独立推出,而是会增强即将推出的 GPT-5。

放弃 o2 的决定并非偶然。虽然 OpenAI 引用了 Telefonica 的 O2 品牌作为部分原因,但我们怀疑这也是一个战略举措,旨在表明一个更实质性的飞跃。Sam Altman 在公告中开玩笑说,命名不是他们的强项,但这个选择似乎是经过深思熟虑的。

O3 重点关注推理,其功能旨在处理编码、数学和通用智能方面的复杂任务。OpenAI 开始进行公共安全测试,而不是全面发布,我们认为这体现了一种谨慎而透明的做法。

虽然早期结果表明 O3 本身可能是一个具有里程碑意义的模型,但它与 GPT-5 的整合有望产生更广泛的影响。

OpenAI 基础知识
开始使用 OpenAI API 及更多功能!

什么是 OpenAI O3?
O3 是 OpenAI 最新的前沿模型,旨在提高一系列复杂任务的推理能力。它与其较小的同类产品 o3 mini 一起发布,专注于解决编码、数学和通用智能方面的挑战。

我们发现 o3 因其强调更难的基准而引人注目,这些基准以以前的模型尚未完全解决的方式测试推理。OpenAI 强调了它相对于 o1 的改进,将其定位为一个更有能力处理复杂问题解决的系统。

O1 与 o3 的编码对比

O1 与 o3 的编码对比。来源:OpenAI

目前,O3 还不能供一般使用,但 o3-mini 现已可用。在发 奥地利赌博数据 布 o3 之前,OpenAI 将继续进行公共安全测试,邀请研究人员探索其优势和局限性。我们认为,随着 AI 模型变得越来越强大,这种协作方法反映了人们越来越认识到需要仔细评估。

O1 与 O3
O3 直接建立在 o1 的基础上,但在关键领域取得了显著的改进。OpenAI 将 o3 定位为旨在处理更复杂推理任务的模型,其性能提升反映在其基准测试中。

编码
我们注意到这两个模型之间存在一些明显的差异(见上图)。在软件式编码任务中,O3 在 Bench Verified 上的准确率达到了 71.7%,比 o1 有了显著的提高。

同样,在竞技编程中,o3 的 ELO 分数达到了 2727,远远超过了 o1 之前的最高分 1891。这些数字表明该模型专注于提高解决现实世界编码挑战的能力。

数学和科学
改进不仅限于编码。o3 在数学推理方面也表现出色,在 AIME 2024 上的准确率为 96.7%,而 o1 的准确率为 83.3%。这些进步表明,该模型可以处理更细微、更困难的问题,更接近传统上由人类专家主导的基准。

O1 vs o3 在数学和科学方面

O1 与 O3 在数学和科学方面的较量。资料来源:OpenAI

在科学相关的基准测试中,这种飞跃同样显而易见。在衡量博士级科学问题表现的 GPQA Diamond 中,o3 的准确率达到 87.7%,高于 o1 的 78%。这些进步表明,该模型解决跨学科技术难题的能力得到了广泛提升。

EpochAI 前沿数学
o3 的进展尤其值得注意的一个领域是 EpochAI Frontier Math 基准。

这被认为是人工智能领域最具挑战性的基准之一,因为它包含新颖的、未发表的问题,这些问题被故意设计得比标准数据集困难得多。其中许多问题处于数学研究的水平,通常需要专业数学家花费数小时甚至数天来解决单个问题。目前的人工智能系统通常在这个基准上的得分低于 2%,这凸显了它的难度。

O3 关于 EpochAI Frontier Math

EpochAI Frontier Math 上的 O3。来源:OpenAI

Epic AI 的 Frontier Math 很重要,因为它推动模型超越死记硬背或对熟悉模式进行优化。相反,它测试模型的概括能力、抽象推理能力和解决从未遇到过的问题的能力——这些特质对于提高 AI 推理能力至关重要。o3 在这个基准测试中获得了 25.2% 的分数,这看起来是一个重大飞跃。

O3 在 ARC AGI 上的突破
o3 最引人注目的成就之一是它在 ARC AGI 基准上的表现,该测试被广泛认为是评估人工智能通用智能的黄金标准。

ARC(抽象与推理语料库)由 François Chollet 于 2019 年开发,主要评估 AI 从最少的示例中学习和概括新技能的能力。与通常测试预先训练的知识或模式识别的传统基准不同,ARC 任务旨在挑战模型动态推断规则和转换——人类可以凭直觉解决这些任务,但 AI 历来难以解决。

ARC AGI 之所以特别困难,是因为每项任务都需要不同的推理技能。模型不能依赖记忆的解决方案或模板;相反,它们必须在每次测试中适应全新的挑战。例如,一项任务可能涉及识别几何变换中的模式,而另一项任务可能需要推理数值序列。这种多样性使 ARC AGI 成为衡量人工智能真正像人类一样思考和学习能力的有力指标。

ARC AGI 测试任务示例

你能猜出输入转化为输出的逻辑吗?来源:OpenAI

o3 在 ARC AGI 上的表现标志着一个重要的里程碑。在低计算设置下,o3 在半私有保留集上的得分为 76%——这一数字远高于任何以前的模型。

在高计算设置下进行测试时,它的表现甚至更惊人,达到了 88%,超过了通常被称为人类水平表现的 85% 门槛。这是人工智能首次在这一基准上超越人类,为基于推理的任务树立了新标准。
Post Reply