你的位置：| 小曾网 > 新闻 > o3 压台登场：OpenAI 卷动推理 AI 模子风浪，迈向 AGI 新巅峰

o3 压台登场：OpenAI 卷动推理 AI 模子风浪，迈向 AGI 新巅峰

发布日期：2025-03-10 12:59 点击次数：65

IT之家 12 月 21 日音书，“12 Days of OpenAI”算作已拉上帷幕，OpenAI 的 o3 系列大模子压台登场，官方称在某些场景下，其推明智商相称接近通用东说念主工智能（AGI）。

称号

最新的 AI 模子为何跳过 o2，叫作念 o3 呢？OpenAI 公司首席引申官山姆・阿尔特曼（Sam Altman）在今天早上的直播算作，暗示是为了侧目和英国电信运营商 O2 的商标毁坏。

邀问候全测试

o3 是 o1 推理模子的继任者，包含完竣版和精简版（o3-mini），后者主要针对特定任务进行了微调。

OpenAI 公司暂未整个绽放 o3 和 o3-mini 两款模子，即日起头邀问候全计划东说念主员，注册测试预览版 o3-mini 模子，后续再推出 o3 预览版。

当今，感兴致的一又友不错提交肯求：https://openai.com/index/early-access-for-safety-testing/。

阿尔特曼并未公布 o3 模子的具体绽放日历，仅露出 2025 年 1 月底推出 o3-mini，后续再推出 o3。

o3 模子推理

OpenAI o3 模子和主流 AI 模子的一个最大不同点，在于会张开事实核查，从而不错侧目一些常见的模子罗网，但这个经由会产生反馈蔓延，左证推理难度，时时是几秒到几分钟。

o3 系列模子的另一个亮点是使用“私东说念主想想链”（private chain of thought）进行“想考”，它不错在反馈前暂停，议论关系领导并阐明注解其推理经由，最终归来出最准确的谜底。

o3 的新功能之一是不错同样推理时刻，分为低、中、高三种计较级别，计较级别越高，o3 的任务引申性能越好。

性能和 AGI

AGI 的全称是 artificial general intelligence，直译过来便是通用东说念主工智能，泛指 AI 不错像东说念主类一样引申任何任务，OpenAI 公司官方界说为“在最具经济价值的责任中超越东说念主类的高度自治系统”。

OpenAI 公司正积极朝 AGI 诡计迈进，除了自由其在 AI 范畴的地位以外，还在投资范畴有至极的含义。

左证 OpenAI 与密切调和伙伴和投资者微软的往来条件，一朝 OpenAI 达到 AGI，公司就不再有义务向微软提供其起初进的期间（即适应 OpenAI 的 AGI 界说的期间）。

而 o3 是 OpenAI 是迈向该诡计的迫切一步，在 ARC-AGI 基准测试中，o3 在高计较成立下获取了 87.5% 的分数，在低计较成立下得分为 75.7%，性能是 o1 的三倍。

ARC-AGI 麇集独创东说念主 François Chollet 暗示，诚然高计较成立相称崇高，每个任务要奢靡数千好意思元。

IT之家征引该媒体报说念，在其他基准测试中，o3 进展出色：

在 SWE-Bench Verified 编程任务基准测试中，o3 比 o1 越过 22.8 个百分点；

在 Codeforces 编程妙技测试中，o3 获取了 2727 的评分；

在 2024 年好意思国数学邀请赛中，o3 得分 96.7%；

在 GPQA Diamond 计划生水平生物、物理和化学测试中，o3 得分 87.7%；

在 EpochAI 的 Frontier Math 基准测试中，o3 处理了 25.2% 的问题（其他模子均不特出 2%），创造了新记录。

这些成果来自 OpenAI 的里面评估，需要恭候外部客户和机构的基准测试成果来进一步考据。

安全

o3 的发布象征着 OpenAI 在通用东说念主工智能范畴迈出了迫切一步。诚然 o3 的智商令东说念主印象深入，但其潜在风险也需要引起爱好。OpenAI 答应将尽力于模子安全，并与其他机构调和构建更完善的基准测试体系。