o3 压台登场:OpenAI 卷动推理 AI 模子风浪,迈向 AGI 新巅峰
IT之家 12 月 21 日音书,“12 Days of OpenAI”算作已拉上帷幕,OpenAI 的 o3 系列大模子压台登场,官方称在某些场景下,其推明智商相称接近通用东说念主工智能(AGI)。
称号最新的 AI 模子为何跳过 o2,叫作念 o3 呢?OpenAI 公司首席引申官山姆・阿尔特曼(Sam Altman)在今天早上的直播算作,暗示是为了侧目和英国电信运营商 O2 的商标毁坏。
邀问候全测试o3 是 o1 推理模子的继任者,包含完竣版和精简版(o3-mini),后者主要针对特定任务进行了微调。
OpenAI 公司暂未整个绽放 o3 和 o3-mini 两款模子,即日起头邀问候全计划东说念主员,注册测试预览版 o3-mini 模子,后续再推出 o3 预览版。
当今,感兴致的一又友不错提交肯求:https://openai.com/index/early-access-for-safety-testing/。
阿尔特曼并未公布 o3 模子的具体绽放日历,仅露出 2025 年 1 月底推出 o3-mini,后续再推出 o3。
o3 模子推理OpenAI o3 模子和主流 AI 模子的一个最大不同点,在于会张开事实核查,从而不错侧目一些常见的模子罗网,但这个经由会产生反馈蔓延,左证推理难度,时时是几秒到几分钟。
o3 系列模子的另一个亮点是使用“私东说念主想想链”(private chain of thought)进行“想考”,它不错在反馈前暂停,议论关系领导并阐明注解其推理经由,最终归来出最准确的谜底。
o3 的新功能之一是不错同样推理时刻,分为低、中、高三种计较级别,计较级别越高,o3 的任务引申性能越好。
性能和 AGIAGI 的全称是 artificial general intelligence,直译过来便是通用东说念主工智能,泛指 AI 不错像东说念主类一样引申任何任务,OpenAI 公司官方界说为“在最具经济价值的责任中超越东说念主类的高度自治系统”。
OpenAI 公司正积极朝 AGI 诡计迈进,除了自由其在 AI 范畴的地位以外,还在投资范畴有至极的含义。
左证 OpenAI 与密切调和伙伴和投资者微软的往来条件,一朝 OpenAI 达到 AGI,公司就不再有义务向微软提供其起初进的期间(即适应 OpenAI 的 AGI 界说的期间)。
而 o3 是 OpenAI 是迈向该诡计的迫切一步,在 ARC-AGI 基准测试中,o3 在高计较成立下获取了 87.5% 的分数,在低计较成立下得分为 75.7%,性能是 o1 的三倍。
ARC-AGI 麇集独创东说念主 François Chollet 暗示,诚然高计较成立相称崇高,每个任务要奢靡数千好意思元。
IT之家征引该媒体报说念,在其他基准测试中,o3 进展出色:
在 SWE-Bench Verified 编程任务基准测试中,o3 比 o1 越过 22.8 个百分点;
在 Codeforces 编程妙技测试中,o3 获取了 2727 的评分;
在 2024 年好意思国数学邀请赛中,o3 得分 96.7%;
在 GPQA Diamond 计划生水平生物、物理和化学测试中,o3 得分 87.7%;
在 EpochAI 的 Frontier Math 基准测试中,o3 处理了 25.2% 的问题(其他模子均不特出 2%),创造了新记录。
这些成果来自 OpenAI 的里面评估,需要恭候外部客户和机构的基准测试成果来进一步考据。
安全o3 的发布象征着 OpenAI 在通用东说念主工智能范畴迈出了迫切一步。诚然 o3 的智商令东说念主印象深入,但其潜在风险也需要引起爱好。OpenAI 答应将尽力于模子安全,并与其他机构调和构建更完善的基准测试体系。