最新动态：OpenAI发布o3及o3 mini推理模型

2025年7月13日下午8:20 • 文章

前情回顾

OpenAI在圣诞前的12天内发布了一系列重要更新，以下是回顾：

Day 1：发布o1满血版，ChatGPT Pro订阅版本定价200美元/月。
Day 2：推出强化微调新功能，支持在特定领域构建专家模型。
Day 3：发布视频生成模型Sora。
Day 4：Canvas全面开放，升级代码功能。
Day 5：展示OpenAI与苹果的智能合作功能。
Day 6：发布高级实时视频理解功能。
Day 7：推出Projects In ChatGPT功能。
Day 8：搜索功能全面开放，支持语音搜索。
Day 9：o1 API开放，实时API更新。
Day 10：拨打1-800-ChatGPT热线电话，可访问ChatGPT。
Day 11：展示Mac桌面版App与各类App的互操作性。

在这一系列发布活动的高潮时刻，OpenAI终于揭晓了备受期待的重磅新品——o3，这是其迄今为止最先进的前沿推理模型的升级版。OpenAI宣称，在特定条件下，o3的性能已经接近于通用人工智能（AGI）的水平。

在直播环节中，OpenAI的首席执行官Sam Altman表示：“我们视o3为人工智能发展的新篇章。这些模型能够处理日益复杂且需要深度推理的任务。”他还特别强调了o3在编程领域的卓越表现，称其为“不可思议”。

o3模型

o3系列模型：性能卓越，接近通用人工智能（AGI）

o3系列模型介绍

OpenAI推出了o3系列，包括两款模型：

OpenAI o3：旗舰版，性能强大。
OpenAI o3 mini：轻量级，速度快，成本低，性价比高。

o3系列模型的开放计划

目前，o3系列模型尚未向普通用户开放，OpenAI计划先进行外部安全测试，预计明年1月正式发布。感兴趣的人可以提交申请。

o3模型的性能提升

o3模型在多个基准测试中表现出色：

在SweepBench Verified基准测试中，准确率达到71.7%，比o1高出20%。
在Codeforces编程竞赛平台上，得分2727，远超o1的1891分。
在美国数学竞赛AIME 2024测试中，准确率为90.67%，高于o1的83.3%。
在GPQA Diamond测试中，得分87.7%，比o1的78%高。
在EpochAI Frontier Math测试中，得分超过2457分，远超其他模型。

o3性能测试

o3在AGI领域的进展

o3在ARC-AGI基准测试中表现出色，得分75.7分，在提高算力和思考时间后，得分达到87.5%，超过大多数真人。

o3 mini模型的特点

o3 mini继承了o1 mini的数学和编程能力，成本极低，并向安全研究人员开放测试申请。它支持低、中、高三种推理时间模式，可根据任务复杂度调整思考时间。在Codeforces Elo评分中，随着推理时间增加，得分持续攀升。o3 mini还能自我测试，在GPQA数据集测试中，准确率达到61.62%。

o3 mini模型的数学和编程能力

在AIME数学基准测试中，o3 mini低推理模式性能与o1 mini相当，中等推理模式超越o1 mini。o3 mini还支持函数调用、结构化输出和开发者指令等API功能。

o3模型的市场影响

OpenAI在AI领域领先竞争对手约两年，但随着市场份额被蚕食，ChatGPT的光环正在褪去。竞争对手如Anthropic和Google开发出性能接近的新模型，OpenAI的竞争优势正在减弱。尽管如此，作为用户，我们将成为这场变局中的最大赢家。

👉 野卡 | 一分钟注册，轻松订阅海外线上服务

如何在国内注册Claude：最新详细教程

上一篇 2025年7月13日

野卡详解：服务、收费标准及使用指南

下一篇 2025年7月13日

GlobalCash 全球付万事达虚拟信用卡使用指南

近年来，随着跨境支付需求的增加，虚拟信用卡成为了许多用户的首选工具。特别是在黑五、感恩节等大促活动中，虚拟信用卡的便捷性和快速支付功能显得尤为重要。本文将为您详细介绍 Global…

文章 2025年3月23日
文章

如何在苹果手机上注册美区Apple ID并解决支付问题

有些小伙伴可能会好奇，如何在苹果手机上获得美区Apple ID呢？接下来，我们将详细介绍这一过程。拥有美区Apple ID的好处丰富的软件选择：美区拥有全球最全的软件，许多国内…

2025年5月15日
文章

Claude支持中国信用卡吗？国内升级Claude Pro的详细指南

目前，许多用户已经将日常使用的AI工具切换为Claude Sonnet 3.5。与ChatGPT相比，Claude Sonnet 3.5在文字创作和代码编写方面表现更为出色，尤其是…

2025年7月10日
文章

【推荐】Perplexity 订阅指南：免费使用 GPT-4 与订阅版的对比

如果你想体验更智能的 AI 搜索引擎 Perplexity，但对免费版与订阅版的差别不太清楚，或者对订阅过程有疑问，这篇文章将为你解答所有相关问题，并带你轻松完成订阅。想快速解决…

2025年7月2日
文章

申请 Vandle 日本虚拟信用卡的完整指南

前言由于日本独特的支付习惯和法律规定，申请日本信用卡（无论是虚拟卡还是实体卡）都相对复杂。主要难点有以下几点：在美国留学期间，我发现申请美国信用卡并不困难，只需提供中国护照和良…

2025年3月26日
如何轻松使用美区礼品卡为ChatGPT充值？

亲爱的ChatGPT用户们，是否因为充值问题而感到困惑？在使用美区礼品卡为ChatGPT充值时是否感到无从下手？今天的文章将为你详细解答如何使用美区礼品卡为ChatGPT充值，让你…

文章 2025年2月8日
ChatGPT Plus 价格揭秘：2025年最新订阅指南

引言 ChatGPT Plus 是由 OpenAI 提供的高级人工智能聊天服务。随着越来越多的人使用 ChatGPT Plus 来提高工作效率、获取灵感和进行日常交流，了解其价格和…

文章 2025年4月21日
【2025年最新指南】轻松注册Claude并订阅ClaudePRO会员

Claude 3.5 更新后，提升了反应速度和信息问答能力。然而，注册 Claude 账号需要手机号验证，这让许多用户感到困扰。本文将手把手教你如何轻松注册 Claude 账号。 …

文章 2025年6月18日
我尝试了 X Premium（前身为 Twitter Blue）三个月——这是我的体验

X（前身为 Twitter）自 2022 年 11 月更换所有权以来经历了许多变化。其中最显著的变化之一就是其付费服务，X Premium（前身为 Twitter Blue）经历了…

文章 2025年8月8日
文章

购买与续订中国版 Creative Cloud 摄影计划

访问 Creative Cloud 中国摄影计划页面，然后单击“立即购买”。在弹出的通知窗口中，再次单击“立即购买”。此通知旨在告知您，您即将从 Adobe 官方网站转到我们的…

2025年7月19日
1. Twitter Blue：功能与价值解析

Twitter Blue 是 Twitter 推出的一项订阅服务，用户可以按月付费以使用平台的独特功能。其主要功能包括撤消推文、书签集合和读者模式等，旨在为用户提供更加个性化和便利…

文章 2025年2月16日
ChatGPT Plus 常见问题解答

ChatGPT Plus 是 OpenAI 提供的订阅服务，每月费用约为 20 美元。它为用户提供了对 ChatGPT 模型的增强访问，尤其是在高峰时段，即使在需求很高时也能确保可…

文章 2025年8月27日
如何解决 Adobe XD 更新后无法验证订阅状态的问题？

在使用 Adobe XD 时，许多用户可能会遇到“无法验证您的订阅状态”的提示。以下是一些解决此问题的建议和步骤。常见解决方案检查网络连接确保您的设备连接到互联网，并且网络稳…

文章 2025年4月15日
文章

设置与管理 YouTube 家庭方案

您可以设置 YouTube 家庭方案，成为家人群组的管理员。作为管理员，您可以与最多 5 位生活在一起的家庭成员共享您的 YouTube Premium 或 YouTube Mus…

2025年5月4日
美区App Store礼品卡购买与充值指南

iOS用户常常会使用美区的Apple ID，但在美区App Store购买某些软件时，绑定支付方式可能会遇到困难。对于国内用户来说，绑定支付方式的过程相对复杂。不过，通过购买礼品卡…

文章 2025年4月17日
文章

如何注册OpenAI账户：ChatGPT的注册指南

快速注册ChatGPT的方法 – 你体验过这款热门AI吗？大家好，我是小简。最近备受关注的ChatGPT，也就是OpenAI的智能机器人，不知道你们是否已经体验过了？…

2025年8月1日
如何取消 ChatGPT4 会员订阅？

取消 ChatGPT4 会员订阅后会发生什么？无法访问 ChatGPT Plus 功能取消订阅后，您将无法再访问 ChatGPT Plus 的功能。您可以使用免费版本并访问其…

文章 2025年9月1日
如何选择最适合你的Adobe版本？轻松决策！

随着数字化时代的到来，Adobe软件已成为设计师、摄影师、视频编辑人员及众多创意工作者的必备工具。无论是图形设计、视频编辑，还是网页设计，Adobe软件凭借其强大的功能和专业的操作…

文章 2025年4月12日
Pingpong跨境收款评测：优势与劣势分析

Pingpong跨境收款虽然在市场上不如连连支付和PayPal等平台流行，但凭借其安全的交易流程和优质的本地化售后服务，赢得了众多跨境电商卖家的青睐。总体来看，Pingpong跨境…

文章 2025年4月26日
文章

如何使用虚拟信用卡在海外投放 TikTok 广告的详细指南

TikTok 的广告商可以通过短视频展示他们的产品，尽管这种形式对 B2B 品牌来说可能具有挑战性，但对于希望摆脱静态广告并分享吸引人内容的 B2C 品牌来说，它是理想的广告方式。…

2025年3月29日