关于OpenAI新模型o1的9个关键点

OpenAI CEO山姆·阿尔特曼
OpenAI CEO山姆·阿尔特曼。该公司刚刚发布了最新o1人工智能模型,称新模型在推理能力上有显著提升。图片来源:DAVID PAUL MORRIS—BLOOMBERG VIA GETTY IMAGES

OpenAI最近发布了备受期待的o1系列人工智能模型,相比于之前的大语言模型,这一系列在解决复杂推理和数学问题方面表现更为出色。上周四,该公司向部分付费用户推出了o1-preview和o1-mini两个新模型的“预览版”。

人工智能的推理和数学能力提升,能够帮助化学家、物理学家和工程师解决复杂问题,进而推动新产品的开发。同时,它也能帮助投资者制定期权交易策略,或协助理财规划师优化投资组合,以更好地平衡风险与回报。

科技公司希望开发出能够执行复杂任务的人工智能助理,例如编写完整的计算机程序、在网络中查找信息、输入数据并进行分析,最终生成报告。因此,提升推理、规划和解决问题的能力对这些公司至关重要。

OpenAI公布的o1模型基准测试结果令人印象深刻。该模型在美国数学邀请赛(AIME)中的答题准确率为83.3%,而GPT-4o的准确率仅为13.4%。在另一项评估中,o1在博士级科学问题上的回答准确率为78%,而GPT-4o为56.1%,人类专家的准确率为69.7%。

根据OpenAI的测试结果,o1模型出现“幻觉”(即自信地提供似是而非但不准确的答案)的概率远低于之前的模型。此外,o1模型更难被引导绕过安全防护措施,OpenAI希望模型在回答时能够遵循这些安全措施。

在o1-preview模型发布后不久,用户测试发现该模型能够正确回答许多之前模型无法解决的问题,包括OpenAI的最强模型GPT-4和GPT-4o。

然而,o1-preview模型在某些谜题和评估中仍然会出错,有时甚至无法完成简单任务,如井字棋(尽管在作者的实验中,o1-preview在井字棋方面的表现明显优于GPT-4o)。这表明o1模型的推理能力可能存在显著局限性。在语言任务方面,OpenAI的评估员通常认为GPT-4o的回应优于o1模型。

此外,o1模型回答问题的时间远超GPT-4o。在OpenAI的测试中,o1-preview模型回答一个问题需要超过30秒,而GPT-4o仅需3秒。

o1模型尚未完全整合到ChatGPT中,用户需要自行选择由o1-preview还是GPT-4o处理其提示词,模型本身无法判断何时需要o1模型的较慢推理过程。此外,o1模型仅能处理文本,无法处理图片、音频或视频输入和输出。

OpenAI的o1-preview和o1-mini模型对ChatGPT Plus和ChatGPT Teams的所有订阅用户开放,同时也适用于使用企业级API的顶级开发者。

需要了解的9个关键点

  1. 这并非通用人工智能。
    OpenAI及其他公司如谷歌DeepMind、Meta和Anthropic的目标是实现通用人工智能。尽管o1-preview在推理任务上表现更强,但其局限性表明该系统尚未达到人类智力水平。

  2. o1对竞争格局的影响有限。
    o1为OpenAI带来了短期竞争优势,但谷歌和其他公司也在研发具备类似能力的模型,可能会在不久后发布新模型。

  3. o1模型的运行机制不明。
    OpenAI未详细披露o1模型的运行机制和训练数据,尽管已知其整合了多种人工智能技术。

  4. 使用o1-preview模型的成本较高。
    ChatGPT Plus用户无需额外付费,但每日提问数量有限。企业客户使用o1-preview的费用较高,可能导致使用意愿降低。

  5. 客户对“思维链”透明度的担忧。
    OpenAI决定不向用户展示o1模型的“思维链”,可能导致客户对收费的准确性产生疑虑。

  6. o1模型展示了新的“扩展法则”。
    新法则表明,模型在推理时使用的时间与准确度之间存在直接联系,可能影响公司对算力和资源的需求。

  7. o1模型的潜力与风险并存。
    o1模型可用于创建强大的人工智能助理,但需确保这些助理不会采取意外行动,带来伦理和法律风险。

  8. o1模型在安全性方面的评估。
    尽管o1模型在许多方面更安全,但在协助生物攻击方面仍存在“中等风险”。

  9. 安全专家对o1模型的担忧。
    o1模型在“说服力”风险方面被评为“中等风险”,可能导致不良后果,尤其是在恶意使用的情况下。

👉 野卡 | 一分钟注册,轻松订阅海外线上服务

(0)
上一篇 2025年5月12日
下一篇 2025年5月13日

相关推荐