OpenAI推出AI智能体——Operator,预计年底将普及电脑操作

2024年10月,Claude 3.5 Sonnet推出了一项突破性的新功能:计算机使用能力(computer use)。开发者可以指导Claude像人类一样使用电脑,包括查看屏幕、移动鼠标、点击按钮和输入文字等。

Claude能够理解复杂指令,自动完成一系列操作,如浏览网页、查找信息、填写表格,甚至进行软件测试和开发。用户只需静静观看,仿佛有真人在远程操控电脑,十分神奇。

2025年初,人工智能公司OpenAI举行了一场备受期待的直播活动,发布了首款AI智能体——Operator。该智能体能够代理用户执行基于网页的操作,真正实现像人类一样使用网页浏览器。

与传统的“问一句、答一句”的聊天机器人不同,AI智能体(AI agent)能够在有限的人类监督下完成设定任务,被广泛视为AI生产力的下一个里程碑。在OpenAI通往通用人工智能(AGI)的五个步骤中,AI智能体是继聊天机器人和推理机器人之后的第三步,也是全新的一步。

OpenAI的山姆·奥尔特曼介绍,ChatGPT Pro用户(每月200美元)将能使用“研究预览版”的Operator。未来,Pro用户将逐步扩展到更多地区,几个月后,ChatGPT Plus用户也将能够使用。同时,未来几周和几个月内,还将发布更多的AI代理。

什么是Operator?

Operator由一个名为CUA(计算机使用代理)的新模型驱动,结合了GPT-4o的视觉能力和通过强化学习实现的高级推理。Operator能够“看见”网页(截图),并使用鼠标和键盘进行所有允许的操作。在操作过程中,如果遇到困难,模型会调用推理能力进行自我纠正;若仍无法解决问题,则会将控制权交还给人类。

要理解这种新事物,生动的案例是最好的方式。

Operator的界面与聊天机器人ChatGPT类似,最大的区别在于它能够调用“AI代理”完成用户的指令。在演示案例中,用户只需在对话框中输入“给我订一个XX饭店今晚19点的桌子”,AI代理便会自动打开网页,进入预订网站,搜索餐厅并完成预订。

如果用户所需的时段已被订完,AI会询问:“19点的桌子订完了,19点45分的桌子还有,要不要订?”

OpenAI也提醒用户,尽管Operator是市面上最强的AI代理,但与人类相比仍有差距。例如,在使用浏览器的基准测试中,OpenAI CUA模型的评分为58.1%,而人类的水平可达78%。因此,这项新技术仍可能出现错误,但在未来几个月内将持续改进。

目前,Operator擅长处理短任务和重复性操作,但在复杂任务(如幻灯片制作、日历管理)上表现不佳。例如,处理多步骤任务时,模型可能因界面变化或意外事件而失败。此外,在处理长DNA序列、随机字符串(如API密钥)或复杂代码时,Operator的光学字符识别(OCR)系统表现不佳。

这是因为任务超出了训练数据的范围,导致模型在识别和操作内容时容易出错。尽管OpenAI已采取多种措施防止提示注入攻击和恶意指令,但Operator在面对新型对抗性攻击时仍可能表现出脆弱性。

然而,AI这一趋势正在快速进化,预计到2025年底,各大AI公司推出的AI智能体都将能够熟练操作电脑,实现人机互动。

👉 野卡 | 一分钟注册,轻松订阅海外线上服务

(0)
上一篇 2天前
下一篇 2天前

相关推荐