作者 | 赵健

ChatGPT的热度正在迅速攀升。
“去年12月,机器学习圈内曾热议此话题,但如今每个群组都在交流和使用,这种现象在疫情之外是前所未有的。”有人如是说。
一位AI产品经理向我们表示,若干年后回顾AI行业的发展,或许会有两个标志:阿尔法狗代表AI在专业领域的突破,而ChatGPT则标志着AI在通用智能领域的崛起。
《财富》杂志对此进行了生动的描述:
“在一代人的时间中,总有一种产品的出现,它将从工程系昏暗的地下室、书呆子们的卧室和爱好者们的孤独洞穴中弹射出来,成为每个人都能使用的工具。早在1990年就有网络浏览器,但直到1994年Netscape Navigator的出现,大多数人才发现了互联网。2001年iPod问世之前就有了MP3播放器,但它们并没有引发数字音乐革命。2007年苹果推出iPhone之前,也有智能手机,但在iPhone之前,没有智能手机的应用程序。”
“2022年11月30日,人工智能迎来了Netscape Navigator时刻。”
对于人工智能或聊天机器人,我们并不陌生。从苹果的Siri、微软的小冰到智能音箱,这些产品已经融入我们的生活,但它们普遍存在一个问题——智能程度较低,远不及《流浪地球2》中看到的MOSS。
然而,ChatGPT的出现却有所不同。它不仅可以进行多轮对话,还能编写代码、撰写营销文案、创作诗歌、制定商业计划书,甚至编写电影剧本。尽管它并不完美,偶尔也会出错,但其能力似乎无所不能。
连埃隆·马斯克都评价道:“ChatGPT好得吓人,我们离危险的强人工智能不远了。”而且,ChatGPT不仅仅是一个消磨时间的聊天机器人,微软与谷歌正在为其引发的AI大战做准备。国内科技公司也在积极思考如何搭上这趟驶向未来的列车,无论是借势概念还是推出真正的产品。
那么,ChatGPT是如何做到这一切的?本文将回答几个基本问题:
- ChatGPT与过去的AI有何不同?
- OpenAI是如何战胜谷歌的?
- OpenAI的成功付出了多少代价?
- ChatGPT爆火之后,谁将是最终赢家?
- 我们还整理了一份“ChatGPT指南”,包含了一些精品文章和报告,欢迎查阅。
1. ChatGPT:生成式AI的颠覆者
刚刚过去的2022年,从硅谷到国内科技公司,弥漫着一股“寒气”。然而,AI行业却呈现出另一番热闹的景象。
这一年,通过输入文本描述自动生成图片的AI绘画工具如雨后春笋般涌现,代表性的有第二代DALL·E(由OpenAI于2022年4月发布)、Imagen(谷歌2022年5月发布)、Midjourney(2022年7月发布)等,令人眼花缭乱。
2022年9月,由Midjourney创作的画作《太空歌剧院》在科罗拉多州博览会数字艺术创作类比赛中获得一等奖,引发了广泛关注。

AI绘画是AI发展的里程碑级应用,但不久后人们发现,AI绘画只是“冰山一角”,真正的“颠覆者”在11月30日上线——ChatGPT。
去年12月,我们曾与ChatGPT进行过一次对话。
从AI绘画到ChatGPT,它们都属于AI的一个分支——生成式AI(Generative AI),在国内也被称为AIGC(AI Generated Content)。
2022年9月,红杉资本发布了一篇重磅文章——《生成式AI:一个创造性的新世界》,首次提出生成式AI这一概念。红杉资本将生成式AI分为文本、代码、图片、语言、视频、3D等多个应用场景,认为生成式AI至少可以提高10%的效率或创造力,潜力巨大。

凭借生成式AI的风口,一些AI绘画公司开始获得巨额融资。2022年10月,Stable Diffusion模型背后的公司Stability AI宣布获得1.01亿美元种子轮融资,投后估值达10亿美元;另一家AI内容平台Jasper也宣布获得1.25亿美元新融资,估值达17亿美元。根据Leonis Capital的统计,自2020年以来,风险投资对生成人工智能的投资增长了400%以上,2022年则达到惊人的21亿美元。
在文章中,红杉资本将AI分为“分析式AI”与“生成式AI”两大类。分析式AI主要用于垃圾邮件检测、预测发货时间或视频推荐等,是过去几年最常见、发展最快的AI类型。国内的AI四小龙——商汤、旷视、云从、依图均属于此类。
生成式AI则聚焦于知识工作与创造性工作,应用范围涵盖社交媒体、游戏、广告、建筑、编码、平面设计、产品设计、法律、营销等多个领域。
在2015年之前,人工智能基本是小模型的天下。过去的微软小冰、苹果Siri、智能音箱,以及各个平台的客服机器人背后都是小模型,包含多个Agent(知行主体),每个Agent负责特定任务。
如果需要增加新功能,只需训练一个新的Agent。如果用户的问题超出了既有Agent的范围,便会出现智能不足的情况。
然而,ChatGPT采用了“大模型+Prompting(提示词)”的模式。大模型可以理解为背后只有一个Agent来解决用户所有的问题,因此更加接近AGI(通用人工智能)。
ChatGPT的出现如同在人工智能行业投下了一枚“核弹”。前微软CEO比尔·盖茨评价ChatGPT为“不亚于互联网的诞生”,现任微软CEO萨提亚·纳德拉则称其为“堪比工业革命”。越来越多的公司开始将ChatGPT融入其产品中,或推出类似ChatGPT的产品。
那么,ChatGPT究竟是如何做到的呢?
2. OpenAI与谷歌的较量
ChatGPT背后的公司是OpenAI,成立于2015年,由特斯拉CEO埃隆·马斯克、PayPal联合创始人彼得·蒂尔、Linkedin创始人里德·霍夫曼、创业孵化器Y Combinator总裁阿尔特曼(Sam Altman)等人共同出资10亿美元创立。
OpenAI的目标是开发通用人工智能(AGI)并造福人类。
当时,谷歌是人工智能领域的领军者。2016年,谷歌收购的DeepMind推出的阿尔法狗打败了人类围棋冠军。
2016年5月,谷歌CEO桑德·皮查伊宣布将公司策略从“移动优先”转变为“人工智能优先”,并计划在每个产品中应用机器学习算法。
OpenAI的成立部分是为了避免谷歌在人工智能领域形成垄断。
OpenAI最初是一个非营利组织,但在2019年成立了OpenAI LP子公司,目标是盈利和商业化,并引入了微软的10亿美元投资。前YC孵化器总裁阿尔特曼在此时加入OpenAI担任CEO。
ChatGPT中的GPT(Generative Pre-trained Transformer,生成式预训练变换器)是OpenAI推出的深度学习模型,ChatGPT基于GPT-3.5版本。
GPT的名字中包含了著名的Transformer模型,这是由谷歌大脑团队在2017年提出的。Transformer的出现标志着人工智能发展的里程碑,取代了以往的RNN(循环神经网络)和CNN(卷积神经网络)结构,在NLP(自然语言处理)和CV(计算机视觉)领域取得了显著成果。
最初的Transformer模型有6500个可调参数,是当时最先进的大语言模型(Large Language Model, LLM)。谷歌公开了模型架构,任何人都可以基于此搭建类似的模型并进行训练。
特斯拉自动驾驶、预测蛋白质结构的AlphaFold2模型,以及OpenAI的GPT,都是在Transformer的基础上构建的。
Transformer出现后,许多公司基于此进行NLP模型研究,其中OpenAI与谷歌是最重要的两家。
2018年,OpenAI推出了1.17亿参数的GPT-1,谷歌推出了3亿参数的BERT,双方展开了一场NLP的较量。

GPT与BERT采用了不同的技术路线。简单来说,BERT是一个双向模型,擅长上下文分析,而GPT是单向模型,更擅长生成文本。
两者的表现如何呢?发布更早的GPT-1赢得了初代Transformer的较量,但在阅读理解领域却输给了晚4个月发布的BERT。
这场AI竞争才刚刚开始。OpenAI并没有认输,而是坚持“大模型路线”。在OpenAI看来,未来的通用人工智能应具备“一个任务无关的超大型LLM,能够从海量数据中学习知识,以生成的方式解决各种实际问题,并能理解人类的命令”。
换句话说,就是大力出奇迹!
接下来的两年(2019、2020年),OpenAI在几乎没有改变模型架构的基础上,陆续推出了参数更大的迭代版本GPT-2和GPT-3,前者有15亿参数,后者有1750亿参数。
GPT-2在性能上已经超过BERT,而GPT-3更进一步,几乎可以完成自然语言处理的绝大部分任务,如问题搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答,甚至可以根据任务描述自动生成代码。
GPT-3的成功使OpenAI开始尝试商业化,付费用户可以通过API使用该模型完成所需的语言任务,例如AI绘画独角兽Jasper就是GPT-3的客户。
值得一提的是,谷歌在此过程中也不断推出新模型,但与OpenAI坚持GPT路线不同,谷歌在BERT之后推出了T5、Switch Transformer等模型,形成了赛马机制。
此时,距离ChatGPT的诞生还差一步。
3. 意外的走红
在GPT-3发布后,OpenAI研究人员思考如何改进模型。
他们发现,要让GPT-3产出用户想要的内容,必须引入“人类反馈强化学习机制”(RLHF),通过人工标注对模型输出结果打分建立奖励模型,并通过奖励模型进行循环迭代。
聊天机器人是引入强化学习的最佳方式,因为在聊天过程中,人类的对话即时、持续地向模型反馈数据,从而让模型根据反馈结果进行改进。为此,OpenAI雇佣了约40位外包人员与机器人对话。
通过这样的训练,OpenAI获得了更真实、更无害且更好地遵循用户意图的语言模型InstructGPT,并在2022年3月发布,同时开始构建InstructGPT的姊妹模型——ChatGPT。

根据《财富》杂志的报道,当ChatGPT准备就绪后,OpenAI并未打算立即向公众开放,而是先让测试人员使用。
然而,测试人员并不清楚与聊天机器人谈论什么。OpenAI试图将ChatGPT转向特定领域的专业人士,但缺乏专业领域的训练数据。
最终,OpenAI决定将ChatGPT向公众开放。“我承认,我不知道这是否会奏效。”Brockman说。
在《纽约时报》的报道中,OpenAI发布ChatGPT还有另一个原因:担心竞争对手可能会在GPT-4之前发布他们的人工智能聊天机器人,因此要抢先发布。
总之,在2022年11月30日,ChatGPT诞生了。
ChatGPT成为史上增长最快的应用。发布第五天,ChatGPT就积累了100万用户,这是Facebook花了10个月才达到的成绩;发布两个月,ChatGPT突破了1亿用户,而TikTok用了约九个月,Instagram则用了两年多。
ChatGPT的迅速传播连OpenAI也感到意外,OpenAI首席技术官Mira Murati表示:“这绝对令人惊讶。”在旧金山的VC活动上,OpenAI CEO阿尔特曼表示,他“本以为一切都会少一个数量级”。
值得一提的是,OpenAI并非唯一的大模型聊天机器人。2021年5月,谷歌发布了专注于生成对话的语言模型LaMDA,但至今仍未对外发布。谷歌最近匆忙推出的聊天机器人Bard则由LaMDA支撑,但上线日期尚未公布。
在OpenAI与谷歌的持续竞争中,谷歌最终落了下风。
4. 成功的代价
然而,ChatGPT的成功也让OpenAI付出了代价,尤其是“烧钱”的代价。
过去几年,大模型的训练已成为一场AI的军备竞赛。在2015年至2020年期间,用于训练大模型的计算量增加了6个数量级,在手写、语音和图像识别、阅读理解和语言理解方面超过了人类性能基准。

OpenAI的成功让人们见识到了大模型的威力,但大模型的成功可能难以复制,因为成本过高。
OpenAI早已意识到,科学研究要想取得突破,所需的计算资源每3~4个月就要翻一倍,资金也需要通过指数级增长获得匹配。而且,AI人才的薪水也不便宜,OpenAI首席科学家Ilya Sutskever在实验室的头几年年薪高达190万美元。
OpenAI CEO阿尔特曼在2019年对《连线》杂志表示:“我们要成功完成任务所需的资金比我最初想象的要多得多。”
这也是OpenAI从非营利性组织转型为商业化公司的原因。2019年7月,重组后的OpenAI获得了微软的10亿美元投资,借助微软的Azure云服务平台解决商业化问题,缓解高昂的成本压力。
解决了资金问题的OpenAI开始全力训练大模型。
大模型的训练离不开大数据和大算力。GPT-2的训练数据来自Reddit上高赞的文章,数据集约800万篇,累计体积约40GB;而GPT-3模型的神经网络是在超过45TB的文本上进行训练,相当于整个维基百科英文版的160倍。
在算力方面,GPT-3.5在微软Azure AI超算基础设施(由V100 GPU组成的高带宽集群)上进行训练,总算力消耗约3640PF-days(即每秒一千万亿次计算,运行3640天)。

可以说,大模型的训练就是靠烧钱烧出来的。据估算,OpenAI的模型训练成本高达1200万美元,GPT-3的单次训练成本高达460万美元。
根据《财富》杂志的数据,2022年OpenAI的收入为3000万美元,但净亏损总额预计为5.445亿美元。阿尔特曼在推特上回答马斯克的问题时表示,用户与ChatGPT的每次交互中OpenAI的计算成本为“个位数美分”,随着ChatGPT的流行,每月的计算成本可能达到数百万美元。
大模型高昂的训练成本让普通创业公司难以为继,因此参与者基本都是科技巨头。

在国内科技公司中,阿里巴巴达摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,腾讯在2022年推出了混元AI大模型。
一个需要明确的事实是,虽然OpenAI的大模型取得了成功,但模型并非绝对意义上的越大越好,参数量也只是影响最终模型性能的因素之一。
GPT-3并不是参数最大的模型,比如,由英伟达和微软开发的Megatron-Turing NLG模型,拥有超过5000亿个参数,但在性能方面并不是最好的,因为模型未经充分的训练。
实际上,在特定场景下,较小的模型可以达到更高的性能水平,且成本更低。一位AI从业者告诉我们:“现实是,NLP公司做to B只能做小模型。得私有化,工程性能好,计算消耗少。甲方还希望你能部署在CPU上呢。”
关于大模型与小模型的关系,我们将在后续文章中继续探讨。
5. 资金流向何处?
以ChatGPT为代表的生成式AI正在引发新一轮AI军备竞赛,这个特别烧钱的新兴市场,也让背后的基础设施厂商赚得盆满钵满。
著名风投机构A16Z将生成式AI市场分为三层:
- 应用层:将第三方API或自有模型集成到面向用户的产品中,如AI绘画应用Jasper、Midjourney;
- 模型层:为应用层提供能力,如闭源的GPT-3或开源的Stable Diffusion;
- 基础设施层:为生成人工智能模型的运行、培训和推断工作负载提供云平台和硬件制造商。

生成式AI的大量资金最终流向了基础设施层——以亚马逊AWS、微软Azure、谷歌GCP为主的云厂商,以及以英伟达为代表的GPU厂商。
据A16Z估计,应用层厂商将约20%-40%的收入用于推理和模型微调,这部分收入通常直接支付给云厂商或第三方模型提供商,后者也会将约一半的收入用于云基础设施。因此,总的来看,生成式AI总收入的10%-20%都流向了云提供商。
微软投资OpenAI就是一个很好的案例。
2019年,微软投资OpenAI 10亿美元,其中约一半以Azure云计算的代金券形式,成为OpenAI技术商业化的“首选合作伙伴”,未来可获得OpenAI技术成果的独家授权。今年1月23日,微软再次加码,宣布向OpenAI追求数十亿美元,以加速人工智能的突破。
根据《财富》杂志的报道,在OpenAI的第一批投资者收回初始资本后,微软将有权获得OpenAI 75%的利润,直到收回投资成本;当OpenAI赚取920亿美元的利润后,微软的份额将降至49%。与此同时,其他风险投资者和OpenAI的员工也将有权获得OpenAI 49%的利润,直到他们赚取约1500亿美元。如果达到这些上限,微软和投资者的股份将归还给OpenAI的非营利基金会。
本质上,OpenAI是在将公司借给微软,借多久取决于OpenAI赚钱的速度。微软对OpenAI的投资更大的野心在于,希望在下一个人工智能的十年向谷歌及其他科技巨头发起挑战。
在今年1月份的瑞士达沃斯论坛上,微软CEO纳德拉表示,微软将全线接入ChatGPT,计划将ChatGPT、DALL-E等人工智能工具整合进微软旗下的所有产品中,包括Bing搜索引擎、Office全家桶、Azure云服务、Teams聊天程序等。
本周,新版Bing正式发布。纳德拉表示:“比赛今天开始了,我们将继续前进并快速行动,希望在搜索领域再次获得更多创新的乐趣。”
除了微软之外,英伟达则是生成式AI幕后最大的赢家。
云厂商每年总共花费超过1000亿美元的资本支出,以确保他们拥有最全面、最可靠和最具成本竞争力的平台,尤其是获得英伟达最先进、最稀缺的GPU——A100与H100。GPU成为生成式AI发展上限的“卡脖子”环节。
英伟达过去一个月的股价涨幅甚至超过了微软。
ChatGPT在科技圈引发的震动仍在持续。一个不可否认的事实是,国内的AI公司在这场竞争中感到置身事外。人们惊叹于技术的进步,也感慨于实力的差距。对此,云知声创始人黄伟如此评价:

接下来,国内科技公司将如何应对这一挑战呢?