随着人工智能技术的迅猛发展,各种强大的系统层出不穷。最近,Claude 2 的首次亮相标志着公众可用的第二强大人工智能系统的到来。就在一周前,OpenAI 发布了 Code Interpreter,这是迄今为止最为精细的人工智能模式。此外,部分人工智能系统也获得了图像理解的能力。
然而,令人困惑的是,几乎没有任何人工智能实验室提供用户文档。相反,唯一的用户指南似乎是 Twitter 上一些网红的推文。对于声称关心技术正确使用的组织来说,依赖小道消息传播的文档显得十分奇怪,但这就是现实。
虽然这份用户指南并不全面,但它可以为理解人工智能的现状提供一些指导。我每隔几个月就会为我的学生和感兴趣的读者编写一份人工智能入门指南,每次都需要进行重大修改。过去几个月的变化尤其迅速。
这份指南基于我的个人经验,重点在于如何选择合适的工具来完成任务。
主要的大语言模型
当我们提到人工智能时,通常指的是大型语言模型(LLM)。大多数人工智能应用都是由 LLM 提供支持,而这些基础模型主要由少数几家组织开发。用户可以通过聊天机器人(Chatbot)直接访问这些模型:OpenAI 提供了 GPT-3.5 和 GPT-4,ChatGPT 以及微软的 Bing(通过 Edge 浏览器访问)均基于这些模型。谷歌的 Bard 品牌下也有多款模型,而 Anthropic 则推出了 Claude 和 Claude 2 模型。
虽然还有其他一些 LLM,但本文不作详细讨论。第一个是 Pi,由 Inflection 构建,专注于对话,确实非常想成为你的朋友(不妨尝试一下)。除了聊天,它不喜欢做太多事情,想让它为你工作可能会让人沮丧。我们也不会介绍任何开源模型,这些模型通常无法访问,或对普通用户没有太大用处,但它们确实有潜力,未来的指南可能会涵盖它们。
以下是 LLM 现状的快速参考图表:
前四个(包括 Bing)都是 OpenAI 的系统。目前 OpenAI 的人工智能主要有这两种:3.5 和 4。GPT-3.5 在去年 11 月引发了一波人工智能热潮,而 GPT-4 在今年春季首次亮相,功能更为强大。新的派生版通过插件接入互联网及其他应用。虽然插件种类繁多,但大多数并不实用,用户应根据需求自行探索。Code Interpreter 是 ChatGPT 的一个强大版本,可以运行 Python 程序。如果你从未为 OpenAI 付费,那么你只接触过 3.5。除了插件版和暂时停止浏览的 GPT-4 版外,这些模型都未连接到互联网。微软的 Bing 混合使用了 4 和 3.5,通常是 GPT-4 家族中第一个推出新功能的模型。Bing 既可以创建和识别图像,也可以在网页浏览器中读取文档,功能强大但使用体验略显奇怪。
谷歌一直在测试其消费者使用的人工智能,即 Bard,背后由多种基础模型提供支持,其中最近的一个是 PaLM 2。尽管 LLM 技术由谷歌开发,但其产品表现令人失望,尽管最近的改进表明他们仍在努力研究底层技术,我对他们仍抱有希望。Bard 已获得有限代码运行和图像解释的能力,但我现在一般会避免使用它。
最后,Anthropic 发布了 Claude 2。Claude 的最大亮点在于其上下文窗口非常大,几乎可以容纳整本书或多个 PDF。与其他大型语言模型相比,其恶意行为的可能性更小。
接下来,我们讨论如何使用这些工具:
写作
最佳免费选项: Bing 与 Claude 2
付费选项: ChatGPT 4.0/带插件的 ChatGPT
目前,GPT-4 仍然是最强大的人工智能写作工具,用户可以通过 Bing 免费访问(选择“创意模式”),也可以通过每月 20 美元订阅 ChatGPT 来访问。Claude 的表现也相当不错,且有免费选项,尽管存在一些限制。
这些工具已被直接集成到常见的办公应用中。Microsoft Office 将纳入由 GPT 提供支持的 Copilot,Google Docs 将集成 Bard 的建议。这些创新将对写作产生深远影响。
以下是利用人工智能帮助写作的一些方法:
- 写草稿: 无论是博客文章、论文、宣传材料、演讲稿,还是短篇故事,人工智能都能帮助你生成草稿。只需给出提示,人工智能便能高效完成任务。
- 提升写作质量: 将文本粘贴给人工智能,让其改进内容或提供建议,帮助你更好地适应特定受众。
- 完成任务: 人工智能可以处理你没有时间完成的任务,像实习生一样使用它,撰写电子邮件、创建销售模板等。
- 激发灵感: 面对挑战时,人工智能可以为你提供动力,帮助你克服困难。
需要注意的事项: 人工智能可能会产生“幻觉”,生成看似合理但实际上虚假的内容。务必核实所有信息,尤其是引用和参考文献。与其他模型相比,Bing 产生幻觉的情况较少,因为其接入互联网,能够获取事实信息,但幻觉无法完全消除。
此外,人工智能无法解释自身的决策过程,可能会给出虚构的答案。理解系统的偏见也非常具有挑战性。
图像制作
最透明的选项: Adobe Firefly
开源选项: Stable Diffusion
最佳免费选项: Bing 或 Bing Image Creator(使用 DALL-E)、Playground(可使用多个模型)
图像质量最佳的选项: Midjourney
可供大多数人使用的图像生成器主要有四种:
- Stable Diffusion: 开源工具,适合高端计算机使用。需要学习如何编写提示,但一旦掌握,便能生成优质结果。
- DALL-E: 来自 OpenAI,Bing 和 Bing Image Creator 已集成该系统,可靠性较高。
- Midjourney: 截至 2023 年中,表现最佳,学习曲线较低,用户只需输入提示即可获得良好结果。
- Adobe Firefly: 内置于多款 Adobe 产品中,但在质量上略逊于 DALL-E 和 Midjourney。
以下是这些工具的对比:
需要注意的事项: 这些系统可能存在偏见,因为训练模型的数据可能不平衡。此外,尽管你拥有生成图像的版权,但法律规定仍然模糊。
提出创意
最佳免费选择: Bing
付费选项: ChatGPT 4.0,但由于互联网连接,Bing 可能更好
尽管人工智能存在诸多限制,但它在生成创意方面表现出色。通过提供正确的提示,用户可以激发人工智能的创造力,生成大量创意。
最佳动画工具: D-ID,用于为视频中的角色制作动画。Runway v2 可用于文本生成视频。
最佳声音克隆: ElevenLabs
生成视频已变得简单,完全由人工智能生成的角色、脚本、声音和动画都不再是难题。最近发布的 Runway v2 是第一个商用的文本生成视频工具,值得关注。
需要注意的事项: 深度伪造是一个重要问题,使用这些系统时需遵循道德规范。
处理文档和数据
数据处理: Code Interpreter
文档处理: Claude 2 适合大型文档或同时处理多个文档,Bing 侧边栏可用于较小的文档和网页。
我上周写了一篇关于 Code Interpreter 的文章。它是 GPT-4 的一种模式,用户可以上传文件,编写和运行代码,下载结果。它可用于执行程序、数据分析和创建各种文件。尽管关于未经训练的人使用它进行分析的风险存在争议,但许多专家对其能力印象深刻。
在文本处理方面,Claude 2 表现出色,能够处理复杂的学术文章并提供摘要。
需要注意的事项: 这些系统仍可能产生幻觉,确保准确性需仔细检查生成结果。
获取信息及学习
最佳免费选择: Bing
付费选项: 通常 Bing 是最佳选择。对于儿童,Khan Academy 的 Khanmigo 提供了由 GPT-4 支持的学习辅导。
如果你打算将人工智能作为搜索引擎,建议谨慎使用。产生幻觉的风险较高,且大多数人工智能未连接互联网。根据研究,谨慎使用人工智能相较于搜索引擎可能提供更有用的答案,尤其在技术支持和建议方面。
人工智能在教育中的潜力令人兴奋,可以帮助我们学习。你可以让人工智能解释概念,但务必核实关键信息。
结语
随着技术的快速发展,今天介绍的工具可能很快就会被更新的工具所取代。关于人工智能,请记住以下两点:
- 人工智能是一种工具,但并不总是合适的工具。请仔细考虑其适用性。
- 需关注道德问题,人工智能可能被用于侵犯版权、作弊等行为。使用这些工具时,你有责任遵循道德规范。
我们正处于一场快速推进的革命的早期阶段。你还有其他用途想分享吗?请在评论中告诉我。