行业资讯

OpenAI推出“全能模型”GPT-4o,支持语音、视频、文字实时交互

2024-05-15
浏览次数:
返回列表

OpenAI 今天推出了 GPT-4o,这是一种新型的人工智能模型,你可以通过语音、视频和文本与它进行实时沟通。

OpenAI 表示,该模型将在未来几周内上线,并将通过 ChatGPT 应用程序和网页版免费开放给所有用户。ChatGPT 的付费订阅用户(每月 20 美元起)将能够提出更多请求。

OpenAI 的 CTO 米拉·穆拉蒂(Mira Murati)主持了 GPT-4o 的发布和现场演示。

值得一提的是,发布会的时间刚好选在谷歌召开 I/O 大会的前一天,谷歌预计将在大会上公布其最新的人工智能进展。

现有的 GPT-4 虽然提供了类似的功能,为用户提供了多种与 OpenAI 人工智能产品交互的方式,但这些功能被放在不同的模型中,导致响应时间更长,计算成本可能也更高。

GPT-4o 现在已经将这些功能合并到一个单一的模型中,穆拉蒂称之为“全能模型(omnimodel)”。她说,这意味着更快的响应和更平稳的任务转换。

该公司的演示表明,其结果是一个与 Siri 或 Alexa 非常相似的对话助手,但能够处理更复杂的提示。

穆拉蒂在谈到演示时说:“我们正在展望我们自己和机器之间互动的未来。我们认为,GPT-4o 正在将目前的合作范式转变为更具未来色彩的合作模式。未来,这种互动将变得更加自然。”

巴雷特·佐夫(Barret Zoph)和马克·陈(Mark Chen)都是 OpenAI 的研究人员,他们介绍了新模型的一些应用场景。

最令人印象深刻的是它应对实时对话的能力。你可以在模型的回应过程中打断它,它会停下来,听你讲完并调整回应,就像真人一样。

OpenAI 也展示了改变模型语调的能力。马克让模型在睡前读一个“关于机器人和爱情”的故事,然后他迅速补充称,要用更戏剧化的声音朗读。

随即,该模型变得越来越戏剧化,直到穆拉蒂要求它迅速转向令人信服的机器人声音(它很擅长这一点)。

在对话过程中,模型会出现一些短暂的停顿,这是它在推理下一步该说什么,但这并不令人意外。OpenAI 展示了一场节奏非常自然的人类与人工智能的对话。

(来源:OPENAI)

该模型还可以实时推理视觉问题。佐夫用手机拍摄了自己在一张纸上写代数方程 3x+1=4 的过程,并让 GPT-4o 提供解题思路。他指示它不要直接给出答案,而是像老师一样指导他。

该模型友好地说:“第一步是把所有带未知数 x 的项移到一边。那么,你认为我们应该如何处理这个加号?”

穆拉蒂表示,GPT-4o 将存储用户与它的交互记录,这意味着该模型“现在在你的所有对话中都具备一种连续性”。演示的其他亮点包括实时翻译,检索模型对话内容的能力,以及实时查询信息的能力。

正因为是现场演示,我们得以看到了一些小问题和小故障。在谈话中,GPT-4o 的声音可能会不合时宜地响起。在无人要求的情况下,它似乎对其中一位主持人的衣着发表了评论。

但当演示者告诉模型它做错了时,它处理得很好。它似乎能够在其他模型尚未有效合并的几种媒介上快速、有效地做出反应。

此前,OpenAI 的许多最强大的功能,如通过图像和视频进行推理,都只限于付费用户。

GPT-4o 标志着它们将首次向更广泛的公众开放,尽管目前还不清楚免费用户能与该模型进行多少次互动。


搜索