北美 > 海外社交媒体 > 正文

响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o

观察者网

下载客户端
独家抢先看

2024年05月14日 13:32:15 来自上海市

（文/观察者网陈思佳）一夜之间，AI界震动。

当地时间5月13日，美国人工智能研究公司OpenAI在线举行“春季更新”活动，正式推出新的旗舰人工智能模型GPT-4o，以及免费向用户提供更多ChatGPT功能。GPT-4o支持文本、音频和图像的任意组合输入，并能够生成文本、音频和图像的任意组合输出。

OpenAI首席执行官奥尔特曼表示，GPT-4o的语音功能让人想起了电影《她》，“感觉就像是电影中的人工智能，我仍然对其感到惊讶。”

据美国《华尔街日报》13日报道，OpenAI首席技术官米拉·穆拉蒂（Mira Murati）在发布会上表示，GPT-4o的速度比现有的GPT-4 Turbo快了两倍，但成本仅为其一半。GPT-4o可以实时对文本、音频和图像进行推理，响应时间几乎达到人类水平。

报道称，OpenAI高管现场演示了GPT-4o的多项功能，包括分析一段计算机代码、在意大利语和英语之间进行翻译、通过摄像头引导研究人员解决基本数学问题等。

OpenAI发布GPT-4o模型视频截图

OpenAI还表示，GPT-4o可以检测用户的情绪，并以类似人类或机器人的语调与用户交谈。在演示中，ChatGPT识别到OpenAI后训练团队负责人巴雷特·佐夫（Barret Zoph）脸上的微笑，对他说：“你脸上挂着灿烂的笑容，看起来心情很好。”

但GPT-4o在演示过程中也出现一些失误。例如，它在尚未读取到图像时就开始求解方程，还一度把佐夫的面部识别为“木质表面”。英国广播公司（BBC）称，这表明生成式人工智能的“幻觉”问题仍未得到解决，距离解决聊天机器人不可靠的问题还有很长的路要走。

根据OpenAI发布的新闻稿，GPT-4o的“o”代表“omni”，即“全能”之意。GPT-4o可以在最快232毫秒的时间内响应音频输入，平均响应时间为320毫秒，几乎接近人类在交谈中的响应时间。GPT-4o的英语和代码文本性能与GPT-4 Turbo相当，在非英语文本方面也有显著提高。

OpenAI表示，在GPT-4o之前，使用语音模式与ChatGPT对话的平均延迟时间为2.8秒（GPT-3.5）和5.4秒（GPT-4）。此前的语音模式是由三个独立模型组成，一个简单模型将音频转换为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个模型将文本转换回音频。这一过程将导致GPT-4丢失大量信息，它无法识别音调、多个说话者或背景噪音，也无法输出表达情感的语音。

但在GPT-4o中，OpenAI训练了一个综合文本、图像和音频的端到端新模型，这意味着所有输入和输出都由同一个神经网络处理。不过，OpenAI也坦言，GPT-4o是该公司首个结合所有这些模式的模型，在探索模型功能及其局限性方面仍处于起步阶段。

OpenAI高管现场演示GPT-4o的检测情绪功能视频截图

穆拉蒂在发布会上表示，GPT-4o的文本和图像功能将在ChatGPT更新后提供给所有用户，付费订阅的ChatGPT Plus用户的消息数量上限是免费用户的5倍。新版语音模式也将在未来几周内向Plus用户推出。

穆拉蒂最后还感谢了美国芯片公司英伟达的支持，“我想感谢令人难以置信的OpenAI团队，也感谢黄仁勋和英伟达团队为我们提供了最先进的GPU，这使得今天的演示成为可能。”

发布会结束后，OpenAI首席执行官萨姆·奥尔特曼在其个人博客上发文称：“新的语音模式是我用过的最好的计算机界面。感觉就像是电影中的人工智能，我仍然对它感到惊讶。事实证明，达到人类水平的响应时间和表达能力是一个重大的变化。”

奥尔特曼还表示，GPT-4o的语音功能与电影《她》（Her）相似。美国有线电视新闻网（CNN）也指出，GPT-4o的语音令人想起了《她》中的人工智能。《她》是2013年在美国上映的一部科幻电影，讲述了作家西奥多爱上电脑操作系统里的女声的故事。

奥尔特曼在社交媒体上发文，提及电影《她》

资料图：美国电影《她》海报

一周以前，关于OpenAI将发布新产品的消息就甚嚣尘上。有消息称OpenAI将发布GPT-5，还有消息称OpenAI将发布基于ChatGPT的搜索引擎以挑战谷歌，但奥尔特曼否认了这些传言。他当时表示：“不是GPT-5，也不是搜索引擎，但我们一直在努力开发一些我们认为人们会喜欢的新东西。对我来说感觉就像魔术一样。”

《华尔街日报》注意到，OpenAI在谷歌年度开发者大会的前一天推出了GPT-4o，预计谷歌将在当地时间5月14日的开发者大会公布自己的新产品。GPT-4o的推出似乎意味着，在投入大量资金和精力研发新产品之后，OpenAI和其他科技巨头正寻求扩大用户群体并获得更多的研究资金。

美国“商业内幕”网站评论称，这使得美国科技巨头的人工智能竞赛变得更加激烈，美国亚马逊公司的Alexa、苹果公司的Siri和谷歌的Gemini都还只能在语音对话中作出机械式的回应，与GPT-4o的表现有明显差距。预计这些公司将在未来几个月发布新的AI产品。

但AI技术的快速发展也引起一些担忧。法新社指出，围绕版权问题的争议持续困扰着AI企业。OpenAI公司已经与美联社、英国《金融时报》和德国阿克塞尔·施普林格集团签署合作协议，但它也面临来自美国《纽约时报》的诉讼。

许多创作者也担心，AI大模型的训练涉及侵权问题。去年9月，包括美国知名作家、《冰与火之歌》作者乔治·马丁在内的17名作家通过美国作家协会发起集体诉讼，指控OpenAI“大规模、系统性盗窃”，使用受版权保护的作品训练AI。

路透社此前指出，这些诉讼牵涉到一个极具争议的问题，即科技公司使用从互联网上抓取的图像、文字和其他数据来训练AI是否构成侵权。在一些创作者看来，科技公司在未经许可的情况下使用他们的作品，侵犯了他们的版权。但多数科技公司认为，这是对受版权保护内容的合理使用。

响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o

频道推荐

如意甘肃随心GO

0条评论2026-05-16 17:58:35

图片新闻