首页> 新闻资讯 >正文

更快，更强，还免费！ChatGPT新版GPT-4o图文音频AI搞定

来源：看度新闻 2024年05月14日 17:24

更快，更强，还免费！北京时间5月13日凌晨，早有预告的OpenAI春季更新如期而至。美国开放人工智能研究中心展示了最新版本ChatGPT的新技能：与使用者展开语音对话、识别图像并展开讨论、翻译……

在这次总时长不到半个小时的发布会中，开放人工智能研究中心首席执行官萨姆·奥尔特曼（Sam Altman）并未现身，首席技术官穆里·穆拉蒂（Muri Murati）及两名研究主管马克·陈（Mark Chen）和巴雷特·佐夫（Barret Zoph）三人围坐，共同介绍了这次更新：推出桌面版ChatGPT & 网页端UI更新，以及最重要的，发布GPT-4o。

GPT-4o为新版本编号。其中的“o”代表“omni”，意为全能的。根据OpenAI官网给出的介绍，GPT-4o可以处理文本、音频和图像任意组合作的输入，并生成对应的任意组合输出。特别是音频，它可以在短至232毫秒的时间内响应用户的语音输入，平均320毫秒的用时已经接近人类在日常对话中的反应时间。

萨姆·奥尔特曼当天在博客中写道，GPT-4o就像“电影中的人工智能”技术。“与电脑交谈一直让我感觉不自然，现在自然了。”

与现有模型相比，GPT-4o在视觉和音频理解方面尤其出色。此外，GPT-4o在英语文本和代码上的性能也与GPT-4 Turbo处于同一水平线，在非英语文本上的性能有着明显提高，同时API速度快，速率限制高出5倍，成本则降低了50%。

据路透社报道，相比先前版本，GPT-4o与使用者对话基本无延迟，和人类反应速度类似。即使对话中途被打断，也能继续下去。这些都是实现逼真语音对话的标志，也是当前众多人工智能语音助手普遍面临的技术难点。

穆里·穆拉蒂表示，OpenAI使命的一个非常重要的部分，是让他们的高级人工智能工具能够向所有人免费提供，让人们对技术的能力有“直观的感受”。

在当天网络直播的展示中，这款生成式人工智能工具利用其视觉和语音能力，指导演示者在纸上逐步解出一道方程题，而不是直接给出答案。它还展示了英语与意大利语互译、用自拍照片识别情绪等能力。当一名演示者告诉它，自己正展示它是“多么有用和不可思议”时，它回答道：“哦，快别说了，怪害臊的。”

穆里·穆拉蒂在当天活动中说，GPT-4o将于今后几周内上线，用户可免费试用。ChatGPT原有付费用户将获得新版本更多使用权限。

据路透社报道，开放人工智能研究中心希望以GPT-4o在激烈的人工智能技术竞争中保持领先。该公司2022年发布ChatGPT后，短时间内每月活跃用户增至1亿。然而，研究机构西米勒网络公司的数据显示，去年以来ChatGPT用户人数呈现过山车式变化，近期才重回去年5月巅峰时期的水平。

近年来，开发更人性化、功能更强大的生成式人工智能工具竞争激烈。谷歌母公司字母表公司拟于14日召开谷歌开发者年度会议，预计届时将展示谷歌开发的相关产品。硅谷企业家埃隆·马斯克、技术企业“深层思维”创始人之一穆斯塔法·苏莱曼也分别投资开发了聊天机器人Grok和Pi，将拟人化特点作为产品主攻方向。

在英国广播公司看来，GPT-4o能够结合文本、音频和图像内容瞬间做出反应，目前在竞争中仍处于领先地位。

资料来源：新华社、澎湃新闻

113

更快，更强，还免费！ChatGPT新版GPT-4o图文音频AI搞定

更快，更强，还免费！ChatGPT新版GPT-4o图文音频AI搞定

下载看度 玩转看度号

下载看度玩转看度号