更快,更强,还免费!ChatGPT新版GPT-4o图文音频AI搞定
更快,更强,还免费!北京时间5月13日凌晨,早有预告的OpenAI春季更新如期而至。美国开放人工智能研究中心展示了最新版本ChatGPT的新技能:与使用者展开语音对话、识别图像并展开讨论、翻译……
在这次总时长不到半个小时的发布会中,开放人工智能研究中心首席执行官萨姆·奥尔特曼(Sam Altman)并未现身,首席技术官穆里·穆拉蒂(Muri Murati)及两名研究主管马克·陈(Mark Chen)和巴雷特·佐夫(Barret Zoph)三人围坐,共同介绍了这次更新:推出桌面版ChatGPT & 网页端UI更新,以及最重要的,发布GPT-4o。
GPT-4o为新版本编号。其中的“o”代表“omni”,意为全能的。根据OpenAI官网给出的介绍,GPT-4o可以处理文本、音频和图像任意组合作的输入,并生成对应的任意组合输出。特别是音频,它可以在短至232毫秒的时间内响应用户的语音输入,平均320毫秒的用时已经接近人类在日常对话中的反应时间。
萨姆·奥尔特曼当天在博客中写道,GPT-4o就像“电影中的人工智能”技术。“与电脑交谈一直让我感觉不自然,现在自然了。”
与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。此外,GPT-4o在英语文本和代码上的性能也与GPT-4 Turbo处于同一水平线,在非英语文本上的性能有着明显提高,同时API速度快,速率限制高出5倍,成本则降低了50%。
据路透社报道,相比先前版本,GPT-4o与使用者对话基本无延迟,和人类反应速度类似。即使对话中途被打断,也能继续下去。这些都是实现逼真语音对话的标志,也是当前众多人工智能语音助手普遍面临的技术难点。
穆里·穆拉蒂表示,OpenAI使命的一个非常重要的部分,是让他们的高级人工智能工具能够向所有人免费提供,让人们对技术的能力有“直观的感受”。
在当天网络直播的展示中,这款生成式人工智能工具利用其视觉和语音能力,指导演示者在纸上逐步解出一道方程题,而不是直接给出答案。它还展示了英语与意大利语互译、用自拍照片识别情绪等能力。当一名演示者告诉它,自己正展示它是“多么有用和不可思议”时,它回答道:“哦,快别说了,怪害臊的。”
穆里·穆拉蒂在当天活动中说,GPT-4o将于今后几周内上线,用户可免费试用。ChatGPT原有付费用户将获得新版本更多使用权限。
据路透社报道,开放人工智能研究中心希望以GPT-4o在激烈的人工智能技术竞争中保持领先。该公司2022年发布ChatGPT后,短时间内每月活跃用户增至1亿。然而,研究机构西米勒网络公司的数据显示,去年以来ChatGPT用户人数呈现过山车式变化,近期才重回去年5月巅峰时期的水平。
近年来,开发更人性化、功能更强大的生成式人工智能工具竞争激烈。谷歌母公司字母表公司拟于14日召开谷歌开发者年度会议,预计届时将展示谷歌开发的相关产品。硅谷企业家埃隆·马斯克、技术企业“深层思维”创始人之一穆斯塔法·苏莱曼也分别投资开发了聊天机器人Grok和Pi,将拟人化特点作为产品主攻方向。
在英国广播公司看来,GPT-4o能够结合文本、音频和图像内容瞬间做出反应,目前在竞争中仍处于领先地位。
资料来源:新华社、澎湃新闻