首页> 新闻资讯 >正文

炸裂登场!输入文字即可生成60秒视频,OpenAI推“王炸”模型Sora

来源:看度新闻 2024年02月18日 07:53

开发出热门聊天机器人ChatGPT后,OpenAI继续在生成式人工智能上玩出新花样。2月16日,美国开放人工智能研究中心(OpenAI)宣布正在测试一款名为Sora的“文本生成视频”模型,并发布了六段据称由Sora根据输入的文字生成的短视频。

Sora生成的视频:几只巨大的猛犸象穿过一片白雪覆盖的草地,长毛在风中轻轻飘动,远处是白雪覆盖的树木和大山。图据@CCTV国际时讯

OpenAI表示,Sora能够根据文本指令生成长达60秒的视频,同时保持视觉质量并遵守用户提示。Sora可生成具有多个角色、特定类型运动以及精确主题和背景细节的复杂场景。该模型对语言有深刻理解,能够准确领会提示,生成令人信服的角色。Sora还可以在单个生成视频中创建多个镜头,准确保留角色和视觉风格。

除了能够仅从文本指令生成视频外,该模型还能够利用现有的静止图像从中生成视频,精确地将图像内容动画化,也可以利用现有视频进行扩展或填充缺失的帧。

但目前Sora仍在测试中,仅向有限数量的创作者提供访问权限,而且这一模型现阶段仍存在明显不足,例如“左右混淆”或“无法在整个视频长度中保持视觉的连续性”。特别是在提示空间细节方面会混淆左右,也无法理解因果关系的具体实例,比如制作了一个视频,视频中有人咬了一口饼干,但之后饼干上没有咬痕。

Sora生成的视频:五只小狼在一条砾石路上嬉戏追逐,周围长满了草。Sora的缺点是动物或人会凭空出现,特别是在包含许多实体的场景中。图据澎湃新闻

Sora生成的视频中,动物或人会凭空出现,特别是在包含许多实体的场景中。此外,Sora难以精确描述随时间推移发生的事件,例如跟踪摄像机的特定轨迹。

对于模型安全性的考量,OpenAI表示,计划与一个专家团队合作测试最新模型,密切关注错误信息、仇恨内容和偏见等。OpenAI还表示正在开发帮助检测误导性信息的工具,比如检测分类器可以判断视频是何时由Sora生成的。其文本分类器可检查并拒绝违反使用政策的文本输入提示,例如极端暴力、性内容、仇恨图像、名人肖像等。“我们还开发了鲁棒性的图像分类器,用于审查每个生成视频的帧,以帮助确保它在显示给用户之前符合我们的使用政策。”

OpenAI表示,Sora将首先提供给网络安全教授,以评估产品的危害或风险。一些视觉艺术家、设计师和电影制作人也能获得Sora的访问权限,以此收集关于创意专业人士如何使用Sora的反馈。

Sora生成的视频:在“赛博朋克”背景下,一个机器人的生活故事。图据澎湃新闻

市场研究公司ABI research高级分析师里斯•海登(Reece Hayden)表示,尽管多模态大模型并不新鲜,而且文生视频的模型已经存在,但OpenAI声称Sora具有的长度和准确性使其与众不同。海登认为,这类人工智能模型可能会对数字娱乐市场产生重大影响,新的个性化内容将在各个渠道传播,“一个明显的用例是电视,创造简短的场景来支持叙事。”

接下来,Sora还将接受对抗测试(红队测试)。对于Sora的问世,社交媒体上网友反应不一——有人直呼“神奇”,有人指出Sora生成视频中的缺陷;有人“担心就此失业”,有人担心Sora会被用来“做可怕的事情”;有人呼吁尽快出台完善人工智能领域规则,还有人忧虑“‘中等人类’终被人工智能取代”。

对此,2月16日,全球多家科技企业在第60届慕尼黑安全会议(慕安会)上签署协议,承诺在2024年这个多国举行重要选举的年份打击旨在干扰选举的人工智能滥用行为。

2024年被国际舆论称为“超级选举年”。据不完全统计,今年全球将有70多个国家或地区举行重要选举,覆盖超过全球半数人口。

人工智能的负面影响被本届慕安会列为全球主要安全威胁之一。其中,用人工智能生成欺骗性内容干扰选举被认为是全球面临的重要挑战。

OpenAI宣布正在测试一款名为Sora的“文本生成视频”模型,并发布由Sora根据输入文字生成的短视频。图据央视新闻

OpenAI、亚马逊、谷歌、微软、TikTok、脸书的母公司“元”、社交平台X(原推特)等全球多家领先的科技企业在当天开幕的慕安会上签署《打击在2024年选举中欺骗性使用人工智能的技术协议》,承诺在这一特殊年份,通过技术部署减少利用人工智能生成和分发欺骗性内容干扰选举的风险。

据了解,这份协议涉及的数字内容包括用人工智能生成的欺骗性图像、视频和音频等,这些内容被认为可能在政治候选人、选举官员相关信息以及投票过程等方面欺骗选民,但该协议并没有呼吁彻底禁止此类内容。

资料来源:@CCTV国际时讯、澎湃新闻、央视新闻

112