亚博体彩
新闻
头条

每经网首页 > 头条 > 正文

奥尔特曼选取网友提示词,用OpenAI新款大模型Sora生成亚博体彩

亚博体彩 新闻 2024-02-16 14:36:56

每经编辑 毕陆名

2月16日凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生亚博体彩 模型Sora。据介绍,Sora可以直接输出长达60秒的亚博体彩 ,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

目前官网上已经更新了48个亚博体彩 demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有亚博体彩 中的缺失帧来生成亚博体彩 。

一位时髦女士漫步在东京街头,周围是温暖闪烁的霓虹灯和动感的城市标志。

一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅,电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间,独特的电影风格、采用35毫米胶片拍摄,色彩鲜艳。

竖屏超近景视角下,这只蜥蜴细节拉满:

OpenAI表示,公司正在教授人工智能理解和模拟运动中的物理世界,目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此,隆重推出文本到亚博体彩 模型——Sora。Sora可以生成长达一分钟的亚博体彩 ,同时保证视觉质量和符合用户提示的要求。

OpenAI创始人兼CEOSam Altman(奥尔特曼)太会玩了,让网友评论回复Prompt(大语言模型中的提示词),他选一些用Sora生成亚博体彩 。截至发稿,奥尔特曼连发多条根据网友提示词生成的亚博体彩 ,包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学亚博体彩 的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些亚博体彩 时长为9秒至17秒不等。








技术层面,Sora采用扩散模型(diffusion probabilistic models)技术,基于Transformer架构,但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Stable Diffusion的图像与亚博体彩 生成器同样基于扩散模型。

同时,Sora也存在一定的技术不成熟之处。OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。

根据OpenAI关于Sora的技术报告《Video generation models as world simulators》(以下简称报告),跟大语言模型一样,Sora也有涌现的模拟能力。

OpenAI方面在技术报告中表示,并未将Sora单纯视作亚博体彩 模型,而是将亚博体彩 生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真亚博体彩 ,OpenAI认为扩展亚博体彩 生成模型是构建物理世界通用模拟器的一条有前途的途径。

报告指出,OpenAI研究了在亚博体彩 数据上进行大规模训练的生成模型。具体而言,联合训练了文本条件扩散模型,该模型可处理不同持续时间、分辨率和长宽比的亚博体彩 和图像。OpenAI利用了一种基于时空补丁的亚博体彩 和图像潜在代码的变压器架构。最大的模型Sora能够生成一分钟的高保真亚博体彩 。结果表明,扩展亚博体彩 生成模型是构建通用物理世界模拟器的有前途的途径。

报告重点介绍了OpenAI将各类型视觉数据转化为统一表示的方法,这种方法能够对生成模型进行大规模训练,并对Sora的能力与局限进行定性评估。先前的大量研究已经探索了使用多种方法对亚博体彩 数据进行生成建模,包括循环网络、生成对抗网络、自回归转换器和扩散模型。这些研究往往只关注于狭窄类别的视觉数据、较短的亚博体彩 或固定大小的亚博体彩 。而Sora是一个通用的视觉数据模型,它能够生成跨越不同时长、纵横比和分辨率的亚博体彩 和图像,甚至能够生成长达一分钟的高清亚博体彩 。

OpenAI从大型语言模型中汲取灵感,这些模型通过训练互联网规模的数据获得通用能力。LLM范式的成功在一定程度上得益于令牌的使用,这些令牌巧妙地统一了文本的不同模式——代码、数学和各种自然语言。在这项工作中,OpenAI考虑视觉数据的生成模型如何继承这些优势。虽然LLM有文本令牌,但Sora有视觉补丁。之前已经证明,补丁是视觉数据模型的有效表示。补丁是一种高度可扩展且有效的表示,可用于在多种类型的亚博体彩 和图像上训练生成模型。

Sora支持采样多种分辨率亚博体彩 ,包括1920x1080p的宽屏亚博体彩 、1080x1920的竖屏亚博体彩 以及介于两者之间的所有分辨率。这使得Sora能够直接以原生纵横比为不同的设备创建内容。同时,它还允许在生成全分辨率内容之前,使用相同的模型快速制作较小尺寸的内容原型。

亚博体彩 新闻综合OpenAI官网、公开消息

封面图片来源:亚博体彩 截图

如需转载请与《亚博体彩 新闻》报社联系。
未经《亚博体彩 新闻》报社授权,严禁转载或镜像,违者必究。

读者热线:4008890008

特别提醒:如果我们使用了您的图片,请作者与本站联系索取稿酬。如您不希望作品出现在本站,可联系我们要求撤下您的作品。

亚博体彩 模型 Ai

欢迎关注亚博体彩 新闻APP

每经经济新闻官方APP

1

0