Sora: 将文字变成视频的魔法

2024年02月16日,OpenAI推出全新的文字生成视频工具Sora,为文生视频领域带来新的突破性力量。以下是官方介绍翻译,方便你对Sora有进一步了解。

我们正在向AI传授如何理解并模拟动态中的物理世界,旨在开发出能够协助人们解决现实世界互动问题的模型。

先来看视频体验下Sora创作的效果:

能力介绍

让我们来认识一下Sora,我们的文本转视频模型。Sora能够制作出长达一分钟的视频,不仅视觉效果出色,而且能忠实地反映用户的指令。

目前,我们开始让红队人员使用Sora,以便评估可能存在的风险或伤害。同时,我们也邀请了一批视觉艺术家、设计师和电影制作人体验Sora,希望通过他们的反馈,使这个模型更好地服务于创意产业的专业人士。

我们选择在研究的早期阶段就公开进展,目的是与OpenAI之外的人士合作并征集他们的意见,同时也让公众对AI未来的发展有一个直观的认识。

Sora具备生成复杂场景的能力,这些场景可以包含多个角色、特定的动作类型以及对主题和背景的精确细节描绘。这个模型不仅能理解用户的指令中所表达的需求,还能把握这些元素在物理世界中的表现形式。

Sora对语言有着深刻的理解,这让它能够精确地解读用户的指令,并生成能够表现出丰富情绪的鲜活角色。它还能在同一个视频中创建多个画面,这些画面能够一致地保持角色和视觉风格。

当然,Sora还不是完美的。它在模拟复杂场景的物理效果时可能会遇到难题,对于某些特定的因果关系也可能无法准确理解。比如,一个人咬了一口饼干后,饼干可能看起来仍然是完整的。

此外,Sora在处理空间细节时也可能出现混淆,例如将左右搞反,或者在描述随时间变化的事件时,如精确跟踪一个特定的摄影机轨迹,可能会遇到挑战。

安全措施

在Sora投入OpenAI产品使用之前,我们正采取数项重要的安全措施。我们正与红队专家合作——这些在错误信息、仇恨内容和偏见等领域的专家将对模型进行对抗测试。

我们还在开发工具来帮助检测误导性内容,比如一种检测分类器,能够识别视频是否由Sora生成。如果我们决定将此模型部署到OpenAI的产品中,我们打算未来加入C2PA元数据。

除了我们正在开发的新技术以备部署之外,我们还在利用我们为使用DALL·E 3的产品构建的现有安全措施,这些措施同样适用于Sora。

例如,一旦集成到OpenAI产品中,我们的文本分类器将会检查并拒绝那些违反我们使用政策的文本输入提示,比如那些涉及极端暴力、性内容、仇恨图像、名人形象或侵犯他人知识产权的内容。我们还开发了强大的图像分类器,用来审核生成视频的每一帧,确保其遵守我们的使用政策,然后才展示给用户。

我们将与全球的政策制定者、教育工作者和艺术家沟通,了解他们的担忧,并探索这项新技术的积极使用案例。尽管我们进行了广泛的研究和测试,但我们无法预测人们将如何以有益的方式使用我们的技术,或者他们将如何滥用它。这就是为什么我们相信,从真实世界的使用中学习,是随时间推进创建和发布越来越安全的AI系统的关键部分。

研究方法

Sora是一种扩散模型,它通过从看似静态噪声的视频开始,并通过多步骤逐渐去除噪声来生成视频。

Sora能够一次性生成整个视频,或通过扩展已生成的视频来使其更长。通过让模型同时预见多帧,我们解决了确保即使主体暂时离开视线也能保持一致的挑战。

与GPT模型类似,Sora采用了变压器架构,实现了更优的扩展性能。

我们将视频和图像视为称为“补丁”的更小数据单元的集合,每个补丁类似于GPT中的一个令牌。通过统一数据的表示方式,我们可以训练扩散变压器处理以前无法处理的更广泛的视觉数据,包括不同的持续时间、分辨率和纵横比。

Sora基于DALL·E和GPT模型的先前研究。它采用了DALL·E 3的重新描述技术,为视觉训练数据生成高度描述性的标题。结果,模型能更忠实地遵循用户在生成视频中的文本指令。

除了能够仅根据文本指令生成视频外,该模型还能够从现有的静态图像生成视频,精确地动画化图像内容,并注意到细节。模型还能够扩展现有视频或填补缺失的帧。在我们的技术报告中了解更多信息。

Sora为理解和模拟真实世界的模型奠定了基础,我们认为这将是实现通用人工智能(AGI)的一个重要里程碑。

 

AI工具箱

A16z:2023年是AI视频的飞跃之年,以及对2024年的展望

2024-2-16 15:26:01

AI工具箱

AI提示词深度训练指南

2024-4-2 22:59:01

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
搜索