本文目录
本文改编自a16z合伙人Justine Moore在X(前Twitter)上的分享
2023年标志着AI视频技术的突破。年初,市面上尚不存在公开的文本转视频模型。然而,短短一年后,我们见证了数十种视频生成产品的活跃应用,全球范围内有数以百万计的用户开始利用文本或图像提示创作短视频。
尽管这些产品的功能还相对有限,大多数只能生成3到4秒的视频,且视频质量参差不齐,角色一致性等问题仍待解决,我们距离能够仅凭一句话(或多句话)创作出皮克斯级短片的目标还很遥远。
然而,过去一年在视频生成技术上的进步预示着我们正站在一场巨变的起点,这与图像生成领域的革新类似。文本到视频模型的持续改进,以及图像到视频和视频到视频技术的兴起,正展现出强大的动力。
为了探索这一创新浪潮,我们追踪了迄今为止的重大进展、值得关注的公司,以及该领域尚待回答的关键问题。
如何你在哪里可以创建AI视频?
产品简介
我们已经追踪到了21款公开的产品。你可能已经听说过Runway、Pika、Genmo和Stable Video Diffusion等,但还有更多产品等待发掘。
这些产品大多源自初创公司,很多是从Discord机器人开始的,这样做有几个明显优势:
- 无需构建面向消费者的界面,可以全力提升模型质量;
- 可以利用Discord庞大的1.5亿月活跃用户基础进行推广,尤其是当你的产品被平台“发现”页面推荐时;
- 公共频道能够为新用户提供创作灵感,并为产品增加社交证明。
随着产品的成熟,我们开始见到更多视频产品构建自己的网站甚至移动应用。尽管Discord为产品提供了良好的起点,但它在添加更多生成之外的工作流程方面受限,团队对消费者体验的控制也非常有限。值得注意的是,有很大一部分人群并不使用Discord,可能会对其界面感到困惑或不频繁回访。
研究与大型科技公司
谷歌、Meta等大型科技公司在哪里?它们在公开产品列表中明显缺席,尽管它们已经发布了诸如Meta的Emu Video、谷歌的VideoPoet和Lumiere、字节跳动的MagicVideo等模型的宣传文章。
到目前为止,除了阿里巴巴外,这些大型科技公司选择不公开发布他们的视频生成产品。相反,它们发布了关于视频生成各种形式的论文,并分享了演示视频,却未宣布这些模型是否会公开。
这些公司拥有巨大的分发优势,产品用户达到数十亿。那么,为什么它们不发布视频模型,尤其是当它们的演示看起来很有吸引力,且有机会在这个新兴领域占据重要市场份额时呢?
重要的是要记住,这些公司的行动步骤缓慢。大多数公司至今还未发布文本到图像产品,尽管Instagram去年推出了故事背景的AI生成器,TikTok也在悄悄推出AI滤镜。法律、安全和版权问题经常使这些公司难以将研究转化为产品,并推迟产品发布,这为新进入者提供了抢占市场的机会。
AI视频的未来展望
如果你曾使用过这些产品,你就会知道,要让AI视频做好黄金时段的准备还有很多工作要做。虽然模型有可能生成与你的提示完全匹配的精美剪辑,但这种情况相对罕见。更常见的情况是,你需要多次重新生成并对输出进行裁剪或编辑,以获得专业级的剪辑。
这个领域的公司主要专注于解决几个核心问题,这些问题目前还没有得到解决:
- 控制 — 你能控制场景中发生的事情吗(例如,如果你提示“男人向前走”,运动是否如描述?)以及如何控制“相机”的移动?对于后者,许多产品已经增加了让你缩放或平移相机甚至添加特效的功能。前者 — 运动是否如描述的那样 — 更难解决。这是模型质量的基础问题,尽管有些公司正在尝试在生成前给用户更多控制权。Runway的动作笔刷就是一个很好的例子,它允许你突出显示图像的特定区域并确定它们的移动方式。
- 时间连贯性 — 如何使字符、物体和背景在帧间保持一致,而不是变形或扭曲?这是所有公开模型中一个非常普遍的问题。如果你今天看到一个时间连贯的视频,它很可能是视频到视频的转换,采用视频并转换风格,如AnimateDiff prompt travel。
- 长度 — 你能制作超过几秒钟的剪辑吗?这与时间连贯性紧密相关。许多公司限制你可以生成的视频长度,因为它们无法在几秒钟后保证任何种类的一致性。如果你看到一个长形AI视频,你会发现它由许多短片组成,需要数十甚至数百个提示!
未解决的问题
AI视频感觉像是处于GPT-2的水平。我们在过去一年取得了巨大的进步,但要让日常消费者每天使用这些产品,还有很长的路要走。视频的“ChatGPT时刻”何时到来?在这个领域,研究人员和创始人之间没有广泛共识,仍有几个问题待解:
- 当前的扩散架构是否适用于视频? 如今的视频模型基于扩散:它们本质上是生成帧并尝试在它们之间创建时间上连贯的动画(有多种策略实现这一点)。它们缺乏对3D空间以及物体应如何相互作用的内在理解,这就是变形/扭曲的原因。例如,看到一个人在视频的前半部分走在街道上,然后在后半部分融入地面,并不少见 — 模型没有“硬”表面的概念。由于缺乏场景的3D概念化,从不同角度生成相同的剪辑也是困难的(如果不是不可能的)。
有些人认为视频模型不需要对3D空间的理解。如果它们接受足够质量的数据训练,它们将能学习物体之间的关系以及如何从不同角度呈现场景。其他人则相信,这些模型需要一个3D引擎来生成时间上连贯的内容,特别是在超过几秒的情况下。
- 高质量训练数据从哪里来? 训练视频模型比其他内容形式更困难,主要是因为缺乏足够的高质量、标记好的训练数据。语言模型通常在公共数据集如Common Crawl上训练,而图像模型则在标记的数据集(文本-图像对)上训练,如LAION和ImageNet。
视频数据更难获得。尽管像YouTube和TikTok这样的平台上公开可访问的视频并不缺乏,但它们没有标签,可能不够多样化(例如,猫的剪辑和网红的道歉可能在数据集中被过度代表)。视频数据的“圣杯”可能来自工作室或制作公司,它们拥有从多个角度拍摄的长视频,并附有剧本和指导。然而,他们是否愿意为训练授权这些数据还有待确定。
- 这些用例将如何在平台/模型之间细分? 我们在几乎每个内容形式中看到的是,没有一个模型能够“赢得”所有用例。例如,Midjourney、Ideogram和DALL-E都有独特的风格,并擅长生成不同类型的图像。
我们预计视频将有类似的动态。如果你测试今天的文本到视频和图像到视频模型,你会发现它们擅长不同的风格、运动类型和场景构成(我们将在下面展示两个例子)。围绕这些模型构建的产品很可能会进一步在工作流程方面分化,并服务于不同的终端市场。而且这还不包括那些不进行纯文本到视频的相关产品,但正在解决像动画人类头像、VFX和视频到视频等事情。
Prompt: “Snow falling on a city street, photorealistic”
Genmo
Runway
Stable Video Diffusion
Pika Labs
Prompt: “Young boy playing with tiger, anime style”
Genmo
Runway
Stable Video Diffusion
Pika Labs
- 谁将打通整个工作流程? 除了纯视频生成外,制作一个好的剪辑或电影通常需要编辑,特别是在当前范式中,许多创作者使用视频模型来为在另一个平台上创建的照片添加动画。看到一个视频从Midjourney图像开始,然后在Runway或Pika上被动画化,并在Topaz中被放大并不少见。然后,创作者将视频带到像Capcut或Kapwing这样的编辑平台上,添加声轨和旁白(通常在其他产品上生成,如Suno和ElevenLabs)。
在这么多产品之间来回切换是没有意义的。我们期待看到视频生成平台开始自己添加一些这些功能。例如,Pika现在允许你在他们的网站上放大视频。然而,我们也看好一个AI原生的编辑平台,它使在一个地方跨模态从不同模型生成内容并将这些内容拼凑在一起变得容易。