中国人体艺术 Meta版Sora无预警来袭！根除扩散模子，音视频生成/画面裁剪全包，92页论文无保留公开

发布日期：2024-10-05 20:37 点击次数：178

色酷影院

刚刚中国人体艺术，Meta 抢在 OpenAI 之前推出我方的 Sora ——Meta Movie Gen

Sora 有的它都有，可创建不同宽高比的高清长视频，赞成 1080p、16 秒、每秒 16 帧。

Sora 莫得的它还有，能生成配套的布景音乐和音效、凭据文本指示裁剪视频，以及凭据用户上传的图像生成个性化视频。

Meta 暗意，这是"迄今为止起初进的媒体基础模子（Media Foundation Models）"。

只需一句"把灯笼形成飞向空中的泡泡"，就能替换视频中的物体，同期透明的泡泡正确反射了布景环境。

上传一张我方的像片，就能成为 AI 电影的主角。

生成的视频不再无声，也不仅仅能安一个布景音乐。

比如看这里！视频会合营滑板轮子动掸和落地配上传神音效。（瞩目绽开声息）

有东谈主暗意，跟着无数创作家学会使用 AI 视频裁剪器具，很难思象几年后长视频和短视频会形成什么样。

这一次，与 Sora 只好演示和官网博客不同，Meta 在92 页的论文中把架构、考试细节都公开了。

不外模子自己还没开源，遭到抱抱脸工程师贴脸开大，成功在批驳区扔下 Meta 的开源主页一语气：

在这等着您嗷。

Meta 在论文中罕见强调，数据领域、模子大小、考试算力的扩展关于考试大领域媒体生成模子至关环节。通过系统地栽培这几个维度，才使得如斯弘大的媒体生成系统成为可能。

其中最另业界存眷的极少是，这一次他们全都扔掉了扩散模子和扩散蚀本函数，使用 Transformer 作念主干网罗，流匹配（Flow Matching）作念考试主见。

用 Llama3 架构作念视频模子

具体来说 Movie Gen 由视频生成和音频生成两个模子构成。

Movie Gen Video：30B 参数 Transformer 模子，不错从单个文本辅导生成 16 秒、16 帧每秒的高清视频，特地于 73K 个视频 tokens。

关于精准视频裁剪，它不错施行添加、删除或替换元素，或布景替换、表情编削等全局修改。

关于个性化视频，它在保抓变装身份一致性和通顺当然性方面获得 SOTA 性能。

Movie Gen Audio：13B 参数 Transformer 模子，不错招揽视频输入以及可选的文本辅导，生成与视频同步的高保真音频。

Movie Gen Video 通过预考试 - 微调范式完成，在主干网罗架构上，它沿用了 Transoformer，罕见是 Llama3 的许多蓄意。

预考试阶段

在海量的视频 - 文本和图像 - 文本数据集上进行纠合考试，学习对视觉宇宙的融会。这个阶段的考试数据领域达到了 O ( 100 ) M 视频和 O ( 1 ) B 图像，用以学习通顺、场景、物理、几何、音频等办法。

微调阶段

盘问东谈主员尽心挑选了一小部分高质料视频进行有监督微调，以进一步栽培生成视频的通顺灵通度和好意思学品性。

为了进一步提高服从，模子还引入了流匹配（Flow Matching）算作考试主见，这使得视频生成的服从在精度和细节发扬上优于扩散模子。

扩散模子通过从数据散布渐渐加入噪声，然后在推理时通过逆经畴前除噪声来生成样本，用无数的迭代步数徐徐靠拢主见散布。

流匹配则是通过成功学习样本从噪声向主见数据散布转念的速率，模子只需通过揣度如安在每个期间步中演化样本，即可生成高质料的闭幕。

与扩散模子比拟，流匹配步调考试愈加高效，计较老本更低，何况生成的闭幕在期间维度上具有更好的一语气性和一致性。

在举座架构上，领先通过期空自编码器（Temporal AutoEncoder， TAE）将像素空间的 RGB 图像和视频压缩到一个时空潜空间，学习一种愈加紧凑的表征。

接着，输入的文本辅导被一系列预考试的文本编码器编码成向量暗意，算作模子的条目信息。这里用到了多种互补的文本编码器，包括融会语义的编码器如 UL2、与视觉对皆的编码器如 Long-prompt MetaCLIP，以及融会视觉文本的字符级编码器如 ByT5。

终末，生成模子以 Flow Matching 的主见函数进行考试，从高斯散布采样的噪声向量算作输入，迷惑文本条目，生成一个输出潜码。这个潜码经过 TAE 解码，就得到最终的图像或视频输出。

此外 Movie Gen Video 在技艺上还引入了多项鼎新：

为了让模子同期适配图像和视频，蓄意了一套因子化的可学习位置编码（factorized learnable positional embedding）机制。对高度、宽度、期间三个维度分袂编码，再相加。这么即适配了不同宽高比，又能赞成大肆长度的视频。

针对推理服从问题，它接纳了线性 - 二次期间步长调理（linear-quadratic t-schedule）计谋。仅用 50 步就能靠拢 1000 步采样的服从，大幅栽培了推理速率。

为了进一步提高生奏服从，Movie Gen Video 模子还接纳了基于期间平铺（temporal tiling）的推理步调。支吾生成高分辨率长视频时，成功对通盘视频进行编码息争码可能会遭遇的内存限度问题。

在期间平铺推理中，输入视频在期间维度上被分割成多个片断，每个片断孤独进行编码息争码，然后在输出时将总共片断再行拼接在一谈。这种步调不仅裁减了对内存的需求，还提高了推理的服从。

此外，在解码阶段使用了不异和羼杂的花样来遗弃片断鸿沟处的伪影问题，即通过在片断之间引入不异区域，并对不异区域进行加权平均，确保生成的视频在期间维度上保抓平滑和一致。

另外 Meta 还开源了多个基准测试数据集，包括 Movie Gen Video Bench、Movie Gen Edit Bench 和 Movie Gen Audio Bench，为后续盘问者提供了泰斗的评测器具，有益于加快通盘领域的杰出。

这篇长达 92 页的论文还先容了更多在架构、考试步调、数据措置、评估、并行考试和推理优化、以及音频模子的更多信息。

感兴味的可到文末一语气查察。

One More Thing

AI 视频生成这块，这两天吵杂不停。

就在 Meta 发布 Movie Gen 之前不久，OpenAI Sora 主创之一Tim Brooks跳槽谷歌 DeepMind，接续视频生成和宇宙模拟器方面的使命。

这让许多东谈主思到，就像当年谷歌迟迟不推出大模子行使，Transformer 8 个作家纷繁出走。

咫尺 OpenAI 迟迟发布不了 Sora，主要作家也跑了。

不外另外也有东谈主合计，Tim Brooks 采选咫尺离开，能够讲明他在 OpenAI 的主要使命完成了，也让东谈主运转料想：

Meta 的发布会迫使 OpenAI 放出 Sora 来恢复吗？

（落拓咫尺为止，Sora 的另一位主创 Bill Peebles 还未发声。）

咫尺 Meta 放出了带有视频裁剪功能的模子，再加上 10 月 1 日 Pika 1.5 更新，主打给视频中物体加上溶解、延迟、挤压等物理殊效。

不出丑出，AI 视频生成下半场，要运转卷向 AI 视频裁剪了。

论文地址：

https://ai.meta.com/static-resource/movie-gen-research-paper

参考一语气：

[ 1 ] https://ai.meta.com/research/movie-gen/

[ 2 ] https://x.com/AIatMeta/status/1842188252541043075中国人体艺术

中国人体艺术 Meta版Sora无预警来袭！根除扩散模子，音视频生成/画面裁剪全包，92页论文无保留公开

热点资讯

相关资讯