中国人体艺术 Meta版Sora无预警来袭!根除扩散模子,音视频生成/画面裁剪全包,92页论文无保留公开
刚刚中国人体艺术,Meta 抢在 OpenAI 之前推出我方的 Sora ——Meta Movie Gen
Sora 有的它都有,可创建不同宽高比的高清长视频,赞成 1080p、16 秒、每秒 16 帧。
Sora 莫得的它还有,能生成配套的布景音乐和音效、凭据文本指示裁剪视频,以及凭据用户上传的图像生成个性化视频。
Meta 暗意,这是"迄今为止起初进的媒体基础模子(Media Foundation Models)"。
只需一句"把灯笼形成飞向空中的泡泡",就能替换视频中的物体,同期透明的泡泡正确反射了布景环境。
上传一张我方的像片,就能成为 AI 电影的主角。
生成的视频不再无声,也不仅仅能安一个布景音乐。
比如看这里!视频会合营滑板轮子动掸和落地配上传神音效。(瞩目绽开声息)
有东谈主暗意,跟着无数创作家学会使用 AI 视频裁剪器具,很难思象几年后长视频和短视频会形成什么样。
这一次,与 Sora 只好演示和官网博客不同,Meta 在92 页的论文中把架构、考试细节都公开了。
不外模子自己还没开源,遭到抱抱脸工程师贴脸开大,成功在批驳区扔下 Meta 的开源主页一语气:
在这等着您嗷。
Meta 在论文中罕见强调,数据领域、模子大小、考试算力的扩展关于考试大领域媒体生成模子至关环节。通过系统地栽培这几个维度,才使得如斯弘大的媒体生成系统成为可能。
其中最另业界存眷的极少是,这一次他们全都扔掉了扩散模子和扩散蚀本函数,使用 Transformer 作念主干网罗,流匹配(Flow Matching)作念考试主见。
用 Llama3 架构作念视频模子
具体来说 Movie Gen 由视频生成和音频生成两个模子构成。
Movie Gen Video:30B 参数 Transformer 模子,不错从单个文本辅导生成 16 秒、16 帧每秒的高清视频,特地于 73K 个视频 tokens。
关于精准视频裁剪,它不错施行添加、删除或替换元素,或布景替换、表情编削等全局修改。
关于个性化视频,它在保抓变装身份一致性和通顺当然性方面获得 SOTA 性能。
Movie Gen Audio:13B 参数 Transformer 模子,不错招揽视频输入以及可选的文本辅导,生成与视频同步的高保真音频。
Movie Gen Video 通过预考试 - 微调范式完成,在主干网罗架构上,它沿用了 Transoformer,罕见是 Llama3 的许多蓄意。
预考试阶段
在海量的视频 - 文本和图像 - 文本数据集上进行纠合考试,学习对视觉宇宙的融会。这个阶段的考试数据领域达到了 O ( 100 ) M 视频和 O ( 1 ) B 图像,用以学习通顺、场景、物理、几何、音频等办法。
微调阶段
盘问东谈主员尽心挑选了一小部分高质料视频进行有监督微调,以进一步栽培生成视频的通顺灵通度和好意思学品性。
为了进一步提高服从,模子还引入了流匹配(Flow Matching)算作考试主见,这使得视频生成的服从在精度和细节发扬上优于扩散模子。
扩散模子通过从数据散布渐渐加入噪声,然后在推理时通过逆经畴前除噪声来生成样本,用无数的迭代步数徐徐靠拢主见散布。
流匹配则是通过成功学习样本从噪声向主见数据散布转念的速率,模子只需通过揣度如安在每个期间步中演化样本,即可生成高质料的闭幕。
与扩散模子比拟,流匹配步调考试愈加高效,计较老本更低,何况生成的闭幕在期间维度上具有更好的一语气性和一致性。
在举座架构上,领先通过期空自编码器(Temporal AutoEncoder, TAE)将像素空间的 RGB 图像和视频压缩到一个时空潜空间,学习一种愈加紧凑的表征。
接着,输入的文本辅导被一系列预考试的文本编码器编码成向量暗意,算作模子的条目信息。这里用到了多种互补的文本编码器,包括融会语义的编码器如 UL2、与视觉对皆的编码器如 Long-prompt MetaCLIP,以及融会视觉文本的字符级编码器如 ByT5。
终末,生成模子以 Flow Matching 的主见函数进行考试,从高斯散布采样的噪声向量算作输入,迷惑文本条目,生成一个输出潜码。这个潜码经过 TAE 解码,就得到最终的图像或视频输出。
此外 Movie Gen Video 在技艺上还引入了多项鼎新:
为了让模子同期适配图像和视频,蓄意了一套因子化的可学习位置编码(factorized learnable positional embedding)机制。对高度、宽度、期间三个维度分袂编码,再相加。这么即适配了不同宽高比,又能赞成大肆长度的视频。
针对推理服从问题,它接纳了线性 - 二次期间步长调理(linear-quadratic t-schedule)计谋。仅用 50 步就能靠拢 1000 步采样的服从,大幅栽培了推理速率。
为了进一步提高生奏服从,Movie Gen Video 模子还接纳了基于期间平铺(temporal tiling)的推理步调。支吾生成高分辨率长视频时,成功对通盘视频进行编码息争码可能会遭遇的内存限度问题。
在期间平铺推理中,输入视频在期间维度上被分割成多个片断,每个片断孤独进行编码息争码,然后在输出时将总共片断再行拼接在一谈。这种步调不仅裁减了对内存的需求,还提高了推理的服从。
此外,在解码阶段使用了不异和羼杂的花样来遗弃片断鸿沟处的伪影问题,即通过在片断之间引入不异区域,并对不异区域进行加权平均,确保生成的视频在期间维度上保抓平滑和一致。
另外 Meta 还开源了多个基准测试数据集,包括 Movie Gen Video Bench、Movie Gen Edit Bench 和 Movie Gen Audio Bench,为后续盘问者提供了泰斗的评测器具,有益于加快通盘领域的杰出。
这篇长达 92 页的论文还先容了更多在架构、考试步调、数据措置、评估、并行考试和推理优化、以及音频模子的更多信息。
感兴味的可到文末一语气查察。
One More Thing
AI 视频生成这块,这两天吵杂不停。
就在 Meta 发布 Movie Gen 之前不久,OpenAI Sora 主创之一Tim Brooks跳槽谷歌 DeepMind,接续视频生成和宇宙模拟器方面的使命。
这让许多东谈主思到,就像当年谷歌迟迟不推出大模子行使,Transformer 8 个作家纷繁出走。
咫尺 OpenAI 迟迟发布不了 Sora,主要作家也跑了。
不外另外也有东谈主合计,Tim Brooks 采选咫尺离开,能够讲明他在 OpenAI 的主要使命完成了,也让东谈主运转料想:
Meta 的发布会迫使 OpenAI 放出 Sora 来恢复吗?
(落拓咫尺为止,Sora 的另一位主创 Bill Peebles 还未发声。)
咫尺 Meta 放出了带有视频裁剪功能的模子,再加上 10 月 1 日 Pika 1.5 更新,主打给视频中物体加上溶解、延迟、挤压等物理殊效。
不出丑出,AI 视频生成下半场,要运转卷向 AI 视频裁剪了。
论文地址:
https://ai.meta.com/static-resource/movie-gen-research-paper
参考一语气:
[ 1 ] https://ai.meta.com/research/movie-gen/
[ 2 ] https://x.com/AIatMeta/status/1842188252541043075中国人体艺术