【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元-葫芦娃AI-一起学AI葫芦娃AI

【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元

1年前发布

04213

文章导读

近日，阿里巴巴在人工智能领域再次取得突破，推出了一款名为原子视频（AtomoVideo）的高保真图像到视频生成框架。

这一技术的问世，标志着基于文本到图像生成技术的视频生成领域取得了显著的快速发展。

论文解读

论文地址：https://arxiv.org/abs/2403.01800

图片[1]-葫芦娃AI-一起学AI【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元-葫芦娃AI-一起学AI葫芦娃AI

左边为原始图像，右边为生成帧，下方为提示词

摘要

近期，基于卓越的文字转图片技术，视频生成领域取得了显着快速的发展。据阿里巴巴团队自己介绍：“在这项工作中，我们提出了一个高保真度的图片转视频生成框架，名为“原子视频”（AtomoVideo）。借助于多粒度图像注入，我们实现了生成视频对给定图像更高的保真度。”

图片[2]-葫芦娃AI-一起学AI【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元-葫芦娃AI-一起学AI葫芦娃AI

模型技术解读

图片[3]-葫芦娃AI-一起学AI【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元-葫芦娃AI-一起学AI葫芦娃AI

原子视频能够从静态图像生成高保真度的动态视频，其动作强度和连贯性超越现有技术。

此外，“原子视频”还成功整合文字转图片（T2I）和文字转视频（T2V）模型，提供了更定制化和可控的视频生成选项。

研究者们指出，图像转视频生成的难点在于在可能的情况下保持给定图像的风格、内容和细节，这一点与纯粹的文字转视频生成有所不同。

为了提高生成视频与原始图像之间的一致性，“原子视频”利用跨注意力机制，同时将高级语义线索注入到模型中。

“原子视频”在训练中采用了零终端信噪比和V预测策略，显著提高了生成过程的稳定性，避免了依赖噪声先验。

框架还能够适应视频帧预测任务，通过迭代生成长视频，且可与个性化T2I模型和可控模型相结合，加强了视频生成的灵活性。

而正如AK大神所说，效果从技术角度出发效果是很“卓越”的

图片[4]-葫芦娃AI-一起学AI【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元-葫芦娃AI-一起学AI葫芦娃AI

预测帧生成技术

图片[5]-葫芦娃AI-一起学AI【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元-葫芦娃AI-一起学AI葫芦娃AI

原文总结：

“原子视频”利用先进的文图一体化模型（T2I）和新加入的时序卷积与注意模块来创建高保真视频。

该框架修改输入通道数，以注入图像信息，通过变分自编码器（VAE）编码低阶信息，增强了生成视频对给定图像的保真度。

高阶图像语义是通过CLIP图像编码器编码并通过跨注意力层注入，以提高语义控制能力。

在视频帧预测方面，框架通过迭代生成接续的视频帧，解决了长视频生成中受GPU内存约束的挑战。

根据内部15M数据集进行训练，视频长度约10-30秒，使用零终端信噪比和V预测策略，提高了视频生成的稳定性。

在视频生成过程中，结合图像条件和文本提示式输入，验证了该方法可以显著增强生成输出的稳定性。

解释得通俗易懂一些：

它就像电影特效，可以提前决定视频里的动作要怎么展现，这让创建个性化视频变得更加容易。

创造一个长视频通常很难，因为需要大量的计算资源，但是这项技术通过一种巧妙的方式，一步步来生成整个视频，从而解决了这个问题。

他们甚至搞了一个大型数据库来教这个系统如何工作，这使得结果更稳定，视频看起来更自然。

最终，这项技术的意义在于，通过简单地给它一张图片和一些描述，它就会给你一个稳定、逼真的视频，就像是魔法一样。

实验结果对比

阿里巴巴还给出了与其他图生视频模型的对比，有Gen-2、Pika、SVD。

图片[6]-葫芦娃AI-一起学AI【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元-葫芦娃AI-一起学AI葫芦娃AI

提示词：一个名为WALL-E的小勇敢的机器人在荒无人烟、垃圾遍布的地球上将垃圾压缩成整齐的方块，他的眼睛在发现任何宝物时都闪耀着好奇的光芒

图片[7]-葫芦娃AI-一起学AI【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元-葫芦娃AI-一起学AI葫芦娃AI

提示词：想象一位冒险的宇航员，在月光下优雅起舞，周围是盛开的迷人花园，这一场景被构想成一个令人惊叹的3D渲染图。

使用SD1.5、epiCRealism models训练和的效果对比

图片[8]-葫芦娃AI-一起学AI【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元-葫芦娃AI-一起学AI葫芦娃AI

提示词：辛巴站在镜头前面

使用 SD-1.5 模型生成的结果与训练一致.(上图)

使用 EpiCRalism 模型生成图像到视频的生成注入了更多的光元素。(下图)

据阿里巴巴自己评价“原子视频保持得更好稳定性和更大的运动强度。”

大家觉着呢？

其他生成结果

512 * 512图片：

图片[9]-葫芦娃AI-一起学AI【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元-葫芦娃AI-一起学AI葫芦娃AI

上图提示词：

1.一只熊猫站在冲浪板上，在日落的海洋中，4k。

2.在波涛汹涌的海洋中飞越海盗船之间的激烈战斗。

3.夜晚天空中的烟花表演。

4.马来西亚城市附近河上桥下的渡轮。

图片[10]-葫芦娃AI-一起学AI【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元-葫芦娃AI-一起学AI葫芦娃AI

上图提示词：

1.一堆干树叶在森林里燃烧。

2.有派对装饰的客厅。

3.草莓植物的特写视频。

1280 * 720图片：

图片[11]-葫芦娃AI-一起学AI【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元-葫芦娃AI-一起学AI葫芦娃AI

上图提示词：

1.一位骑士在隐藏的实验室中施展魔法的像素艺术。

2.油画风格的熊猫在神奇花园中进行实验的图像。

3.海浪拍打着岩石海岸线

4.夜晚，一座灯塔在波涛汹涌的大海上闪烁着光芒。

5.外星人在茂密丛林中探索洞穴的 3D 渲染场景。

总结

“原子视频”技术闪亮登场，将静态美图变幻为动感短片。它巧妙融合细节密集的图片与生动跳跃的视频帧，让每一秒画面都仿佛跃然纸上，真实得能触手可及。

它不光能够捕捉图像的精髓，还能在动作与连贯性上做到精益求精。搭配个性化模型，它能打造专属于你的视频，不论是时间流转还是细微变化，都尽在掌握。欢迎踏入“原子视频”的魔法世界，体验前所未有的视觉盛宴。

图片[12]-葫芦娃AI-一起学AI【科技前沿】阿里巴巴突破性“AtomoVideo”技术：定义图生视频生成新纪元-葫芦娃AI-一起学AI葫芦娃AI

上面就是今天给大家做的盘点，觉得好用的可以给本文点个赞推荐一下。以后也会持续更新AI最新内容，更多内容在下方“阅读原文”，别忘了关注哦。

— 完 —

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

热门头条
# AI资讯

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容