文章ID:11时间:2025-04-18人气:
用微信扫码二维码
分享至好友和朋友圈
【新智元导读】只用6GB显存的笔记本gpu,就能生成流畅的高质量视频!斯坦福研究团队重磅推出FramePack,大幅改善了视频生成中的遗忘和漂移难题。
昨天,视频生成进入了超低显存时代!
他提出了以渐进式生成视频的新方法——FramePack,才过去一天对应的开源项目已有2600多star。
新方法采用独特的压缩结构和抗漂移采样方法,有效缓解了遗忘和漂移难题,提升了视频质量和连贯性。
现在只要一台RTX 3060 6GB笔记本,就能用单图生成5秒、30FPS共150帧的视频。
从古代仕女图到卡通形象,通通一键动起来!
相同的配置,还可以生成单图生成60s的共1800帧视频。
在左侧上传图片,并在下方输入提示词,右侧就开始显示生成的视频及预览。
由于采用逐段落帧预测模型,视频会持续延长生成:
每个段落会显示独立进度条。
a jellyfish dances in the sea(一只水母在海中起舞)
网友惊呼:这下视频生成要进入超超超低显存时代了,迈入大众GPU了!马上就去实测!
简单总结一下,FramePack的特点有:
使用13B模型和6GB显存的笔记本GPU,能够以完整的30 FPS速率扩散(生成)数千帧。
在单个8xA100/H100节点上,能够以64的批大小微调13B视频模型,适用于个人或实验室。
RTX 4090生成速度可达2.5秒/帧(未优化)或1.5秒/帧(使用teacache)。
没有时间步长蒸馏。
技术上是视频扩散,但使用体验上更接近图像扩散。
新方法旨在攻克视频生成中的遗忘和漂移问题。
FramePack的设计理念十分巧妙,它根据输入帧的重要性进行压缩。
FramePack通过定义长度函数来确定每个帧的上下文长度,其中λ>1是压缩参数,L_f是每帧的基础上下文长度。
通过这个函数,越不重要的帧,上下文长度被压缩得越厉害。
经过压缩处理,总上下文长度会遵循几何级数变化:
当视频帧数T趋向于无穷大时,总上下文长度会收敛到固定值:
这意味着,无论输入视频多长,FramePack都能将总上下文长度控制在固定上限内,避免因输入帧过多导致计算量爆炸,有效解决了模型处理大量帧时的计算难题。
考虑到硬件对计算的优化偏好,论文中主要讨论λ=2的情况。
在实际应用中,FramePack还有一些细节要处理。比如针对不同压缩率的输入投影,使用独立的神经网络层参数能让学习过程更稳定。
当输入帧长度非常大时,FramePack提供了三种处理尾部帧的方式:
可以直接删除尾部帧。
也可以让每个尾部帧增加一个潜在像素来扩展上下文长度。
或者对所有尾部帧进行全局平均池化,然后用最大的内核处理。
在实际测试中发现,这几种方式对视觉效果的影响相对较小。
另外,由于不同压缩内核编码的输入上下文长度不同,FramePack还需要进行RoPE对齐。
为满足不同应用场景需求,提升视频生成质量,FramePack还有多种变体。
一种变体是重复和组合压缩级别,提高压缩率。
比如在图1-(b)中,采用4的幂次方序列,每个级别重复3次,这样能让帧宽度和高度的内核大小保持一致,使压缩更紧凑。
压缩也可以在时间维度上进行,如图1-(c)所示,使用2的幂次序列,在同一张量中编码多个帧,这种方式与DiT架构天然契合。
FramePack还创新了帧重要性的建模方式。
除了基于时间接近度判断重要性,在图1(d)中,给最旧的帧分配全长上下文,在需要强调初始信息的应用场景中,能更好地保留关键信息。
图1(e)将起始帧和结束帧视为同等重要,同时对中间帧应用更高的压缩。
在图像到视频生成任务中,这种方式很有效,因为用户提供的初始帧往往承载关键信息,赋予它们更高重要性可以提升最终生成视频的质量。
漂移一直是视频生成中的顽疾,FramePack提出的抗漂移采样方法为这一问题提供了新思路。
研究发现,漂移通常发生在模型仅依赖过去帧进行预测的因果采样过程中。
如果模型能获取未来帧的信息,哪怕只有一帧,就能有效避免漂移。基于这一发现,FramePack提出了双向上下文的抗漂移采样方法。
传统采样方法,如图2-(a)是按时间顺序迭代预测未来帧,而抗漂移采样则不同。
改进后的方法,如图2-(b),在第一次迭代时,同时生成起始和结束部分,后续迭代再填充中间的间隙。
这样一来,结束帧在一开始就被确定下来,后续生成的帧都朝着这个目标靠近,有效防止了漂移。
还有一种反向抗漂移采样方法,如图2-(c),这种方法在图像到视频生成任务中表现出色。
它将用户输入图像作为高质量的第一帧,然后按反向时间顺序生成后续帧,不断优化生成的帧以接近用户输入的第一帧,从而生成高质量的视频。
为了验证FramePack的性能,研究人员进行了大量消融实验。
FramePack基于Wan和HunyuanVideo两种基础模型,涵盖了文本到视频和图像到视频的生成结构。
数据集方面,遵循LTXVideo的数据集收集流程,收集了多种分辨率和质量水平的数据。
为全面评估FramePack的性能,实验采用了多种评估指标,包括多维度指标、漂移测量指标和人工评估。
多维度指标评估涵盖清晰度、美学、运动、动态、语义、解剖结构和身份等多个方面。
当视频发生漂移时,视频开头和结尾部分在各种质量指标上会出现明显差异。
作者提出了起止对比度,其中V是测试视频,V_start代表前15%的帧,V_end代表最后15%的帧,M可以是运动分数、图像质量等任意质量指标。
该指标通过计算起始和结束部分质量指标的绝对差值,直观反映出漂移的严重程度,并且由于使用绝对差值,不受视频帧生成顺序的影响。
研究人员通过A/B测试收集用户偏好,每个消融架构会生成100个结果,A/B测试在不同的消融架构中随机分配,确保每个消融架构至少有100次评估。
最终,通过ELO-K32分数和相对排名反映用户对视频的喜好程度。
在采样方法对比中,反向抗漂移采样表现最为突出。
它在7个评估指标中的5个上取得最佳成绩,并且在所有漂移指标上都表现优异。这充分证明了反向抗漂移采样方法在减少误差累积、提升视频质量方面的有效性。
从生成帧数的角度来看,人工评估显示,每段生成9帧的配置在ELO分数上,明显高于生成1帧或4帧的配置,说明生成9帧能给用户带来更好的视觉感知。
普通采样虽然在动态指标上获得最高分数,但这很可能是漂移效应导致的,并非真正的质量提升。
研究人员还发现,同一采样方法下,不同配置选项之间的差异相对较小且具有随机性。
这意味着采样方法的选择对整体性能差异的影响更为关键,而具体配置选项的微调对性能的影响相对有限。
与替代架构的比较
为全面评估FramePack的性能,研究人员将其与替代架构做了对比。
这些替代架构包括重复图像到视频、锚帧、因果注意力、噪声历史和历史引导等方法,它们分别从不同角度尝试解决视频生成中的长视频生成、计算瓶颈和漂移等问题。
FramePack在多个方面表现出色。
FramePack在3个全局指标上取得最佳结果。漂移指标方面,更是全面领先,证明其解决漂移问题的有效性。
从人工评估的ELO分数来看,FramePack得分最高,表明在主观感受上,生成的视频质量更受认可。
FramePack为视频生成技术带来新突破。它通过独特的压缩结构和抗漂移采样方法,有效缓解了遗忘和漂移问题,提升了视频生成的质量和效率。
Lvmin Zhang是斯坦福大学计算机系的博士生,主要研究领域为计算机图形学和生成模型。
在今年的ICLR投稿中,经过rebuttal,他成功拿下最近几年的首个满分论文!
农村老光棍找搭档 2025-04-17 00:22:22
内容声明:1、本站收录的内容来源于大数据收集,版权归原网站所有!
2、本站收录的内容若侵害到您的利益,请联系我们进行删除处理!
3、本站不接受违规信息,如您发现违规内容,请联系我们进行清除处理!
4、本文地址:https://www.717b.com/jxwxwz/11.html,复制请保留版权链接!
汉能投资陈宏:5G时代,谁拥有大数据,谁就能胜出,陈宏,汉能,大数据,阿里巴巴,华为,物联网
互联网资讯 2025-04-18 20:20:51
智见丨对话飞书CEO谢欣:ToB天花板很高我们要有耐心,谢欣,天花板,李世石,飞书,tob
互联网资讯 2025-04-18 20:19:47
格灵深瞳CEO赵勇:上市不是终点,懈怠是我最担心的事情|潮头,赵勇,格灵,深瞳,潮头,人工智能,沈南鹏
互联网资讯 2025-04-18 20:18:07
成王败寇:在线教育血拼100天,在线教育,作业帮,学而思网校,好未来,学而思,张邦鑫
互联网资讯 2025-04-18 20:16:59
M2版Macmini评测:低价超值,性能强悍,我爱了!,苹果,M2,M2Pro,Macmini
互联网资讯 2025-04-18 20:12:38
千元档iQOOZ7真机赏析:内置5000mAh电池,还有120W快充,电池,手机,mah,iqoo,长续航,像素
互联网资讯 2025-04-18 20:12:20
小米13Ultra轻体验:一台像极了徕卡相机的影像旗舰,徕卡,相机,小米,索尼,镜头,小米13ultra,雷军
互联网资讯 2025-04-18 20:12:15
易评机:虽为小改款升级,三星折叠屏新机依旧很稳,三星,三星galaxy,三星手机,z系列
互联网资讯 2025-04-18 20:08:11
三星GalaxyZFold5体验:小改款,但升级都在点上,三星galaxy,三星,手机,像素
互联网资讯 2025-04-18 20:08:09
一图看懂苹果秋季新品发布会:全系Type-C+灵动岛你会买单吗?,新品发布会,苹果,iphone,type-c
互联网资讯 2025-04-18 20:07:47
2023年的小雪,是国产旗舰的立春,vivo,智能手机,联发科,国产手机,手机
互联网资讯 2025-04-18 20:07:24
小米电视SPro体验:千级分区MiniLED面板高屏占比显示效果惊喜,小米电视,色域,大屏幕
互联网资讯 2025-04-18 20:07:09
ROG游戏手机8Pro体验:原神满帧不烫手是游戏手机也是全能旗舰,手机,游戏,索尼,rog,像素
互联网资讯 2025-04-18 20:06:51
iPadOS18公测版:AI+ApplePencil或是iPad解锁创造力的关键钥匙,ipad,applepencil,apple,app,iphone,ios
互联网资讯 2025-04-18 20:05:38
一加平板Pro开箱图赏:首款平板带来哪些惊喜?,手写笔,手机,键盘,一加手机,平板,触控板
互联网资讯 2025-04-18 20:05:52
中国工程院院士胡正寰:外国人做不到的,中国人做到了,胡正寰,中国工程院院士,院士,机械,轴类
互联网资讯 2025-04-18 20:03:59
中国论文遭大撤稿陆汝钤院士:学术道德气氛营造不够,人工智能,论文,学术,院士,吴文俊,科学
最新资讯 2025-04-18 20:02:11
对话360周鸿祎:魔法对付魔法,大模型安全问题得靠大模型,大模型,周鸿祎,机器人,360,工作流,智能体
最新资讯 2025-04-18 20:01:31
对话聚云科技朱军:帮企业成为应用生成式AI的“王者”,朱军,云管理,云科技,知识库,云技术
最新资讯 2025-04-18 19:59:47
对话讯飞创投合伙人朱永:AI创企已经迈入了价值兑现的关键时刻,朱永,讯飞,合伙人,人工智能,科大讯飞,创投
最新资讯 2025-04-18 19:59:42
狼来了!理想汽车不再是一家车企李想官宣做基座模型,造硅基家人,汽车,人工智能,机器人,理想,基座,自动驾驶
最新资讯 2025-04-18 19:59:35
iPhone16价格“跳水”iPhone17该期待什么|爆料全盘点,iphone,苹果,郭明錤,果粉,智能手机,ipadpro
最新资讯 2025-04-18 19:59:06
壳有壳的用处,Manus或许是不错的Agent,但够不上刷屏的追捧,插件,虚拟机,agent,预定义,manus
最新资讯 2025-04-18 19:57:57
辰至半导体C1芯片成功点亮:国产中央域控芯片迎来里程碑式突破,辰至,半导体,控制器,低功耗,c1芯片,高端芯片,中央域控芯片
最新资讯 2025-04-18 19:55:03
传三星HBM4的逻辑BaseDie测试良率已超40%,良率,海力士,dram,知名企业,三星hbm4
最新资讯 2025-04-18 19:55:03
OpenAI重磅推出o3/o4-mini新模型!能"看图思考",openai,mini,人工智能,编程,智能体,python
最新资讯 2025-04-18 19:53:53
测试工程师新利器:主流AI软件测试产品及应用价值深度解读,工程师,用例,自动化
最新资讯 2025-04-18 19:53:45