ControlNet作者再封神!6GB显存直出「兔八哥」动画,开源一夜获2k+星|gb|漂移

文章ID:11时间:2025-04-18人气:

gb 漂移 动画 兔八哥

微信扫码二维码

分享至好友和朋友圈

【新智元导读】只用6GB显存的笔记本GPU,就能生成流畅的高质量视频!斯坦福研究团队重磅推出FramePack,大幅改善了视频生成中的遗忘和漂移难题。

昨天,视频生成进入了超低显存时代!

他提出了以渐进式生成视频的新方法——FramePack,才过去一天对应的开源项目已有2600多star。

新方法采用独特的压缩结构和抗漂移采样方法,有效缓解了遗忘和漂移难题,提升了视频质量和连贯性。

现在只要一台RTX 3060 6GB笔记本,就能用单图生成5秒、30FPS共150帧的视频。

ControlNet作者再封神!6GB显存直出「兔八哥」动画,开源一夜获2k+星|gb|漂移

ControlNet作者再封神!6GB显存直出「兔八哥」动画,开源一夜获2k+星|gb|漂移

ControlNet作者再封神!6GB显存直出「兔八哥」动画,开源一夜获2k+星|gb|漂移

从古代仕女图到卡通形象,通通一键动起来!

ControlNet作者再封神!6GB显存直出「兔八哥」动画,开源一夜获2k+星|gb|漂移

ControlNet作者再封神!6GB显存直出「兔八哥」动画,开源一夜获2k+星|gb|漂移

相同的配置,还可以生成单图生成60s的共1800帧视频。

左侧上传图片,并在下方输入提示词,右侧就开始显示生成的视频及预览。

由于采用逐段落帧预测模型,视频会持续延长生成:

每个段落会显示独立进度条。

ControlNet作者再封神!6GB显存直出「兔八哥」动画,开源一夜获2k+星|gb|漂移

a jellyfish dances in the sea(一只水母在海中起舞)

网友惊呼:这下视频生成要进入超超超低显存时代了,迈入大众GPU了!马上就去实测!

简单总结一下,FramePack的特点有:

使用13B模型和6GB显存的笔记本GPU,能够以完整的30 FPS速率扩散(生成)数千帧。

在单个8xA100/H100节点上,能够以64的批大小微调13B视频模型,适用于个人或实验室。

RTX 4090生成速度可达2.5秒/帧(未优化)或1.5秒/帧(使用teacache)。

没有时间步长蒸馏。

技术上是视频扩散,但使用体验上更接近图像扩散。

新方法旨在攻克视频生成中的遗忘和漂移问题

FramePack的设计理念十分巧妙,它根据输入帧的重要性进行压缩。

FramePack通过定义长度函数来确定每个帧的上下文长度,其中λ>1是压缩参数,L_f是每帧的基础上下文长度。

通过这个函数,越不重要的帧,上下文长度被压缩得越厉害。

经过压缩处理,总上下文长度会遵循几何级数变化:

当视频帧数T趋向于无穷大时,总上下文长度会收敛到固定值:

这意味着,无论输入视频多长,FramePack都能将总上下文长度控制在固定上限内,避免因输入帧过多导致计算量爆炸,有效解决了模型处理大量帧时的计算难题。

考虑到硬件对计算的优化偏好,论文中主要讨论λ=2的情况。

在实际应用中,FramePack还有一些细节要处理。比如针对不同压缩率的输入投影,使用独立的神经网络层参数能让学习过程更稳定。

当输入帧长度非常大时,FramePack提供了三种处理尾部帧的方式:

可以直接删除尾部帧。

也可以让每个尾部帧增加一个潜在像素来扩展上下文长度。

或者对所有尾部帧进行全局平均池化,然后用最大的内核处理。

在实际测试中发现,这几种方式对视觉效果的影响相对较小。

另外,由于不同压缩内核编码的输入上下文长度不同,FramePack还需要进行RoPE对齐。

为满足不同应用场景需求,提升视频生成质量,FramePack还有多种变体。

一种变体是重复和组合压缩级别,提高压缩率。

比如在图1-(b)中,采用4的幂次方序列,每个级别重复3次,这样能让帧宽度和高度的内核大小保持一致,使压缩更紧凑。

压缩也可以在时间维度上进行,如图1-(c)所示,使用2的幂次序列,在同一张量中编码多个帧,这种方式与DiT架构天然契合。

FramePack还创新了帧重要性的建模方式。

除了基于时间接近度判断重要性,在图1(d)中,给最旧的帧分配全长上下文,在需要强调初始信息的应用场景中,能更好地保留关键信息。

图1(e)将起始帧和结束帧视为同等重要,同时对中间帧应用更高的压缩。

在图像到视频生成任务中,这种方式很有效,因为用户提供的初始帧往往承载关键信息,赋予它们更高重要性可以提升最终生成视频的质量。

漂移一直是视频生成中的顽疾,FramePack提出的抗漂移采样方法为这一问题提供了新思路。

研究发现,漂移通常发生在模型仅依赖过去帧进行预测的因果采样过程中。

如果模型能获取未来帧的信息,哪怕只有一帧,就能有效避免漂移。基于这一发现,FramePack提出了双向上下文的抗漂移采样方法。

传统采样方法,如图2-(a)是按时间顺序迭代预测未来帧,而抗漂移采样则不同。

改进后的方法,如图2-(b),在第一次迭代时,同时生成起始和结束部分,后续迭代再填充中间的间隙。

这样一来,结束帧在一开始就被确定下来,后续生成的帧都朝着这个目标靠近,有效防止了漂移。

还有一种反向抗漂移采样方法,如图2-(c),这种方法在图像到视频生成任务中表现出色。

它将用户输入图像作为高质量的第一帧,然后按反向时间顺序生成后续帧,不断优化生成的帧以接近用户输入的第一帧,从而生成高质量的视频。

为了验证FramePack的性能,研究人员进行了大量消融实验。

FramePack基于Wan和HunyuanVideo两种基础模型,涵盖了文本到视频和图像到视频的生成结构。

数据集方面,遵循LTXVideo的数据集收集流程,收集了多种分辨率和质量水平的数据。

为全面评估FramePack的性能,实验采用了多种评估指标,包括多维度指标、漂移测量指标和人工评估。

多维度指标评估涵盖清晰度、美学、运动、动态、语义、解剖结构和身份等多个方面。

当视频发生漂移时,视频开头和结尾部分在各种质量指标上会出现明显差异。

作者提出了起止对比度,其中V是测试视频,V_start代表前15%的帧,V_end代表最后15%的帧,M可以是运动分数、图像质量等任意质量指标。

该指标通过计算起始和结束部分质量指标的绝对差值,直观反映出漂移的严重程度,并且由于使用绝对差值,不受视频帧生成顺序的影响。

研究人员通过A/B测试收集用户偏好,每个消融架构会生成100个结果,A/B测试在不同的消融架构中随机分配,确保每个消融架构至少有100次评估。

最终,通过ELO-K32分数和相对排名反映用户对视频的喜好程度。

在采样方法对比中,反向抗漂移采样表现最为突出。

它在7个评估指标中的5个上取得最佳成绩,并且在所有漂移指标上都表现优异。这充分证明了反向抗漂移采样方法在减少误差累积、提升视频质量方面的有效性。

从生成帧数的角度来看,人工评估显示,每段生成9帧的配置在ELO分数上,明显高于生成1帧或4帧的配置,说明生成9帧能给用户带来更好的视觉感知。

普通采样虽然在动态指标上获得最高分数,但这很可能是漂移效应导致的,并非真正的质量提升。

研究人员还发现,同一采样方法下,不同配置选项之间的差异相对较小且具有随机性。

这意味着采样方法的选择对整体性能差异的影响更为关键,而具体配置选项的微调对性能的影响相对有限。

与替代架构的比较

为全面评估FramePack的性能,研究人员将其与替代架构做了对比。

这些替代架构包括重复图像到视频、锚帧、因果注意力、噪声历史和历史引导等方法,它们分别从不同角度尝试解决视频生成中的长视频生成、计算瓶颈和漂移等问题。

FramePack在多个方面表现出色。

FramePack在3个全局指标上取得最佳结果。漂移指标方面,更是全面领先,证明其解决漂移问题的有效性。

从人工评估的ELO分数来看,FramePack得分最高,表明在主观感受上,生成的视频质量更受认可。

FramePack为视频生成技术带来新突破。它通过独特的压缩结构和抗漂移采样方法,有效缓解了遗忘和漂移问题,提升了视频生成的质量和效率。

Lvmin Zhang是斯坦福大学计算机系的博士生,主要研究领域为计算机图形学和生成模型。

在今年的ICLR投稿中,经过rebuttal,他成功拿下最近几年的首个满分论文!

农村老光棍找搭档 2025-04-17 00:22:22

内容声明:

1、本站收录的内容来源于大数据收集,版权归原网站所有!
2、本站收录的内容若侵害到您的利益,请联系我们进行删除处理!
3、本站不接受违规信息,如您发现违规内容,请联系我们进行清除处理!
4、本文地址:https://www.717b.com/jxwxwz/11.html,复制请保留版权链接!


温馨小提示:在您的网站做上本站友情链接,访问一次即可自动收录并自动排在本站第一位!
随机文章:

301医院神经外科主任凌至培:5G门诊最具推广普及意义|手术

301医院神经外科主任凌至培:5G门诊最具推广普及意义,凌至培,手术,外科,医院

互联网资讯 2025-04-18 20:20:42

北邮乔秀全:5G的消费级杀手应用可能诞生于XR设备|ar|浏览器|vr|互联网

北邮乔秀全:5G的消费级杀手应用可能诞生于XR设备,乔秀全,ar,浏览器,vr,互联网

互联网资讯 2025-04-18 20:20:33

张钹院士:制约人工智能发展的最大困难是什么?|脑科学|脑机接口

张钹院士:制约人工智能发展的最大困难是什么?,人工智能,张钹,院士,脑科学,脑机接口

互联网资讯 2025-04-18 20:20:17

智见丨HTC全球副总裁黄昭颖:希望更多大厂进入元宇宙|htc|vr|vr眼镜

智见丨HTC全球副总裁黄昭颖:希望更多大厂进入元宇宙,元宇宙,黄昭颖,htc,vr,vr眼镜

互联网资讯 2025-04-18 20:19:52

骄傲!祝融号成功着陆五星红旗闪耀火星|庞之浩|探测器|着陆器

骄傲!祝融号成功着陆五星红旗闪耀火星,火星,着陆,庞之浩,探测器,着陆器

互联网资讯 2025-04-18 20:19:24

时隔5年中国载人飞船再起航“天和”核心舱迎来3名住户|航天员|货运飞船|返回舱|神舟

时隔5年中国载人飞船再起航“天和”核心舱迎来3名住户,载人飞船,航天员,飞船,货运飞船,返回舱,神舟

互联网资讯 2025-04-18 20:19:19

专访起源太空CEO:太空资源争夺战中国不会落后|苏萌|费米|小行星|地球

专访起源太空CEO:太空资源争夺战中国不会落后,苏萌,起源,费米,小行星,地球

互联网资讯 2025-04-18 20:19:09

中国科学院院士王赤:中国空间科学投入仅NASA的五十分之一,目标是2049年接近|nasa|卫星|引力波|太阳系

中国科学院院士王赤:中国空间科学投入仅NASA的五十分之一,目标是2049年接近,王赤,nasa,卫星,中国科学院院士,引力波,太阳系

互联网资讯 2025-04-18 20:19:06

专访国家天文台王杰:探测暗物质的方法已经穷尽这是人类共同面临的困境|宇宙学

专访国家天文台王杰:探测暗物质的方法已经穷尽这是人类共同面临的困境,暗物质,王杰,国家天文台,宇宙学

互联网资讯 2025-04-18 20:19:02

吕子平:卫星互联网永远是地面互联网的延伸和补充|高轨|卫星通信

吕子平:卫星互联网永远是地面互联网的延伸和补充,卫星,吕子平,互联网,高轨,卫星通信,通信

互联网资讯 2025-04-18 20:18:37

不降价,不学特斯拉,比亚迪销量还涨啦?|乘用车|新能源车|广汽

不降价,不学特斯拉,比亚迪销量还涨啦?,特斯拉,比亚迪,乘用车,新能源车,广汽

互联网资讯 2025-04-18 20:17:43

风口浪尖上的刘强东:乡亲们现在怎么看大强子|京东|电商|互联网公司

风口浪尖上的刘强东:乡亲们现在怎么看"大强子",刘强东,大强子,京东,电商,互联网公司

互联网资讯 2025-04-18 20:17:34

易评机:三星S23系列开启乱杀模式影像背刺苹果硬件虚晃安卓机|手机|智能手机|像素

易评机:三星S23系列开启乱杀模式影像背刺苹果硬件虚晃安卓机,三星,安卓,手机,苹果,智能手机,像素

互联网资讯 2025-04-18 20:12:44

超光感潜望长焦无惧暗光拍摄OPPOFindX6飞泉绿开箱图赏|oppo|焦距|变焦|光圈

超光感潜望长焦无惧暗光拍摄OPPOFindX6飞泉绿开箱图赏,oppo,长焦,暗光,焦距,变焦,光圈

互联网资讯 2025-04-18 20:12:27

华为Mate60Pro+体验:产品力毋庸置疑“遥遥领先”不是玩笑|手机|骁龙|样张

华为Mate60Pro+体验:产品力毋庸置疑“遥遥领先”不是玩笑,华为mate,华为,手机,骁龙,样张

互联网资讯 2025-04-18 20:07:40

大疆OsmoPocket3体验:手持云台相机中的「绝对顶流」|手机

大疆OsmoPocket3体验:手持云台相机中的「绝对顶流」,pocket,手机,云台,大疆,相机,OsmoPocket3

互联网资讯 2025-04-18 20:07:33

SurfaceLaptopGo3体验:性能升级轻巧机身续航给力|微软|笔记本|laptop|触控板

SurfaceLaptopGo3体验:性能升级轻巧机身续航给力,surface,续航,微软,笔记本,laptop,触控板

互联网资讯 2025-04-18 20:07:07

BoseUltra开放式耳机轻体验:兼顾舒适佩戴与沉浸式听感|bose|入耳式|ultra|立体声

BoseUltra开放式耳机轻体验:兼顾舒适佩戴与沉浸式听感,耳机,bose,入耳式,ultra,立体声

互联网资讯 2025-04-18 20:06:24

一加平板Pro开箱图赏:首款平板带来哪些惊喜?|手写笔|手机|键盘|一加手机|触控板

一加平板Pro开箱图赏:首款平板带来哪些惊喜?,手写笔,手机,键盘,一加手机,平板,触控板

互联网资讯 2025-04-18 20:05:52

何祚庥院士:李政道被派出国留学是奉命要为中国造原子弹|丁肇中

何祚庥院士:李政道被派出国留学是奉命要为中国造原子弹,何祚庥,李政道,杨振宁,丁肇中,院士

最新资讯 2025-04-18 20:02:15

王贻芳院士:年轻人不敢质疑和思考,科学就没有前途|基础科学|丁肇中|爱因斯坦|物理学

王贻芳院士:年轻人不敢质疑和思考,科学就没有前途,王贻芳,科学,基础科学,丁肇中,爱因斯坦,物理学

最新资讯 2025-04-18 20:01:44

阿里财报:核心业务回暖,半年员工数降超2万人|阿里巴巴|阿里云|gmv

阿里财报:核心业务回暖,半年员工数降超2万人,阿里巴巴,阿里云,gmv

最新资讯 2025-04-18 20:01:20

对话宇树创始人兼CEO王兴兴:通用机器人的iPhone时刻还需要3-4年|iphone|机器狗|ai|人形

对话宇树创始人兼CEO王兴兴:通用机器人的iPhone时刻还需要3-4年,机器人,王兴兴,iphone,机器狗,ai,人形

最新资讯 2025-04-18 20:01:10

对话喻友平:大模型已从“暴风骤雨”到“润物细无声”|智能化|中关村

对话喻友平:大模型已从“暴风骤雨”到“润物细无声”,喻友平,大模型,润物细无声,智能化,中关村

最新资讯 2025-04-18 20:00:20

对话月之暗面杨植麟:竞争是做正确的事当下最关心“留存”|数学|伽利略|kimi|宇宙|算法

对话月之暗面杨植麟:竞争是做正确的事当下最关心“留存”,杨植麟,数学,伽利略,kimi,宇宙,算法

最新资讯 2025-04-18 20:00:00

余承东与“四界”大佬首合体尹同跃爆曾为合作开除高管|奇瑞汽车|北汽|项兴初

余承东与“四界”大佬首合体尹同跃爆曾为合作开除高管,余承东,尹同跃,奇瑞汽车,北汽,华为,项兴初

最新资讯 2025-04-18 19:59:41

对话投资人姚海波:人形机器人尚未解决“手”和“脑”问题|黄仁勋|马斯克|人工智能

对话投资人姚海波:人形机器人尚未解决“手”和“脑”问题,姚海波,机器人,黄仁勋,马斯克,人工智能

最新资讯 2025-04-18 19:58:31

零一万物的“后DeepSeek”转向:直接拥抱,聚焦ToB|deepseek|万智|李开复|大模型|tob

零一万物的“后DeepSeek”转向:直接拥抱,聚焦ToB,deepseek,万智,李开复,大模型,tob

最新资讯 2025-04-18 19:57:48

连夜包机!苹果急运600吨印度产iPhone回美,工厂周日加班生产|iphone|apple|富士康|特朗普

连夜包机!苹果急运600吨印度产iPhone回美,工厂周日加班生产,iphone,苹果,apple,富士康,工厂,特朗普

最新资讯 2025-04-18 19:56:07

网易创新社沙龙|三位顶级专家关于Web3机遇的深度洞见|区块链|互联网|何宝宏|余晨|创业者|大数据

网易创新社沙龙|三位顶级专家关于Web3机遇的深度洞见,区块链,互联网,何宝宏,余晨,创业者,大数据

最新资讯 2025-04-18 19:55:16

OpenAI重磅推出o3/o4-mini新模型!能看图思考|openai|人工智能|编程|智能体|python

OpenAI重磅推出o3/o4-mini新模型!能"看图思考",openai,mini,人工智能,编程,智能体,python

最新资讯 2025-04-18 19:53:53

独家|传钉钉“重整纪律”严查考勤内部人士:996为假回归“创业”为真|陈航|阿里集团|36氪|阿里巴巴|跨境电商

独家|传钉钉“重整纪律”严查考勤内部人士:996为假回归“创业”为真,钉钉,陈航,阿里集团,创业,36氪,阿里巴巴,跨境电商

最新资讯 2025-04-18 19:53:51

Cybertruck卖不动,特斯拉被曝减产调人手|马斯克|特朗普|cybertruck

Cybertruck卖不动,特斯拉被曝减产调人手,特斯拉,马斯克,特朗普,cybertruck

最新资讯 2025-04-18 19:53:41

ControlNet作者再封神!6GB显存直出「兔八哥」动画,开源一夜获2k+星|gb|漂移

ControlNet作者再封神!6GB显存直出「兔八哥」动画,开源一夜获2k+星,gb,漂移,动画,兔八哥

最新资讯 2025-04-18 19:53:08

希音、Temu告知美国消费者4月25日起涨价|购物者|temu

希音、Temu告知美国消费者4月25日起涨价,希音,购物者,temu,4月25日,美国消费者

最新资讯 2025-04-18 19:52:59

安永消博会期间发布多份行业报告和业界首个AI智能问答产品|外贸|消费品|跨境电商|国内市场|安永会计师事务所

安永消博会期间发布多份行业报告和业界首个AI智能问答产品,外贸,消费品,行业报告,跨境电商,国内市场,安永消博会,安永会计师事务所

最新资讯 2025-04-18 19:52:58


TOP