欧洲杯下单平台(官方)APP下载IOS/安卓通用版/手机版-j9九游会相干性强度越高意味着每一帧生成时-欧洲杯下单平台(官方)APP下载IOS/安卓通用版/手机版

j9九游会相干性强度越高意味着每一帧生成时-欧洲杯下单平台(官方)APP下载IOS/安卓通用版/手机版

发布日期:2026-02-14 09:33  点击次数:164

j9九游会相干性强度越高意味着每一帧生成时-欧洲杯下单平台(官方)APP下载IOS/安卓通用版/手机版

无需寥落模子检修、即插即用j9九游会,全新的视频生成增强算法——Enhance-A-Video来了!

和最近东说念主气超高的混元视频生成模子(HunyuanVideo)对比来看,加入 Enhance-A-Video 的版块在生成画面中推崇出了愈加丰富的细节和更高的语义契合度,生成内容和用户输入的文本领导更匹配:

扣问团队成员来改过加坡国立大学、上海 AI 推行室和德克萨斯大学奥斯汀分校。

苟简来说,新算法通过扶助时候防御力层输出的一个要道参数,约略在险些不增多推理职守的情况下,大幅进步生成视频的细节推崇和时序连贯性。

Enhance-A-Video 还兼容多种主流视频生成模子,无需修改基础架构即可径直应用。

比如CogVideoX-2B  + Enhance-A-Video:

还有OpenSora-V1.2  + Enhance-A-Video:

推行扫尾走漏,Enhance-A-Video 在进步视频质料方面推崇超卓,尤其是在对比度、了了度以及细节果然性上有显赫转换。

新算法仍是发布,其开阔的泛化才略亦然赶快获取了社区的认同。

好多网友已将该算法集成到多个主流推理框架中,包括 ComfyUI-Hunyuan 和 ComfyUI-LTX。

对比一下网友 Kijai 发布的原始混元模子和增强后的效果,不错看到模子生成画面愈加当然,动态推崇也愈加畅达:

△Comfy-UI 测试扫尾,左边为原始视频,右边为增强视频

LTX-Video 的扣问东说念主员 Nir Zabari 还生效将它应用到了LTXV模子中,显赫进步了生成视频在动作一致性和细节呈现方面的推崇。

这一效果标明,Enhance-A-Video 不仅适用于特定模子,还能世俗适配于不同的视频生成框架。

扣问布景:进步视频生成质料需求厉害

连年来,以 Diffusion Transformer(DiT)为代表的视频生成技能 [ 1 ] 迅猛发展,约略字据文本描述生成各种化的视频内容。

然则,现存才略仍面对以下挑战:

时序不连贯:帧与帧之间空匮一致性;

细节迂缓:画面纹理空匮了了度;

画面抖动:动态效果不够平定。

这些问题显赫影响了生成视频的实用性和不雅看体验,奈何进步 AI 生成视频的质料成为当前扣问的要道问题之一。

为了惩处上述问题,Enhance-A-Video 应时而生。其中枢旨趣是通过一个增强扫数,优化时候防御力的漫步,从而结束以下上风:

高效增强:快速进步视频质料;

无需检修:可径直应用于现存生成模子;

即插即用:天真适配多种场景和需求。

诡计动机:时候防御力的优化后劲

时候防御力(Temporal Attention)在 DiT 模子中致密信息的帧间传递,对生成视频的连贯性和细节保留至关挫折。

通过对不同 DiT 层的时候防御力漫步进行可视化分析,扣问东说念主员发现:

在部分 DiT 层中,时候防御力的漫步存在显赫各异:跨帧防御力(非对角线部分)的强度阐述低于单帧自防御力(对角线部分)。

这一风光可能导致帧间信息传递不及,进而影响视频的一致性和细节推崇。

基于这一不雅察,作家提议了一个要道假定:能否通过哄骗时候防御力来提高视频质料?

△不同 DiT 层的时候防御力漫步图

这一假定的灵感起原于诳言语模子(LLM)中的温度扫数(τ)转机机制。

在文本生成中,通过扶助 Softmax 的温度参数不错均衡一致性与各种性 [ 2 ] :

增大 τ,生成扫尾愈加各种化。

减小 τ,生成扫尾更连贯一致。

相似地,在视频生成中,时候防御力的温度扫数不错径直影响帧间相干性强度,为 Enhance-A-Video 的诡计提供了表面基础。

才略轮廓:无需检修的动态增强决议

基于上述不雅察与念念考,作家初度发面前候防御力的温度扫数决定了不同帧之间的相干性强度,相干性强度越高意味着每一帧生成时,在时候凹凸文维度所计议的范围越广。

由此主义动身,作家提议了一种扶助时候防御力层输出,无需检修的视频增强才略,该才略不错径直应用于现存的 AI 视频生成模子。

△Enhance-A-Video 框架图

Enhance-A-Video 的中枢诡计是通过动态转机时候防御力层的输出,结束对帧间一致性和细节推崇的优化。

具体才略分为以下几步:

1. 并行增强模块

在时候防御力层的基础上增多一个并行分支,计较时候防御力漫步图。

输入时候防御力层的荫藏景色也被传入增强模块。

2. 计较跨帧强度(CFI)

从时候防御力漫步图中索取非对角线元素的平均值,看成跨帧强度(Cross-Frame Intensity, CFI)。

3. 动态增强牺牲

引入增强温度参数(Enhance Temperature),将其与 CFI 的乘积看成增强模块的输出扫数。

哄骗该扫数动态扶助时候防御力层输出的特征增强强度。

通过这一战略,Enhance-A-Video 约略高效地进步视频的帧间一致性和细节推崇,而无需对原始模子进行从头检修。

为 AI 视频生成技能提供新念念考

这项扣问提议了首个无需检修、即插即用的 AI 生成视频质料增强才略—— Enhance-A-Video,针对当前生成视频质料的要道问题,围绕时候防御力机制张开调动诡计,主要孝敬如下:

调动性才略:通过在时候防御力层计较交叉帧强度,引入增强温度参数,进步帧间一致性与细节推崇力。

高效性与通用性:无需检修,径直适配主流视频生成模子。

显赫性能进步:在 HunyuanVideo 等模子上惩处了细节缺成仇时序不一致等问题。

异日他们还会在此基础上进一步开展责任,包括:

自相宜增强:扣问自动转机增强温度参数机制,优化一致性与各种性均衡。

膨胀适用性:优化才略诡计以适配大边界模子和多模态场景。

质料评价:构建更完善的视频生成质料评价体系。

作家暗示,期待本扣问为 AI 视频生成技能的骨子应用与质料进步提供新的念念路和维持!

开源代码连合:https://github.com/NUS-HPC-AI-Lab/Enhance-A-Video

相干博客连合:https://oahzxl.github.io/Enhance_A_Video/

参考文件:

[ 1 ] Brooks, Tim, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, Joe Taylor, Troy Luhman, Eric Luhman, Clarence Ng, Ricky Wang and Aditya Ramesh. " Video generation models as world simulators. " OpenAI Research ( 2024 ) .

[ 2 ] Renze, Matthew and Erhan Guven. " The Effect of Sampling Temperature on Problem Solving in Large Language Models. " ArXiv abs/2402.05201 ( 2024 ) .

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 阵势主页连合,以及操办容貌哦

咱们会(尽量)实时回应你

点这里� � 热心我,谨记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再见 ~  



相关资讯
热点资讯
  • 友情链接:

Powered by 欧洲杯下单平台(官方)APP下载IOS/安卓通用版/手机版 @2013-2022 RSS地图 HTML地图