BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching
本文提出了一种名为 BWCache 的免训练方法,通过动态缓存并基于相似度阈值在扩散步之间重用 DiT 块特征,在保持视觉质量的同时将视频生成推理速度提升了高达 6 倍。
4187 篇论文
本文提出了一种名为 BWCache 的免训练方法,通过动态缓存并基于相似度阈值在扩散步之间重用 DiT 块特征,在保持视觉质量的同时将视频生成推理速度提升了高达 6 倍。
本文提出了名为 Brain-HGCN 的基于双曲几何的图卷积网络框架,利用洛伦兹模型和符号聚合机制有效建模大脑功能网络的层级结构与兴奋/抑制连接,并在精神疾病分类任务中显著优于现有的欧几里得基线方法。
本文提出了一种名为 I2S 的多阶段框架,通过利用包含新型“双手空间包络”描述符的 3D 手部姿态特征进行物体识别与交互分析,在 ARCTIC 和 H2O 数据集上实现了高达 97.52% 的 F1 分数,为高安全性增强现实环境提供了轻量级、实时的基于人机交互的用户身份认证方案。
本文提出了一种名为 GeoProto 的新范式,通过利用扩散映射将深度特征的内在流形几何结构融入原型匹配,并结合可微分的 Nyström 插值与紧凑的每类地标集更新策略,显著提升了可解释细粒度识别的准确性与效率。
该论文提出了无需训练的 SHINE 框架,利用预训练扩散模型(如 FLUX)内在的物理先验,通过流形引导锚定损失和自适应背景融合等技术,实现了在复杂光照与高分辨率场景下物理真实且无缝的图像合成,并发布了包含多样化挑战条件的 ComplexCompo 基准数据集以验证其优越性能。
本文提出了首个端到端生成四边形网格的自回归框架 QuadGPT,通过统一三角与四边形的混合拓扑分词方法以及特化的 tDPO 强化学习微调策略,显著超越了传统的“三角转四边”流程,在几何精度和拓扑质量上均实现了突破。
本文提出了 DistillKac,一种利用阻尼波动方程及其随机 Kac 表示来实现有限速度概率传输的图像生成模型,通过引入速度空间中的无分类器引导和仅端点蒸馏策略,在保持数值稳定性的同时实现了高质量图像的快速生成。
该论文针对现有视觉情感评估方法的局限性,提出了一种开放词汇、多面向且可扩展的自定义评估框架,通过构建“情感陈述判断”任务及自动化数据生成流水线,系统评估了多模态大语言模型在情感理解与主观感知方面的能力与不足。
本文提出了 COMPASS 框架,该框架通过在模型特征空间中对敏感子空间进行扰动来直接校准,从而为医学图像分割任务中的下游指标(如器官大小)生成比传统方法更高效且覆盖范围更紧的共形预测不确定性区间,并能在协变量偏移下保持目标覆盖率。
本文提出了名为 CircuitSense 的层次化多模态大模型基准,通过涵盖 8000 多个从感知到设计的全流程电路问题,揭示了当前先进模型在视觉识别任务上表现优异但在从电路图推导符号方程等数学推理能力上存在显著短板,从而确立了符号推理作为评估工程智能核心指标的重要性。
本文提出了 NeuroAdapter 框架,通过直接将脑表征条件化于潜在扩散模型并引入双向可解释性分析(IBBI),在实现高质量视觉重建的同时,有效揭示了不同脑区对图像生成过程的贡献。
本文提出了 DiffInk,这是首个基于潜在扩散 Transformer 的全行在线手写生成框架,它通过引入兼具字形精度与风格保持能力的 InkVAE 编码器,实现了内容解耦与风格可控的高效高质量手写轨迹合成。
本文提出了名为 SMART-R1 的新型 R1 风格强化微调范式,通过引入面向指标的策略优化算法及"SFT-RFT-SFT"迭代训练策略,有效解决了多智能体交通模拟中的分布偏移问题,并在 Waymo Open Sim Agents Challenge 中以 0.7858 的总真实感元评分刷新了排行榜第一的纪录。
本文提出了基于大规模专家标注偏好数据训练的 EditReward 奖励模型,该模型在多项基准测试中展现出优于现有方法的与人类偏好的一致性,并成功用于筛选高质量数据以提升图像编辑模型的训练效果。
Stylos 提出了一种基于单前向传播的 3D 高斯泼溅框架,利用 Transformer 架构与体素化 3D 风格损失,实现了无需单场景优化或预计算位姿即可从单张或多张图像生成几何感知且视角一致的零-shot 3D 风格化场景。
本文提出了名为 CB 的新型多模态文化意识基准,该基准基于漫画构建,包含多语言、多任务及渐进式难度的问答数据,旨在揭示当前多模态大模型在跨文化理解与生成能力上与人之间的显著差距,并推动相关研究发展。
本文提出了 LVTINO,这是首个利用视频一致性模型(VCMs)作为先验的零样本即插即用逆求解器,旨在解决高清视频恢复中帧间时序不一致的难题,并在保证测量一致性与平滑过渡的同时,实现了超越现有逐帧图像恢复方法的感知质量与计算效率。
本文提出了 DragFlow 框架,通过引入基于区域的仿射变换监督、集成个性化适配器并利用多模态大语言模型消除歧义,首次成功将 FLUX 等 DiT 模型的强大生成先验应用于拖拽编辑任务,显著提升了编辑效果并确立了新的最先进水平。
本文提出了一种名为 ChainMPQ 的免训练方法,通过构建由多视角问题引导的图文交错推理链,利用累积的图文记忆增强关键区域并逐步验证关系,从而有效缓解大型视觉语言模型中的关系幻觉问题。
该论文提出了一种名为 VA-Adapter 的视觉 - 动作适配器,通过将其嵌入超声基础模型以在线注入个体三维结构理解能力,从而在仅需极少参数(约为强基线模型的 1/33)的情况下,显著提升了超声心动图探头引导系统的性能。