SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer
本文提出了 SODA(敏感性导向动态加速)方法,通过构建跨时间步、层和模块的细粒度敏感性误差建模框架,利用动态规划自适应优化缓存与剪枝策略,从而在显著提升扩散 Transformer 推理效率的同时,有效克服了现有固定启发式方法导致的生成质量下降问题。
3954 篇论文
本文提出了 SODA(敏感性导向动态加速)方法,通过构建跨时间步、层和模块的细粒度敏感性误差建模框架,利用动态规划自适应优化缓存与剪枝策略,从而在显著提升扩散 Transformer 推理效率的同时,有效克服了现有固定启发式方法导致的生成质量下降问题。
该论文针对现有触觉行走表面指示器(TWSI)数据集在视角和地域类型(如缺乏北美/欧洲常见的圆点警示)上的局限性,提出了一个结合合成与真实图像、涵盖多样化视角和警示类型的 GuideTWSI 数据集,以显著提升盲人和低视力人群导航辅助系统的检测泛化能力。
本文提出了名为 Marauder 的声明式框架,通过定义五种变异表示形式、构建支持选择性执行与组合的变异代数以及建立无损转换流水线,解决了手工构建变异分析工具在可读性、变异保持和执行成本之间的权衡问题。
MedSteer 提出了一种无需训练的激活导向框架,通过在扩散 Transformer 的交叉注意力层中识别病理向量并引导图像激活,从而在保持解剖结构不变的前提下生成高质量的医学内窥镜反事实合成数据,显著提升了下游息肉检测任务的性能。
本文通过建立基于折纸与剪纸几何的弹出式结构离散曲面曲率定义,提出了一种能够根据预设形状设计折切图案并实现单一结构在展开过程中从负曲率向正曲率转变的设计流程,并展示了其在减阻、包装及建筑立面等领域的应用潜力。
本文提出了一种形态无关的面部表情模仿方法,通过解耦表情语义与面部形态特征,使新型高表现力人形机器人“Pengrui"能够摆脱面部结构差异的干扰,实现更自然、准确的人类表情复现。
该研究提出了一种利用对话系统通过访谈生成电商用户评论的新方法,实验表明该系统不仅提升了用户的交互体验并减少了后续编辑工作量,而且生成的评论在帮助读者决策方面甚至优于人工撰写的评论。
针对现有长视频理解评估中因关键帧缺失导致模型“盲目猜测”而非“诚实拒答”从而产生误导性结果的问题,本文提出了 VirtueBench 基准,通过构建多帧采样层级和区分可答/不可答情况,旨在评估并推动大模型在不确定性下的可信度与诚实拒答能力。
该论文提出了一种名为 PhyVLM-CR 的新方法,通过将视觉语言模型(VLM)的语义先验转化为物理散射参数与置信度图,利用自适应加权机制实现了无需显式云类型判别的统一全云去除,从而在保持辐射保真度的同时有效消除了幻觉并提升了定量精度。
该论文提出了一种结合 Retinex 物理先验与语言语义引导的水下图像增强网络 PSG-UIENet,通过构建大规模图文数据集 LUIQD-TD 及设计图像 - 文本语义相似度损失,有效解决了现有方法适应性差和数据稀缺的问题,显著提升了水下图像增强效果。
该论文提出了基于“神经可见性”概念的 EEG 可见层选择策略与分层互补融合(HCF)框架,通过将脑电波与视觉模型的中间层特征对齐,显著提升了零样本视觉解码的准确率并实现了优异的泛化性能。
本文提出了 Multi-TAP 框架,通过语义画像建模显式捕捉域内用户偏好的异质性,并实现基于目标域条件筛选的源域知识迁移,从而在跨域推荐任务中显著优于现有最先进方法。
本文提出了首个专为联合音视频生成模型设计的 mAVE 水印框架,通过在不微调的情况下对音视频潜在空间进行加密绑定,有效解决了现有方法因模态解耦而面临的“交换攻击”漏洞,从而在零性能损失的前提下实现了近完美的绑定完整性与版权保护。
该研究针对“软件工程 2.0"背景下资源受限的小语言模型(SLM),通过构建多维评估框架,揭示了其在生成架构决策记录时的推理深度差异,发现 30 亿参数以上模型具备较强的零样本能力,而小参数模型虽经微调可提升语义多样性,但往往伴随幻觉风险,且少样本提示对特定中等规模模型具有显著的校准作用。
本文提出了一种结合监督微调与人类反馈强化学习的新方法,通过将身份无关的面部表情生成建模为动作学习过程,实现了在自然双向交互中生成符合人类偏好且情感社会适配的面部表情。
本文研究了对手存在下、玩家间无共享随机源且彼此独立的并发图博弈,证明了阈值判定问题属于实数存在理论()且为 NP 难,几乎必然可达性判定为 NP 完全,并提出了适用于此类分布随机化场景的 IRATL 逻辑及相应求解算法。
该论文提出了一种基于 ADMM 的分布式模型预测控制框架(ACLM),通过利用负载耦合结构将全局优化问题分解为并行子问题,实现了多足机器人在复杂非结构化环境中对重型负载进行协作移动操作的高效、可扩展且鲁棒的实时规划与控制。
本文提出了一种基于结构化多任务变分高斯过程的框架,利用 6D 旋转表示和联合维度因子化技术,在显著降低参数量的同时实现了可扩展的全身人体运动预测,不仅具备与深度学习模型相当的精度,更提供了可靠且可解释的不确定性估计,从而有效保障了人机协作的安全性。
该论文提出了一种名为 NuNext 的新方法,通过将细胞核检测重构为基于多模态大语言模型的“下一点预测”任务,并采用包含空间感知软监督、视觉思维链策略及强化学习微调的两阶段训练框架,在无需复杂后处理的情况下显著提升了组织病理学图像中细胞核检测的精度。
该研究通过对比直接生成与基于人类作者定义的中间表示(IR)的流水线方法,实证评估了大型语言模型在结构约束下将目标可玩模式(GPCs)转化为可编译 Unity 游戏代码的能力,并揭示了当前模型在代码生成中面临的主要结构性“接地”与“卫生”失败模式。