DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models
本文提出了 DEX-AR,一种专为自回归视觉语言模型设计的动态可解释性方法,它通过计算生成过程中的层间注意力梯度,结合动态头过滤与序列级过滤机制,生成能够区分视觉与语言信息的 token 级及序列级 2D 热力图,从而有效提升了模型决策过程的透明度与可解释性。
2382 篇论文
本文提出了 DEX-AR,一种专为自回归视觉语言模型设计的动态可解释性方法,它通过计算生成过程中的层间注意力梯度,结合动态头过滤与序列级过滤机制,生成能够区分视觉与语言信息的 token 级及序列级 2D 热力图,从而有效提升了模型决策过程的透明度与可解释性。
该论文提出了 LTA(潜在空间转移攻击),一种通过在预训练 Stable Diffusion 的潜在空间中优化扰动并结合期望变换(EOT)与高斯平滑策略的方法,从而生成具有强迁移性、空间连贯且低频特性的对抗样本,有效克服了传统像素空间攻击在预处理鲁棒性和跨架构迁移方面的局限。
本文提出了一种名为 WMoE-CLIP 的零样本异常检测方法,通过结合变分自编码器建模全局语义、小波分解提取多频特征以及语义感知的混合专家模块,有效克服了现有方法在提示词固定和仅依赖空间域特征方面的局限,显著提升了在工业和医疗场景下对未见异常及细微异常的检测能力。
该论文提出了一种名为 P-SLCR 的无监督点云语义分割方法,通过一致性结构学习与语义关系一致性推理机制,在 S3DIS 等数据集上实现了超越经典全监督 PointNet 的最优性能。
该研究通过邀请多国艺术家评估 ChatGPT 生成的当代艺术作品仿作,发现 AI 在色彩纹理上虽能模仿,却在构图、概念及情感维度上存在显著缺失,因此主张采用多维度的“风格转移仪表盘”而非单一指标来评估此类仿作。
该论文提出了 WorldCache 框架,通过引入基于曲率的异构令牌预测和混沌优先自适应跳过机制,有效解决了扩散世界模型中因多模态耦合与非均匀时序动态导致的加速难题,在保持 98% rollout 质量的同时实现了高达 3.7 倍的端到端推理加速。
本文提出了 K-MaT(知识锚定流形传输)框架,通过结合临床文本锚定提示并采用融合 Gromov-Wasserstein 最优传输技术对齐流形,实现了无需低质量模态训练数据即可将大型生物医学视觉 - 语言模型从高端成像(如 CT)有效迁移至低质量模态(如 X 光),从而在多个跨模态基准测试中取得了优于现有方法的性能并缓解了灾难性遗忘问题。
本文提出了动态分块扩散 Transformer(DC-DiT),通过引入端到端学习的编码器 - 路由器 - 解码器架构,根据图像内容复杂度和扩散时间步自适应地压缩 Token 序列,从而在显著降低计算成本的同时提升了生成质量,并支持从预训练 DiT 模型的低成本迁移。
本文提出了 LATO,一种基于流匹配的新型 3D 网格生成方法,它通过顶点位移场与稀疏体素变分自编码器的结合,在无需等值面提取或启发式网格化的情况下,实现了具有复杂几何结构和良好拓扑保持性的高效显式网格合成。
该论文提出了一种基于计算机视觉的方法,利用 BIODISCOVER 双相机系统自动获取无脊椎动物的面积和沉降速度等特征,通过线性模型或端到端深度神经网络,实现了无需人工称重即可对形态各异的个体进行干重估算(中位百分比误差为 10-20%),从而助力生物多样性监测的规模化扩展。
本文提出了 OralGPT-Plus 模型,通过构建包含专家诊断轨迹的 DentalProbe 数据集、开发基于再检查机制的强化学习框架以及发布 MMOral-X 基准,实现了具备迭代推理与对称性感知能力的全景牙科 X 光片分析,显著提升了临床诊断的可靠性。
本文提出了 Rewis3d 框架,通过利用前馈 3D 重建技术生成几何辅助监督信号,在无需额外标注和推理开销的情况下,显著提升了基于稀疏标注的弱监督语义分割性能。
该论文提出了 MoEMambaMIL,一种结合区域嵌套选择性扫描与混合专家机制的结构感知状态空间模型,旨在通过多分辨率预处理和动态路由解决全切片图像分析中空间层级依赖建模的难题,并在 9 项下游任务中取得了最优性能。
该论文介绍了 CHMv2,这是一个利用基于 DINOv3 的深度估计模型和海量多样化训练数据生成的全球米级分辨率冠层高度图,其在准确性、高森林偏差校正及精细结构保留方面显著优于现有产品。
该论文提出了一种提示组感知训练框架,通过将语义相关的提示组织成组并引入质量引导的正则化与对数级一致性约束,在不改变模型架构的前提下显著提升了文本引导的细胞核分割在临床病理场景中的鲁棒性与泛化能力。
本文提出了 REACT++,一种基于高效特征提取和原型空间跨注意力机制的新型实时场景图生成模型,它在保持物体检测性能的同时,显著提升了推理速度与关系预测准确率,实现了性能与速度的最佳平衡。
该论文提出了一种人机协作框架,通过结合自动松弛标记求解器与迭代锚定及连续交互优化等策略,有效解决了大规模、高模糊度及存在破损的文化遗产碎片(如 RePAIR 基准测试)的野外拼图重建难题,其性能显著优于全自动和纯人工方法。
该论文提出了 DiffInf 框架,通过结合自影响力评分与潜在扩散模型,对导致监督不一致的高影响力面部图像样本进行生成式修正,从而在不牺牲数据分布覆盖的前提下提升属性分类性能。
该研究通过合成形状冲突实验发现,BEiT 模型在早期和中间层对凸凹补全存在感知模糊,而图底组织偏好最终在深层由注意力头 L0H9 主导确立,且通过下调该头可逆转模型的凸性偏好。
该论文提出了物理模拟器内循环视频生成(PSIVG)框架,通过将物理模拟器与视频扩散过程相结合,利用模拟的 4D 场景轨迹引导生成过程,并辅以测试时纹理一致性优化技术,从而在保持视觉质量的同时显著提升了生成视频对重力、惯性和碰撞等基本物理定律的遵循程度。