B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

受非平衡热力学启发的扩散模型虽性能卓越但推理延迟高,而现有蒸馏技术因丢弃中间步骤导致结构信息丢失和离散化误差,为此本文提出了 B-DENSE 框架,通过多分支轨迹对齐机制,让学生模型在扩展通道中同时映射教师轨迹的所有离散中间步骤,从而在训练早期实现密集监督并显著提升生成质量。

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree SinghiWed, 11 Ma🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

本文提出了名为 CoPeDiT 的通用潜在扩散模型,通过引入具备完整性感知能力的自编码器(CoPeVAE)和专用的 3D 扩散 Transformer 架构(MDiT3D),无需依赖外部手动指示即可自主推断缺失状态,从而实现了在多种缺失模式下具有高保真度和语义一致性的统一 3D MRI 合成。

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le ZhangWed, 11 Ma⚡ eess

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

本文提出了一种基于 Grounding DINO 1.5、YOLOv11 和 SAM 2.1 的双流水线框架,通过零-shot 文本提示或轻量级监督微调实现鸟类图像分割,在 CUB-200-2011 数据集上显著超越了传统端到端模型,证明了提示驱动的基础模型在无需重新训练分割主干的情况下即可实现高精度分割。

Abhinav MunagalaWed, 11 Ma🤖 cs.AI

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Pri4R 提出了一种简单有效的训练方法,通过利用特权 4D 信息(3D 点轨迹预测)作为辅助任务,使视觉 - 语言 - 动作(VLA)模型在无需增加推理开销的情况下,隐式地习得世界动力学规律,从而显著提升了其在复杂操作任务中的物理感知与控制能力。

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong KimWed, 11 Ma🤖 cs.AI

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

该论文提出了一种名为 MuCTaL 的轻量级多癌症肿瘤定位框架,通过在四种癌症数据上进行平衡训练,实现了在已知癌种及未见过的胰腺癌中均具备良好泛化能力的肿瘤区域检测,并构建了可部署的数字病理空间热图生成工作流。

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue BaoWed, 11 Ma🤖 cs.AI

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

本文提出了一种基于黑盒优化与语义同质化的系统性框架,在 CARLA 仿真中对比评估了 Dolphins、OmniDrive 和 LeapVAD 三种视觉语言模型架构在物理补丁攻击下的鲁棒性,揭示了当前自动驾驶 VLM 设计存在严重的安全漏洞及独特的架构脆弱性模式。

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. PeséWed, 11 Ma💻 cs