CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

CoEditor++ 是一种无需训练的认知结构化框架,通过“编辑什么”和“如何编辑”的双阶段推理及自选择机制,在无需微调的情况下实现了超越现有开源及闭源模型的指令驱动图像编辑性能,同时显著提升了视觉一致性和任务可解释性。

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

本文提出了 Omni-C,一种基于单一稠密 Transformer 编码器的统一架构,它通过大规模非对齐数据的单模态对比预训练和轻量级投影头,在无需混合专家(MoE)或配对监督的情况下,有效压缩了图像、音频和文本等异构模态,显著降低了推理内存开销并实现了与专家模型相当的性能。

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

本文提出了一种基于数字孪生的 V2X 轨迹预测框架,通过结合 Bi-LSTM 生成器与包含标准均方误差及新型“孪生损失”的联合训练目标,在确保预测精度的同时有效降低了交通违规和碰撞风险,从而提升了城市复杂路口多智能体交互场景下的安全性与合规性。

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

AutoThinkRAG 通过引入查询复杂度路由器和将视觉解析与逻辑推理功能解耦的小规模 VLM 与大语言模型协同架构,有效解决了多模态文档问答中的长上下文与信息过载难题,在显著降低推理成本的同时实现了新的最先进性能。

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

该论文提出了首个针对基于热力图的关键点检测器的耦合鲁棒性验证框架,通过混合整数线性规划将验证问题转化为联合偏差约束下的反例搜索,从而克服了传统解耦方法在连续坐标输出和高维输入下的局限性,实现了对关键点间依赖关系及下游任务需求的更紧确且有效的鲁棒性证明。

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

DreamCAD 提出了一种利用可微参数曲面从点级监督直接生成可编辑 BRep 的多模态生成框架,结合新构建的百万级 CAD 描述数据集,在无需特定 CAD 标注的情况下实现了大规模训练并显著提升了文本、图像及点云到 CAD 生成的几何保真度。

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

该论文提出了一种名为 ABRA 的对抗性批次表示增强方法,通过将生物批次效应建模为域泛化问题,利用极小化极大优化框架合成最坏情况下的批次扰动,从而在无需额外先验知识的情况下显著提升了高内涵细胞筛选中深度学习模型的泛化能力。

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

该论文提出了一种名为“后融合稳定器”(PFS)的轻量级模块,它作为现有鸟瞰图融合检测器的即插即用组件,通过稳定特征统计、抑制退化区域及自适应残差校正,在不改变原有架构的前提下显著提升了多模态 3D 检测在相机丢失、低光照等域偏移和传感器故障场景下的鲁棒性。

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

本文提出了名为 CBM-Suite 的方法论框架,通过引入基于熵的概念适用性度量、在概念与分类器间插入非线性层以解决线性问题、利用教师探针蒸馏缩小精度差距,以及系统分析不同视觉骨干与 VLM 的影响,全面解决了概念瓶颈模型(CBM)在概念评估、线性绕过、精度差距及组件交互研究方面的关键局限。

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

本文提出了名为 SemVID 的训练无关视频时间定位剪枝框架,通过引入证据保留与连通性强度原则,动态分配帧级令牌预算并筛选对象、运动及上下文令牌,在显著降低计算成本的同时有效保持了关键语义证据链的完整性。

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

该论文提出了一种利用调制高斯包络以在任意 k 空间位置放置频谱支持的 Gabor 基元方法,结合低秩时空分解,实现了无需大规模训练数据即可从高度欠采样数据中高效重建具有物理可解释参数的高分辨率心脏电影 MRI 图像,其性能优于压缩感知、高斯基元及哈希网格隐式神经表示等现有基线。

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs