Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

本文提出了 Kernel VICReg,一种将 VICReg 自监督学习目标引入再生核希尔伯特空间(RKHS)的新框架,通过核化损失函数中的方差、不变性和协方差项,在无需显式映射的情况下实现非线性特征学习,从而在非线性结构显著或样本有限的场景下有效缓解表征坍塌并提升性能。

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

本文提出了一种面向腿式机器人的决策驱动语义对象探索方法,通过置信度校准的语义证据仲裁、受控增长的语义拓扑记忆以及语义效用驱动的亚目标选择机制,在无需稠密几何重建的情况下,将噪声语义观测转化为稳定可执行的探索决策,从而显著提升了开放世界中的探索性能。

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

本文提出了 DeCLIP 框架,通过解耦提示机制将多标签图像转化为单类视图以适配 CLIP 预训练范式,并引入自适应相似度调节策略,在无需回放和参数高效的前提下有效解决了多标签类增量学习中的灾难性遗忘与高误报率问题。

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

本文提出了名为 LikePhys 的免训练评估方法,通过利用去噪目标作为似然代理来区分物理有效与无效视频,构建了涵盖四大物理领域的基准测试,证明了其指标与人类偏好高度一致,并揭示了当前视频扩散模型在物理理解能力上随模型规模与推理设置扩展而呈现的改进趋势。

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

本文提出了 3DThinker 框架,通过两阶段训练使视觉语言模型在无 3D 先验和标注数据的情况下,能够像人类一样利用图像中的几何信息进行 3D 空间想象与推理,从而在有限视角下显著提升了空间关系理解能力。

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

AURASeg: Attention-guided Upsampling with Residual-Assistive Boundary Refinement for Onboard Robot Drivable-Area Segmentation

本文提出了 AURASeg 框架,通过引入残差辅助边界细化模块、注意力渐进上采样解码器及轻量级多尺度上下文模块,有效解决了移动机器人在边缘设备上 drivable-area 分割中边界精度不足与特征表示受限的问题,并在多个数据集及 Jetson Nano 设备上验证了其优越性能与部署可行性。

Narendhiran Vijayakumar, Sridevi. M2026-03-09💻 cs

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

该论文针对生成式扩散模型中文化记忆与泛化能力交织的“多模态图标性”现象,提出了将“识别”与“实现”分离的评估框架(CRT 指标),通过大规模实验揭示了模型在文化引用下的行为差异及其受数据频率、文本独特性等多重因素的影响,从而推动了从简单图文匹配向深层语境理解的评估范式转变。

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

本文提出了名为 SPARK 的框架,通过结合中性场景锚点、利用视听关联先验的潜在听觉触发词以及风格调节器,构建看似无害的提示词以协同诱导文本生成视频(T2V)模型绕过安全防御,从而生成语义违规的视频内容。

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

本文提出了 MRIQT,一种基于物理感知扩散模型的 3D 图像质量转换框架,通过结合 K 空间退化模拟、v 预测引导及信噪比加权感知损失,显著提升了便携式超低场新生儿 MRI 的图像质量与病理诊断可用性,使其在客观指标和临床评价上均优于现有方法。

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

本文介绍了 FunnyNodules,这是一个完全参数化的合成医学图像数据集,通过生成具有可控视觉属性的抽象肺结节形状及明确的决策规则,旨在填补缺乏诊断推理标注的空白,从而为评估和开发能够像放射科医生一样基于正确理由进行推理的可解释人工智能(xAI)模型提供灵活且全面的基准。

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

该论文提出了 FireScope 框架及 FireScope-Bench 基准,通过结合视觉监督与强化学习的思维链推理机制,实现了跨大陆的高分辨率野火风险预测,显著提升了模型的泛化能力与可解释性。

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG