A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

本文提出了一种名为 MCULoRA 的鲁棒不完整多模态低秩适应框架,通过模态组合感知低秩适应(MCLA)模块解耦共享信息与模态特性,并利用动态参数微调(DPFT)模块基于表征空间可分性优化训练比例,从而有效解决了多模态情感识别中因模态缺失导致的梯度冲突问题并显著提升了预测性能。

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

该论文揭示了多模态大语言模型(MLLM)作为验证器时普遍存在的“同意偏差”问题,并提出了一种名为自我 grounded 验证(SGV)的两步生成方法,通过先独立生成行为先验再评估轨迹,显著提升了验证准确性及智能体在网页导航、计算机操作和机器人等领域的任务完成表现。

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Unified Medical Image Segmentation with State Space Modeling Snake

本文提出了一种名为 Mamba Snake 的新型深度蛇形框架,通过引入状态空间建模、Mamba 演化模块及双分类协同机制,有效解决了统一医学图像分割中多尺度结构异质性与器官间关系建模的难题,并在五个临床数据集上实现了优于现有最先进方法的平均 3% 的 Dice 提升。

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

CauKer: Classification Time Series Foundation Models Can Be Pretrained on Synthetic Data

本文提出了 CauKer 算法,通过结合高斯过程核组合与结构因果模型生成具有因果一致性的合成时间序列数据,实现了时间序列基础模型的高效预训练,并揭示了其在数据规模与模型容量上呈现的清晰缩放规律。

Shifeng Xie, Vasilii Feofanov, Ambroise Odonnat, Lei Zan, Marius Alonso, Jianfeng Zhang, Themis Palpanas, Lujia Pan, Keli Zhang, Ievgen Redko2026-03-10🤖 cs.LG

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

本文提出了 Video-EM,一种无需训练的事件中心式情节记忆框架,通过利用大语言模型作为主动代理来构建、精炼并验证连贯的事件时间线,从而有效解决现有视频大模型在处理长视频时因上下文限制和孤立帧选择导致的叙事断裂与冗余问题。

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs