Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

本文提出了一种结合 3D 卷积神经网络、图卷积网络及物体检测上下文信息的跨模态深度学习框架,利用交叉注意力机制融合视频、姿态与物体特征,以在丰田智能家居数据集上实现对老年人日常活动的高精度识别,从而提升环境辅助生活系统的安全性与独立性支持能力。

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

本文提出了首个跨模态算子失配基准 InverseNet,通过涵盖 CASSI、CACTI 及单像素相机等多种成像模态的广泛实验,揭示了现有深度学习方法在算子失配下性能严重退化且与鲁棒性呈负相关,同时证明了算子条件化架构与盲校准策略能有效恢复性能并弥合仿真与真实硬件间的差距。

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

该研究针对多模态遥感数据(SAR 与 MSI)下的本地气候区(LCZ)分类问题,系统分析了多种深度学习融合策略与数据分组方法,发现结合基线混合融合(FM1)、波段分组(BG)与标签合并(LM)的策略在 So2Sat LCZ42 数据集上表现最佳,整体准确率达到 76.6%,并显著提升了少数类别的预测精度。

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

本文提出了名为 PinPoint 的综合真实世界基准,通过引入多真值答案、显式负样本、指令改写及多图像查询等特性,揭示了现有组合图像检索方法在抗干扰性、鲁棒性和多图像推理方面的显著不足,并提出了一种基于多模态大语言模型的免训练重排序方法以弥补性能差距。

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs