cs.CV 篇论文 | Gist.Science

Aligning Fetal Anatomy with Kinematic Tree Log-Euclidean PolyRigid Transforms

该论文提出了一种基于 SMPL 公式和新型 KTPolyRigid 变换的可微分体积人体模型，通过解决大尺度关节运动中的李代数歧义问题，实现了胎儿 MRI 图像中无折叠伪影的形变场生成，从而支持稳健的组间配准和高效的胎儿器官分割。

Yingcheng Liu, Athena Taymourtash, Yang Liu + 5 more2026-03-04💻 cs

Authenticated Contradictions from Desynchronized Provenance and Watermarking

本文揭示了 C2PA 内容溯源与隐形水印两大验证层因缺乏互验而产生的“完整性冲突”漏洞，即同一图像可同时通过人类创作与 AI 生成的双重认证，并提出了通过联合评估元数据与水印状态的跨层审计协议以彻底解决该问题。

Alexander Nemecek, Hengzhi He, Guang Cheng + 1 more2026-03-04⚡ eess

Advancing Earth Observation Through Machine Learning: A TorchGeo Tutorial

本文介绍了 TorchGeo 这一基于 PyTorch 的地球观测机器学习库，并通过代码示例和基于 Sentinel-2 影像的水体分割端到端案例，展示了如何利用该库处理地理空间数据、训练语义分割模型并将预测结果保存为 GeoTIFF 格式。

Caleb Robinson, Nils Lehmann, Adam J. Stewart + 4 more2026-03-04💻 cs

OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments

OpenMarcie 是迄今为止规模最大的面向工业制造环境的多模态动作识别数据集，包含来自 36 名参与者在自行车与 3D 打印机组装任务中采集的超过 37 小时多视角、多模态数据，并针对活动分类、开放词汇描述及跨模态对齐等任务进行了基准测试。

Hymalai Bello, Lala Ray, Joanna Sorysz + 2 more2026-03-04⚡ eess

From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

本文提出了量化感知数据集蒸馏（QuADD）框架，通过在固定比特预算下联合优化合成样本数量与量化精度，实现了比现有方法更高效的信息压缩与训练性能。

My H. Dinh, Aditya Sant, Akshay Malhotra + 2 more2026-03-04🤖 cs.AI

TruckDrive: Long-Range Autonomous Highway Driving Dataset

该论文针对现有数据集缺乏长距离感知能力的不足，推出了专为重型卡车高速自动驾驶设计的"TruckDrive"多模态数据集，并通过实验揭示了当前最先进模型在超过 150 米范围时感知性能显著下降的系统性缺陷。

Filippo Ghilotti, Edoardo Palladin, Samuel Brucker + 3 more2026-03-04💻 cs

MIRAGE: Knowledge Graph-Guided Cross-Cohort MRI Synthesis for Alzheimer's Disease Prediction

本文提出了 MIRAGE 框架，通过利用生物医学知识图谱引导跨队列的潜在特征蒸馏，并结合冻结的 3D U-Net 作为结构正则化约束，成功实现了仅基于电子健康记录预测阿尔茨海默病，从而在无需昂贵 MRI 扫描的情况下显著提升了诊断准确率。

Guanchen Wu, Zhe Huang, Yuzhang Xie + 6 more2026-03-04🤖 cs.AI

ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering

ORCA 提出了一种基于多智能体协作的文档视觉问答新框架，通过推理分解、路由调度专用智能体、辩论与裁决机制以及一致性检查，显著提升了复杂文档推理任务的性能。

Aymen Lassoued, Mohamed Ali Souibgui, Yousri Kessentini2026-03-04💻 cs

Deep Learning Based Wildfire Detection for Peatland Fires Using Transfer Learning

本文提出了一种基于迁移学习的深度学习框架，通过利用通用野火预训练模型并针对马来西亚泥炭地火灾数据进行微调，有效克服了泥炭火隐蔽性强和数据稀缺的挑战，显著提升了复杂环境下的检测精度与鲁棒性。

Emadeldeen Hamdan, Ahmad Faiz Tharima, Mohd Zahirasri Mohd Tohir + 4 more2026-03-04🤖 cs.AI

Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

该论文提出了名为 STW 的大规模开源数据集（基于 10 阶 MST 肤色标准标注），通过对比传统计算机视觉与深度学习方法的性能，并开发了基于 ViT 的 SkinToneNet 模型，实现了在野外观测条件下的高精度肤色分类与公平性评估。

Vitor Pereira Matias, Márcus Vinícius Lobo Costa, João Batista Neto + 1 more2026-03-04🤖 cs.LG

E2E-GNet: An End-to-End Skeleton-based Geometric Deep Neural Network for Human Motion Recognition

本文提出了一种名为 E2E-GNet 的端到端几何深度学习网络，通过引入几何变换层和失真感知优化层，在保持判别性几何特征的同时有效降低了骨架动作识别的失真与计算成本，并在多个数据集上取得了优于现有方法的性能。

Mubarak Olaoluwa, Hassen Drira2026-03-04💻 cs

ModalPatch: A Plug-and-Play Module for Robust Multi-Modal 3D Object Detection under Modality Drop

本文提出了 ModalPatch，这是一种无需修改架构或重新训练即可无缝集成到现有框架中的即插即用模块，它利用历史数据预测缺失特征并结合不确定性引导的跨模态融合策略，显著提升了多模态 3D 物体检测在任意模态丢失场景下的鲁棒性与精度。

Shuangzhi Li, Lei Ma, Xingyu Li2026-03-04💻 cs

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

本文提出了 MUSE，一个开源的以运行流程为核心的多模态统一安全评估平台，通过集成自动跨模态载荷生成、多轮攻击算法及模态切换机制，揭示了现有大语言模型在多轮交互及跨模态场景下对齐泛化能力的显著不足。

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

本文基于 James 对称正定矩阵双锥域的重参数化，引入了两种新的几何结构（Finsler 结构和对偶信息几何结构），使得测地线在适当坐标系下对应直线，并证明了由此导出的 Hilbert VPM 距离推广了机器学习中的 Hilbert 单纯形距离，同时探讨了其应用及与传统差异度量的不等式关系。

Jacek Karwowski, Frank Nielsen2026-03-04📊 stat

WTHaar-Net: a Hybrid Quantum-Classical Approach

本文提出了名为 WTHaar-Net 的混合量子 - 经典卷积神经网络，该网络利用具有空间局部性和多分辨率特性的 Haar 小波变换替代传统架构中的哈达玛变换，在显著减少参数量的同时保持了竞争力甚至更优的准确率，并成功在 IBM 量子云硬件上验证了其量子实现的可行性。

Vittorio Palladino, Tsai Idden, Ahmet Enis Cetin2026-03-04💻 cs

Biomechanically Accurate Gait Analysis: A 3d Human Reconstruction Framework for Markerless Estimation of Gait Parameters

该论文提出了一种基于视频 3D 人体重建的无标记步态分析框架，通过提取类似运动捕捉的生物力学标记并结合 OpenSim 进行关节运动学估计，实现了与标记法高度一致且优于传统姿态估计方法的精准步态评估。

Akila Pemasiri, Ethan Goan, Glen Lichtwark + 3 more2026-03-04⚡ eess

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

本文提出了语义引导模态感知（SGMA）框架，通过语义引导融合与模态感知采样两个模块，有效解决了遥感不完整多模态语义分割中存在的模态不平衡、类内变异及跨模态异质性挑战，显著提升了分割性能。

Lekang Wen, Liang Liao, Jing Xiao + 1 more2026-03-04💻 cs

Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

该研究提出了一种基于图注意力网络的深度学习框架，通过采用功能脑区划分（MSDL）替代传统解剖划分（AAL）并结合数据增强与可解释性分析，在 ABIDE I 数据集上将自闭症谱系障碍分类准确率提升至 95.0%，显著优于现有基准并验证了模型决策的神经病理学依据。

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

本文提出了 NeighborMAE 模型，通过联合重建相邻地球观测图像并采用动态掩码与损失权重策略来挖掘空间依赖关系，从而在自监督预训练中显著提升了表征学习效果。

Liang Zeng, Valerio Marsocci, Wufan Zhao + 2 more2026-03-04💻 cs

EIMC: Efficient Instance-aware Multi-modal Collaborative Perception

EIMC 提出了一种高效的实例感知多模态协同感知范式，通过引入轻量级协同体素构建先验、基于热力图共识机制仅查询低置信度区域的 Top-K 实例向量，并利用自注意力机制进行特征增强，在显著降低通信带宽（减少 87.98%）的同时实现了高精度的协同检测（73.01% AP@0.5）。

Kang Yang, Peng Wang, Lantao Li + 4 more2026-03-04💻 cs