Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

本文提出了一种名为 I2S 的多阶段框架,通过利用包含新型“双手空间包络”描述符的 3D 手部姿态特征进行物体识别与交互分析,在 ARCTIC 和 H2O 数据集上实现了高达 97.52% 的 F1 分数,为高安全性增强现实环境提供了轻量级、实时的基于人机交互的用户身份认证方案。

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

该论文提出了无需训练的 SHINE 框架,利用预训练扩散模型(如 FLUX)内在的物理先验,通过流形引导锚定损失和自适应背景融合等技术,实现了在复杂光照与高分辨率场景下物理真实且无缝的图像合成,并发布了包含多样化挑战条件的 ComplexCompo 基准数据集以验证其优越性能。

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

本文提出了名为 CircuitSense 的层次化多模态大模型基准,通过涵盖 8000 多个从感知到设计的全流程电路问题,揭示了当前先进模型在视觉识别任务上表现优异但在从电路图推导符号方程等数学推理能力上存在显著短板,从而确立了符号推理作为评估工程智能核心指标的重要性。

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs