Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

该论文提出了一种解耦多模态学习框架,通过解耦肿瘤与微环境子空间、跨尺度基因表达一致性对齐、子空间知识蒸馏以及信息令牌聚合等策略,有效解决了组织病理学与转录组数据整合中的异质性、多尺度融合不足及配对数据依赖问题,显著提升了癌症诊断、预后及生存预测的性能。

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

本文提出了一种名为 I2S 的多阶段框架,通过利用包含新型“双手空间包络”描述符的 3D 手部姿态特征进行物体识别与交互分析,在 ARCTIC 和 H2O 数据集上实现了高达 97.52% 的 F1 分数,为高安全性增强现实环境提供了轻量级、实时的基于人机交互的用户身份认证方案。

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

该论文提出了无需训练的 SHINE 框架,利用预训练扩散模型(如 FLUX)内在的物理先验,通过流形引导锚定损失和自适应背景融合等技术,实现了在复杂光照与高分辨率场景下物理真实且无缝的图像合成,并发布了包含多样化挑战条件的 ComplexCompo 基准数据集以验证其优越性能。

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI