ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios
本文提出了名为 ENIGMA-360 的新数据集,该数据集在真实工业场景中采集了 180 组时间同步的 360 度第一人称与第三人称视频及标注,旨在填补工业领域人机行为理解数据的空白,并通过基线实验展示了现有模型在此类复杂场景下的局限性。
1845 篇论文
本文提出了名为 ENIGMA-360 的新数据集,该数据集在真实工业场景中采集了 180 组时间同步的 360 度第一人称与第三人称视频及标注,旨在填补工业领域人机行为理解数据的空白,并通过基线实验展示了现有模型在此类复杂场景下的局限性。
本文提出了语言感知规划(LAP)模型,该模型利用微调后的视觉语言模型将视觉观测转化为更具区分性的文本嵌入,并通过扩散模型生成动作序列,在多个程序规划基准测试中显著超越了现有最先进方法。
LogoDiffuser 是一种无需训练的基于多模态扩散变换器的方法,它通过将目标字符作为图像输入并利用字母感知注意力控制机制,实现了能够保持字符结构且支持多语言的高质量 Logo 生成与风格化。
本文提出了首个面向 360°全景环境的整体 affordance 定位任务,通过构建 360-AGD 数据集及提出包含畸变感知谱调制器和全向球面致密化头的 PanoAffordanceNet 框架,有效解决了全景图像中的几何畸变与语义分散问题,显著提升了具身智能的场景级感知能力。
该论文提出了一种名为 Ego 的高效个性化方法,通过利用模型内部注意力机制提取代表目标概念的视觉令牌作为记忆,从而在不依赖额外训练阶段或外部模块的情况下,显著提升了大型视觉语言模型在单概念、多概念及视频场景下的个性化能力。
该论文通过理论证明与实证研究揭示了后门攻击中“替代触发器”的必然存在性,指出仅移除训练触发器无法彻底清除后门,并主张防御策略应从输入空间转向针对特征空间后门方向的治理。
该论文指出可解释人工智能(XAI)领域长期忽视了神经元对“缺失概念”的编码现象,并提出扩展归因和特征可视化方法以有效揭示此类机制,从而提升模型解释性与去偏效果。
本文提出了测试时自视 - 他视适应(TE²A³)任务,并设计了通过多标签原型生长和双线索一致性机制来在线调整模型以应对多动作候选及跨视角时空差异的 DCPGN 方法,在 EgoMe-anti 和 EgoExoLearn 基准上显著优于现有最先进方法。
该论文提出了细粒度的区域感知声源理解(RA-SSU)新任务,构建了包含音乐和生活场景的细粒度数据集(f-Music 和 f-Lifescene),并设计了具备掩码协同与混合专家提示机制的 SSUFormer 模型,实现了帧级声源分割与描述的最先进性能。
ConfCtrl 提出了一种置信度感知的视频插值框架,通过结合置信度加权投影点云潜变量与卡尔曼启发式的预测 - 更新机制,使扩散模型在大视角变化下既能遵循指定相机姿态,又能有效重建未见区域,从而生成几何一致且视觉合理的 novel view。
本文提出了 BrainSTR 框架,通过结合自适应相位划分、注意力机制及时空监督对比学习,实现了可解释的动态脑网络建模,能够精准识别精神疾病诊断中的关键时间相位与亚网络特征。
该论文提出了 VLM-Loc 框架,利用大视觉语言模型的空间推理能力,通过将点云转换为鸟瞰图与场景图并结合部分节点分配机制,实现了从自然语言描述到 3D 点云地图的精准定位,并发布了 CityLoc 基准数据集以验证其优越性能。
该论文针对未来多智能体协作场景,正式定义了多视角长时序第一人称视频理解问题,提出了包含 1.7 千个问题的 MA-EgoQA 基准数据集及共享记忆动态检索基线模型 EgoMAS,以评估并推动系统在多智能体系统级理解能力上的发展。
本文提出了 CycleULM,这是首个用于超声定位显微镜的无标签统一深度学习框架,它通过物理模拟的域翻译技术克服了数据稀缺和仿真到现实的差距,在无需配对真值数据的情况下显著提升了血管成像的对比度、分辨率及微泡定位精度,并实现了实时处理速度。
本文提出了 MissBench 基准及框架,旨在通过标准化不平衡缺失模态协议并引入模态公平性指数(MEI)和模态学习指数(MLI)等诊断指标,揭示现有情感计算模型在真实缺失场景下隐藏的模态贡献不公与优化失衡问题。
本文提出了轻量级统一多模态模型 InternVL-U,通过解耦视觉表征与推理中心的数据合成策略,在仅使用 40 亿参数的情况下实现了理解、推理、生成与编辑能力的统一,其综合性能显著超越了参数量大 3 倍以上的同类基线模型。
该论文提出了 DISPLAY 框架,通过仅依赖手腕关节坐标和物体边界框的稀疏运动引导、物体感知注意力机制以及多任务辅助训练策略,实现了高保真且可灵活控制的人与物体交互视频生成。
本文提出了首个面向体育场景的大规模空间智能数据集 CourtSI 及其基准测试 CourtSI-Bench,通过利用球场几何结构构建百万级问答数据,揭示了现有视觉语言模型在体育空间推理上的局限性,并验证了基于该数据微调模型可显著提升其在空间理解与评论生成方面的性能。
该论文提出了 WikiCLIP,一种利用大语言模型嵌入和视觉引导知识适配器的高效对比学习框架,在显著提升开放域视觉实体识别性能的同时,将推理延迟降低了近 100 倍。
该论文揭示了点云优化中 Chamfer 距离因梯度结构缺陷导致点云坍缩的内在机制,并证明引入非局部耦合(如共享基变形或可微 MPM 先验)是抑制坍缩、提升优化效果的关键。