cs 篇论文 | Gist.Science

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

该论文针对连续环境视觉语言导航任务中监督信号稀疏及错误累积问题，提出了步感知的对比对齐（SACA）框架，通过基于感知的逐步审计机制从不完美的轨迹中提取密集监督信号，并结合场景条件分组策略实现动态优化，从而在基准测试中取得了最先进的性能。

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

本文提出了名为 ENIGMA-360 的新数据集，该数据集在真实工业场景中采集了 180 组时间同步的 360 度第一人称与第三人称视频及标注，旨在填补工业领域人机行为理解数据的空白，并通过基线实验展示了现有模型在此类复杂场景下的局限性。

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

本文提出了语言感知规划（LAP）模型，该模型利用微调后的视觉语言模型将视觉观测转化为更具区分性的文本嵌入，并通过扩散模型生成动作序列，在多个程序规划基准测试中显著超越了现有最先进方法。

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

Caterpillar-Inspired Spring-Based Compressive Continuum Robot for Bristle-based Exploration

本文提出了一种受毛毛虫启发的弹簧基压缩连续体机器人，该机器人通过腱驱动实现弯曲与轴向伸缩的耦合运动，并集成人工刚毛接触传感器，从而为商业机械臂提供了一种低成本、高适应性的受限空间探索与表面感知解决方案。

Zhixian Hu, Yu She, Juan Wachs2026-03-11💻 cs

Simultaneous Embedding of Two Paths on the Grid

该论文研究了网格上两条路径的无自交同时几何嵌入问题，证明了最小化最长边长度是 NP 难的，并提出了当一条路径为 x 单调、另一条为 y 单调时，可在 $O(n^{3/2})$ 时间内最小化包含该嵌入的整数网格周长的算法。

Stephen Kobourov, William Lenhart, Giuseppe Liotta, Daniel Perz, Pavel Valtr, Johannes Zink2026-03-11💻 cs

The Richest Paradigm You're Not Using: Commercial Videogames at the Intersection of Human-Computer Interaction and Cognitive Science

该论文主张商业电子游戏是连接人机交互与认知科学的独特研究环境，通过利用游戏固有的认知需求与动机特性，结合屏幕录制、眼动追踪等最小化观测工具，为在生态效度更高的自然情境下系统研究感知、注意及执行功能提供了新的方法论框架。

Jaap Munneke, Jennifer E. Corbett2026-03-11💻 cs

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

本文提出了一种神经符号生成代理，通过链式思维推理和量纲分析自主识别并修正科学文献中的隐含物理假设（如将非排水条件误判为排水条件），从而在热压致裂等模拟中避免物理幻觉，实现了对物理机制的自主补全与验证。

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong Huang2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser 是一种无需训练的基于多模态扩散变换器的方法，它通过将目标字符作为图像输入并利用字母感知注意力控制机制，实现了能够保持字符结构且支持多语言的高质量 Logo 生成与风格化。

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

本文提出了 MuxGel，一种通过棋盘格涂层实现空间复用并结合基于 U-Net 的深度学习重建框架，从而在单一 GelSight 风格传感器中同时获取高分辨率外部视觉与接触触觉信息的双模态感知系统。

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu She2026-03-11💻 cs

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

该论文通过理论证明与实证研究揭示了后门攻击中“替代触发器”的必然存在性，指出仅移除训练触发器无法彻底清除后门，并主张防御策略应从输入空间转向针对特征空间后门方向的治理。

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

Deblurring structural edges in variable thickness topology optimization via density-gradient-informed projection

该论文提出了一种基于密度梯度的投影方法，通过利用局部密度梯度信息在结构边缘处选择性地施加强投影，有效解决了变厚度拓扑优化中结构边缘模糊及低厚度区域难以制造的问题，在显著恢复边缘清晰度的同时几乎不影响结构的最终柔度。

Gabriel Stankiewicz, Chaitanya Dev, Paul Steinmann2026-03-11💻 cs

CLIOPATRA: Extracting Private Information from LLM Insights

本文提出了名为 CLIOPATRA 的首个针对“隐私保护”LLM 洞察系统（如 Anthropic 的 Clio）的攻击方法，证明即使采用多重启发式防护，攻击者仍能通过精心设计的恶意对话成功窃取目标用户的敏感医疗历史，且现有审计机制无法有效检测此类泄露。

Meenatchi Sundaram Muthu Selva Annamalai, Emiliano De Cristofaro, Peter Kairouz2026-03-11💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

本文提出了名为 TIMID 的新架构，旨在通过结合视频与任务提示，利用弱监督学习检测机器人执行高难度任务时出现的复杂时间依赖性错误，并借助多机器人仿真数据集解决了错误执行数据稀缺及零样本仿真到现实评估的难题。

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)2026-03-11💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

本文提出了测试时自视 - 他视适应（TE²A³）任务，并设计了通过多标签原型生长和双线索一致性机制来在线调整模型以应对多动作候选及跨视角时空差异的 DCPGN 方法，在 EgoMe-anti 和 EgoExoLearn 基准上显著优于现有最先进方法。

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

Expressive Power of Property Graph Constraint Languages

本文通过构建统一框架，系统比较了旨在支持 GQL 标准修订的 PG-Keys 语言与图函数依赖（GFD）、图生成依赖（GGD）的表达能力，确立了包含严格分层关系的完整表达力层级，并精确定位了 PG-Keys 在现有属性图约束形式化方法中的独特优势。

Stefania Dumbrava, Nadime Francis, Victor Marsault, Steven Sailly2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

该论文提出了细粒度的区域感知声源理解（RA-SSU）新任务，构建了包含音乐和生活场景的细粒度数据集（f-Music 和 f-Lifescene），并设计了具备掩码协同与混合专家提示机制的 SSUFormer 模型，实现了帧级声源分割与描述的最先进性能。

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl 提出了一种置信度感知的视频插值框架，通过结合置信度加权投影点云潜变量与卡尔曼启发式的预测 - 更新机制，使扩散模型在大视角变化下既能遵循指定相机姿态，又能有效重建未见区域，从而生成几何一致且视觉合理的 novel view。

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

本文提出了 EmoSURA 评估框架，通过将情感语音描述分解为原子感知单元并结合音频验证机制，有效解决了传统指标和 LLM 在长文本情感语音字幕评估中的语义捕捉不足与推理不一致问题，并配套推出了标准化基准 SURABench 以提升评估的准确性与可靠性。

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn Schuller2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

本文提出了 BrainSTR 框架，通过结合自适应相位划分、注意力机制及时空监督对比学习，实现了可解释的动态脑网络建模，能够精准识别精神疾病诊断中的关键时间相位与亚网络特征。

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

该论文提出了 VLM-Loc 框架，利用大视觉语言模型的空间推理能力，通过将点云转换为鸟瞰图与场景图并结合部分节点分配机制，实现了从自然语言描述到 3D 点云地图的精准定位，并发布了 CityLoc 基准数据集以验证其优越性能。

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs