cs 篇论文 | Gist.Science

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

该论文提出了 GPU 原生多目标强化学习算法 MORLAX 及配套的 MO-Playground 环境库，通过大规模并行化将计算速度提升 25 至 270 倍，有效解决了复杂机器人多目标优化问题中计算耗时过长且难以扩展的瓶颈。

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan Tucker2026-03-11💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

该论文提出了一种名为 RAE-NWM 的导航世界模型，通过在保留细粒度结构信息的密集视觉特征空间（而非压缩潜在空间）中建模动作条件状态转移，并结合条件扩散 Transformer 与时间驱动门控模块，显著提升了视觉导航的结构稳定性与动作控制精度。

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

该论文针对基于视觉基础模型的检测器在跨分布场景下因过度依赖语义先验（即“语义回退”）而泛化性不足的问题，提出了一种无需参数的几何语义解耦（GSD）模块，通过从表征中显式移除语义成分以迫使模型聚焦于伪造痕迹，从而显著提升了在未见生成管道及通用场景下的 AI 生成图像检测性能。

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

该论文提出了将实例分割重构为稀疏顶点回归的 Polygon Detection Transformer (Poly-DETR)，通过引入极坐标表示、极坐标可变形注意力及位置感知训练方案，在保持轻量级和高推理速度的同时显著提升了模型在高分辨率输入及特定领域规则形状实例上的分割性能。

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

该论文提出了名为"Reasoning-Oriented Programming"的新型攻击范式，通过构建框架\tool{}将语义正交的良性视觉组件编排为“语义小工具”，利用大视觉语言模型在后期推理阶段的逻辑合成漏洞来绕过感知层面的安全对齐，从而在多个基准测试中显著优于现有基线并成功诱导模型生成有害内容。

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang2026-03-11💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

本文提出了 RF-Mem，一种受人类记忆双过程（熟悉感与回忆）启发的自适应检索框架，通过根据熟悉度不确定性动态切换直接匹配与迭代重构路径，在有限预算下实现了比现有方法更精准、可扩展的个性化大语言模型记忆检索。

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu Zhao2026-03-11💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

本文提出了一种名为“车队即服务”（PlaaS）的决策支持框架，通过建立以车队服务提供商为领导者的斯塔克尔伯格博弈模型来优化定价与行驶距离决策，并分析了政府补贴及运营参数对平台利润与碳排放的影响，从而为自动驾驶车辆编队行驶促进可持续交通提供了理论依据与管理启示。

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand Abrahamb2026-03-11💻 cs

Multimodal Graph Representation Learning with Dynamic Information Pathways

本文提出了一种名为 DiP 的新型多模态图表示学习框架，通过引入模态特定伪节点和动态信息路径，实现了自适应、稀疏且高效的跨模态消息传递，从而在多个基准测试中显著优于现有基线方法。

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

该论文提出了一种利用网络视频和隐式几何表示的大规模视觉语言导航框架，通过从 RGB 帧直接提取空间线索来克服传统 3D 重建的局限性，从而在多个基准测试中实现了最先进的性能并推动了零样本导航的发展。

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

该论文通过对比虚拟现实（VR）与传统视频会议，利用主观实验分析了端到端延迟如何从感知层面的交互流畅性和认知层面的社会临场感两个维度影响用户体验，并揭示了两者在不同延迟条件下的内在关联机制，从而为优化沉浸式虚拟环境系统提供了指导。

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi Lin2026-03-11💻 cs

On the Online Weighted Non-Crossing Matching Problem

本文研究了欧几里得平面上带权重的在线非交叉匹配问题，证明了确定性算法无法获得非平凡竞争比，但随机化算法可实现常数竞争比，并进一步探讨了可撤销机制、共线点情形及最优解的咨询复杂度上界。

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis Pankratov2026-03-11💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

本文提出了一种名为 TPIFM 的任务感知模型，该模型基于自由能原理，通过量化不同协作任务对网络延迟和卡顿的感知差异（即任务特定的最小可觉差），实现了对远程增强现实协作中感知交互流畅性的准确评估。

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi Lin2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

本文提出了名为 ForgeDreamer 的新框架，通过多专家 LoRA 集成机制解决工业领域的类别知识干扰问题，并利用跨视图超图几何增强方法捕捉高阶结构依赖，从而显著提升了工业文本到 3D 生成的语义泛化能力与几何精度。

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Entangling Like Mycorrhizae: Mixing Realities Through Touch in "FungiSync"

本文介绍了《FungiSync》这一多人共址混合现实体验，它通过将参与者化身森林植物并让手部接触触发数字感知世界的交融，将菌根网络的共生互赖转化为一种具身化的仪式，旨在以“真菌认识论”批判技术加速时代的极端个人主义。

Botao Amber Hu, Danlin Huang, Yilan Elan Tao, Xiaobo Aaron Hu, Rem RunGu Lin2026-03-11💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

该论文提出了一种通过定期重置高斯尺度、引入熵约束优化混合权重以及结合渐进式分辨率调度，从而显著缩短渲染所需高斯列表长度，在保持渲染质量的同时大幅提升 3D 高斯泼溅（3DGS）训练效率的新方法。

Jiaqi Liu, Zhizhong Han2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

本文提出了名为 SVOR 的鲁棒框架，通过掩码并集策略、去噪感知分割头及两阶段课程训练，有效解决了真实场景下阴影、剧烈运动及掩码缺陷导致的视频物体移除难题，实现了无闪烁且时序稳定的移除效果。

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

Learning Convex Decomposition via Feature Fields

该论文提出了一种基于特征场学习的新方法，通过自监督几何目标将 3D 形状分解为凸体集合，首次实现了面向开放世界的、可泛化至多种 3D 表示形式的高质量前馈凸分解模型。

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas Sharp2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

CogBlender 是一个旨在弥合文本到图像生成中语义内容与认知属性（如情绪效价、唤醒度、支配性及图像记忆性）之间鸿沟的框架，它通过建立认知空间与语义流形之间的映射，利用认知锚点重构流匹配过程中的速度场，从而实现了对生成图像认知特性的连续、多维且精细的干预。

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

本文提出了名为 MDTrack 的新型多模态目标跟踪框架，通过为不同模态分配专用专家实现模态感知融合，并利用解耦的状态空间模型与交叉注意力机制进行独立且协同的时序传播，从而在五个基准测试中取得了最先进的性能。

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

本文提出了 ToolRosetta 框架，通过自动将开源代码库转换为可执行的 MCP 工具并集成安全检测，使大语言模型代理能够自主规划并调用现有工具以高效完成复杂任务，从而显著降低了代码复用与部署的人力成本。

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui2026-03-11💻 cs