cs 篇论文 | Gist.Science

Real-Time Motion-Controllable Autoregressive Video Diffusion

本文提出了 AR-Drag，这是首个结合强化学习与轨迹奖励机制的自回归视频扩散模型，能够在仅 13 亿参数的情况下实现低延迟、高保真且运动控制精准的实时图像到视频生成。

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

CDE: Concept-Driven Exploration for Reinforcement Learning

本文提出了概念驱动探索（CDE）方法，利用预训练视觉语言模型生成文本任务描述对应的对象级视觉概念，并通过辅助重建目标将其转化为内在奖励，从而在视觉强化学习中实现高效且抗噪的针对性探索，并在真实世界机械臂操作中取得了 80% 的成功率。

Le Mao, Andrew H. Liu, Renos Zabounidis, Yanan Niu, Zachary Kingston, Joseph Campbell2026-03-10💻 cs

Deliberative Dynamics and Value Alignment in LLM Debates

该研究通过在多轮辩论中让不同大语言模型对日常道德困境进行集体归责，揭示了同步与轮询两种交互协议下模型在观点修正率、价值取向（如自主性与共情）及从众行为上的显著差异，表明多智能体系统的交互结构会深刻影响其道德推理与价值对齐表现。

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

该论文提出了一种名为“功能头识别与类别条件重缩放”的免训练插件，通过自适应调整感知与推理导向注意力头在各层间的贡献，有效缓解了多模态大推理模型中因功能分配失衡导致的幻觉问题，在几乎不增加计算成本的情况下显著提升了模型的推理一致性与视觉忠实度。

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

本文提出了一种偏好条件多目标强化学习框架，通过平衡指令跟踪与外力顺应性，使单一人形机器人策略能够根据用户指定的偏好在导航精度与交互柔顺性之间灵活切换，并在仿真与真实硬件实验中验证了其稳定性与部署可行性。

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao2026-03-10💻 cs

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

本文提出了 DropVLA，一种针对视觉 - 语言 - 动作（VLA）模型的动作级后门攻击方法，该方法仅需极少量数据投毒即可在保持正常任务性能的同时，通过视觉触发器精准操控机器人执行特定的安全关键动作，并已在物理机器人上验证了其有效性。

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

该论文提出了一种结合学习到的世界模型与基于采样的模型预测控制（MPC）的框架，利用离线演示数据在潜在空间预测未来状态，并通过学习到的代理价值函数解决稀疏奖励问题，从而在物理人形机器人上实现了仅凭本体感知和第一人称深度图像即可完成的鲁棒、实时接触规划。

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Protege Effect for Behaviour Change: Does Teaching Digital Stress Solutions to Others Reduce One's Own?

该研究通过对比四种干预组别发现，尽管“护徒效应”理论认为向他人教授数字压力管理知识可能促进自身行为改变，但实际实验结果并未显示各组在降低数字压力方面存在显著差异，表明将认知投入转化为实际行为改变面临巨大挑战。

Sameha Alshakhsi, Ala Yankouskaya, Dena Al-Thani, Raian Ali2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

本文通过 PRISMA-ScR 指南对 2018 至 2025 年间基于无监督深度生成模型的神经影像异常检测研究进行了系统范围综述，总结了其在缺乏标注数据场景下的潜力，并指出了方法异质性、外部验证不足及数据集敏感性等关键挑战与未来发展方向。

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

A Robust Placeability Metric for Model-Free Unified Pick-and-Place Reasoning

本文提出了一种基于原始点云几何的鲁棒概率式可放置性度量方法，通过联合评估物体稳定性、抓取可行性和空间余量，实现了无需物体先验模型即可从部分观测中直接生成稳定且无碰撞的抓取 - 放置策略。

Benno Wingender, Nils Dengler, Rohit Menon, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

本文针对细粒度多模态持续学习中存在的模态纠缠问题，提出了持续音视频分割新任务，并设计了基于碰撞的多模态回放框架（CMR），通过多模态样本选择策略和基于碰撞的样本回放机制，有效缓解了多模态语义漂移与共现混淆挑战，显著提升了持续学习性能。

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

本文针对多模态大语言模型（MLLMs）在文本 - 视觉场景下的安全漏洞，提出了名为 PolyJailbreak 的新型黑盒越狱框架，该框架利用“多模态安全不对称”现象，通过原子策略原语库和强化学习多智能体优化，在无需访问模型内部参数的情况下实现了对 GPT-4o 等主流模型的高效攻击，显著超越了现有最先进方法。

Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Guangquan Xu, Shouling Ji2026-03-10💻 cs

HumanHalo - Safe and Efficient 3D Navigation Among Humans via Minimally Conservative MPC

本文提出了名为 HumanMPC 的模型预测控制框架，通过结合数据驱动的人体运动预测与一种仅约束初始控制输入的新型可达性安全公式，实现了微飞行器在复杂三维人类环境中既安全又高效的导航。

Simon Schaefer, Helen Oleynikova, Sandra Hirche, Stefan Leutenegger2026-03-10💻 cs

Khelte Khelte Shikhi: A Proposed HCI Framework for Gamified Interactive Learning with Minecraft in Bangladeshi Education Systems

本文针对孟加拉国教育资源匮乏的现状，提出了一套结合《我的世界》教育版的分层人机交互框架，通过离线模式、本地网络及云端部署等适配方案，在低配硬件与不稳定基础设施下实现本土化、可访问的互动游戏学习。

Mohd Ruhul Ameen, Akif Islam, Momen Khandokar Ope2026-03-10💻 cs

cs