cs 篇论文 | Gist.Science

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation guided Structured Pruning

本文利用 w2v-BERT 2.0 预训练模型结合 MFA 结构、Layer Adapter 及 LoRA 微调技术，在说话人验证任务中取得了 0.12% 的极低等错误率，并通过知识蒸馏引导的结构剪枝将模型体积压缩 80% 的同时仅造成 0.04% 的性能损失。

Ze Li, Ming Cheng, Ming Li2026-03-10💻 cs

PAD-TRO: Projection-Augmented Diffusion for Direct Trajectory Optimization

本文提出了一种名为 PAD-TRO 的新型基于模型的扩散轨迹优化方法，通过直接在反向扩散过程中引入无梯度投影机制来生成状态序列，从而有效解决了非线性动态约束难题，并在四旋翼避障导航任务中实现了零动态可行性误差和约 4 倍于现有最先进基线的成功率。

Jushan Chen, Santiago Paternain2026-03-10💻 cs

Membership Inference Attacks on Tokenizers of Large Language Models

本文首次揭示了大型语言模型分词器作为成员推断攻击新向口的严重隐私风险，通过提出五种攻击方法验证了其脆弱性，并设计了相应的自适应防御机制。

Meng Tong, Yuntao Du, Kejiang Chen, Weiming Zhang, Ninghui Li2026-03-10💻 cs

Vision-Guided Targeted Grasping and Vibration for Robotic Pollination in Controlled Environments

本文提出并验证了一种面向受控环境的机器人授粉框架，该框架通过融合 3D 植物重建、基于物理模型的振动参数优化以及视觉引导的软体机械手抓取技术，实现了高效且无损的精准授粉。

Jaehwan Jeong, Tuan-Anh Vu, Radha Lahoti, Jiawen Wang, Vivek Alumootil, Sangpil Kim, M. Khalid Jawed2026-03-10💻 cs

Differentiable Variable Fonts

该论文提出了“可微变体字体”框架，通过将变体字体规范转化为紧凑的数学公式，实现了从字体参数到矢量图形及栅格图像的可微映射，从而利用梯度优化技术自动解决字形编辑、重叠处理、物理动画及字体设计优化等任务，显著降低了专业排版设计的门槛。

Kinjal Parikh, Danny M. Kaufman, David I. W. Levin, Alec Jacobson2026-03-10💻 cs

EB-MBD: Emerging-Barrier Model-Based Diffusion for Safe Trajectory Optimization in Highly Constrained Environments

本文提出了一种名为 EB-MBD 的新方法，通过引入受内点法启发的渐进式障碍函数来约束基于模型的扩散算法，从而在避免昂贵投影操作的同时，有效解决了高约束环境下因采样效率低导致的性能崩溃问题，显著提升了轨迹优化的质量与效率。

Raghav Mishra, Ian R. Manchester2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

本文提出了 AR-Drag，这是首个结合强化学习与轨迹奖励机制的自回归视频扩散模型，能够在仅 13 亿参数的情况下实现低延迟、高保真且运动控制精准的实时图像到视频生成。

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

CDE: Concept-Driven Exploration for Reinforcement Learning

本文提出了概念驱动探索（CDE）方法，利用预训练视觉语言模型生成文本任务描述对应的对象级视觉概念，并通过辅助重建目标将其转化为内在奖励，从而在视觉强化学习中实现高效且抗噪的针对性探索，并在真实世界机械臂操作中取得了 80% 的成功率。

Le Mao, Andrew H. Liu, Renos Zabounidis, Yanan Niu, Zachary Kingston, Joseph Campbell2026-03-10💻 cs

Deliberative Dynamics and Value Alignment in LLM Debates

该研究通过在多轮辩论中让不同大语言模型对日常道德困境进行集体归责，揭示了同步与轮询两种交互协议下模型在观点修正率、价值取向（如自主性与共情）及从众行为上的显著差异，表明多智能体系统的交互结构会深刻影响其道德推理与价值对齐表现。

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

该论文提出了一种名为“功能头识别与类别条件重缩放”的免训练插件，通过自适应调整感知与推理导向注意力头在各层间的贡献，有效缓解了多模态大推理模型中因功能分配失衡导致的幻觉问题，在几乎不增加计算成本的情况下显著提升了模型的推理一致性与视觉忠实度。

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

本文提出了一种偏好条件多目标强化学习框架，通过平衡指令跟踪与外力顺应性，使单一人形机器人策略能够根据用户指定的偏好在导航精度与交互柔顺性之间灵活切换，并在仿真与真实硬件实验中验证了其稳定性与部署可行性。

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao2026-03-10💻 cs

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

本文提出了 DropVLA，一种针对视觉 - 语言 - 动作（VLA）模型的动作级后门攻击方法，该方法仅需极少量数据投毒即可在保持正常任务性能的同时，通过视觉触发器精准操控机器人执行特定的安全关键动作，并已在物理机器人上验证了其有效性。

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

该论文提出了一种结合学习到的世界模型与基于采样的模型预测控制（MPC）的框架，利用离线演示数据在潜在空间预测未来状态，并通过学习到的代理价值函数解决稀疏奖励问题，从而在物理人形机器人上实现了仅凭本体感知和第一人称深度图像即可完成的鲁棒、实时接触规划。

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Protege Effect for Behaviour Change: Does Teaching Digital Stress Solutions to Others Reduce One's Own?

该研究通过对比四种干预组别发现，尽管“护徒效应”理论认为向他人教授数字压力管理知识可能促进自身行为改变，但实际实验结果并未显示各组在降低数字压力方面存在显著差异，表明将认知投入转化为实际行为改变面临巨大挑战。

Sameha Alshakhsi, Ala Yankouskaya, Dena Al-Thani, Raian Ali2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

本文通过 PRISMA-ScR 指南对 2018 至 2025 年间基于无监督深度生成模型的神经影像异常检测研究进行了系统范围综述，总结了其在缺乏标注数据场景下的潜力，并指出了方法异质性、外部验证不足及数据集敏感性等关键挑战与未来发展方向。

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

A Robust Placeability Metric for Model-Free Unified Pick-and-Place Reasoning

本文提出了一种基于原始点云几何的鲁棒概率式可放置性度量方法，通过联合评估物体稳定性、抓取可行性和空间余量，实现了无需物体先验模型即可从部分观测中直接生成稳定且无碰撞的抓取 - 放置策略。

Benno Wingender, Nils Dengler, Rohit Menon, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

本文针对细粒度多模态持续学习中存在的模态纠缠问题，提出了持续音视频分割新任务，并设计了基于碰撞的多模态回放框架（CMR），通过多模态样本选择策略和基于碰撞的样本回放机制，有效缓解了多模态语义漂移与共现混淆挑战，显著提升了持续学习性能。

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

本文针对多模态大语言模型（MLLMs）在文本 - 视觉场景下的安全漏洞，提出了名为 PolyJailbreak 的新型黑盒越狱框架，该框架利用“多模态安全不对称”现象，通过原子策略原语库和强化学习多智能体优化，在无需访问模型内部参数的情况下实现了对 GPT-4o 等主流模型的高效攻击，显著超越了现有最先进方法。

Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Guangquan Xu, Shouling Ji2026-03-10💻 cs

HumanHalo - Safe and Efficient 3D Navigation Among Humans via Minimally Conservative MPC

本文提出了名为 HumanMPC 的模型预测控制框架，通过结合数据驱动的人体运动预测与一种仅约束初始控制输入的新型可达性安全公式，实现了微飞行器在复杂三维人类环境中既安全又高效的导航。

Simon Schaefer, Helen Oleynikova, Sandra Hirche, Stefan Leutenegger2026-03-10💻 cs

Khelte Khelte Shikhi: A Proposed HCI Framework for Gamified Interactive Learning with Minecraft in Bangladeshi Education Systems

本文针对孟加拉国教育资源匮乏的现状，提出了一套结合《我的世界》教育版的分层人机交互框架，通过离线模式、本地网络及云端部署等适配方案，在低配硬件与不稳定基础设施下实现本土化、可访问的互动游戏学习。

Mohd Ruhul Ameen, Akif Islam, Momen Khandokar Ope2026-03-10💻 cs