cs 篇论文 | Gist.Science

Making AI Evaluation Deployment Relevant Through Context Specification

该论文针对当前 AI 评估方法难以反映实际运营现状的问题，提出了“情境规范”（context specification）这一流程，旨在将模糊的利益相关者视角转化为明确的可测量构念，从而为组织在真实部署环境中制定明智的 AI 决策和评估提供基础路线图。

Matthew Holmes, Thiago Lacerda, Reva Schwartz2026-03-10💻 cs

Reinforcing the World's Edge: A Continual Learning Problem in the Multi-Agent-World Boundary

该论文指出，在去中心化多智能体强化学习中，由于将同伴策略纳入世界边界会引发非平稳性，导致跨回合的不变决策核心（Invariant Core）可能收缩或消失，从而将此类问题重新定义为一种源于“智能体 - 世界”边界漂移的持续学习挑战。

Dane Malenfant2026-03-10💻 cs

AI-Assisted Curation of Conference Scholarship: Compiling, Structuring, and Analyzing Two Decades of Presentations at the Society for Social Work and Research

本研究利用人工智能辅助技术，构建了涵盖 2005 至 2026 年社会社会工作与研究学会（SSWR）会议近 2.4 万篇摘要的数据库，揭示了该领域在作者协作、国际参与度及研究方法（以定量为主）等方面的显著演变趋势。

Brian Perron, Bryan Victor, Zia Qi2026-03-10💻 cs

A Comprehensive Analysis of the Effects of Network Quality of Service on Robotic Telesurgery

该论文通过引入新型网络故障注入工具 NetFI 并结合包含 15 名受试者的用户研究，系统分析了丢包、延迟和通信中断等网络服务质量因素对不同熟练度外科医生执行远程手术任务性能、运动原语及主观工作负荷的具体影响，从而为确定远程手术的操作边界及开发鲁棒控制策略提供了量化依据。

Zhaomeng Zhang, Seyed Hamid Reza Roodabeh, Homa Alemzadeh2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

该论文揭示了一种长程视觉语言模型的行为规律，即模型在推理过程中保持与视觉状态一致的时间锚定能力（通过步级接地率 SGR 衡量），是预测其分布外泛化性能的关键指标，且该能力独立于模型规模和最终答案准确率。

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

Receding-Horizon Nullspace Optimization for Actuation-Aware Control Allocation in Omnidirectional UAVs

该论文提出了一种面向全向飞行器的基于模型预测的零空间优化控制分配策略，通过在线求解约束迭代 LQR 问题并显式考虑执行器非对称动力学，有效抑制了电机指令振荡并提升了轨迹跟踪性能。

Riccardo Pretto, Mahmoud Hamandi, Abdullah Mohamed Ali, Gokhan Alcan, Anthony Tzes, Fares Abu-Dakka2026-03-10💻 cs

From Job Postings to Curriculum Decisions: Using AI to Generate Workforce Intelligence for MSW Program Planning

该论文通过案例研究展示了如何利用本地部署的 AI 模型分析四万余份招聘数据，从而为社会工作硕士（MSW）项目提供基于劳动力市场需求的课程规划情报，并强调了将数据洞察与利益相关者的情境知识相结合的重要性。

Barbara S. Hiltz, Bryan G. Victor, Brian E. Perron2026-03-10💻 cs

RoboCritics: Enabling Reliable End-to-End LLM Robot Programming through Expert-Informed Critics

本文提出了 RoboCritics 方法，通过引入编码机器人专家知识的运动级评估器，为基于大语言模型的机器人编程提供透明反馈与自动修复机制，从而显著提升了端到端编程的安全性、执行质量及用户可控性。

Callie Y. Kim, Nathan Thomas White, Evan He, Frederic Sala, Bilge Mutlu2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

该论文提出了基于运动学空间旋量等价性定义的“运动比特”（MotionBit）概念，构建了名为 MoRiBo 的手动标注基准，并开发了一种无需学习的图分割方法，在移动刚体分割任务中显著优于现有方法，为具身推理与机器人操作提供了关键的物理交互理解基础。

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

该研究通过对 40 个开源智能体 AI 仓库的大规模实证分析，构建并验证了一套包含 37 种故障类型、13 类症状及 12 类根本原因的分类体系，揭示了概率生成与确定性约束不匹配等核心问题及其在系统中的传播模式。

Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse Khomh2026-03-10💻 cs

Twitch: Learning Abstractions for Equational Theorem Proving

本文介绍了名为 Twitch 的工具，该工具利用 Stitch 自动从部分失败证明或相关定理的成功证明中发现等式定理证明中有用的抽象模式，并通过扩展 Twee 求解器，在 TPTP 单位等式问题上实现了 12 个难度为 1 的问题证明及显著的速度提升。

Guy Axelrod, Moa Johansson, Nicholas Smallbone2026-03-10💻 cs

Nonlinear Performance Degradation of Vision-Based Teleoperation under Network Latency

该论文利用新开发的 LAVT 测试床，通过 180 次仿真实验揭示了基于视觉的遥操作系统在 150 至 225 毫秒单程感知延迟区间内会出现稳定性急剧崩溃的非线性退化现象，并量化了控制通道延迟对系统失效的加速作用。

Aws Khalil, Jaerock Kwon2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

本文提出了一种名为“扰动高斯集合”的主动视图选择框架，通过结合不确定性建模与序贯决策，利用随机密度缩放构建高斯密度场集合并选取预测方差最大的视角，从而在稀疏视图 CT 重建中有效消除几何伪影并提升重建质量。

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

该论文利用机械可解释性识别出大型音频语言模型中的“听觉”注意力头，并通过在推理阶段对最终表示进行激活干预（音频 - 静音导向），在不更新参数的情况下将模型在 MMAU 基准上的准确率提升了高达 8.0 个百分点，有效解决了模型过度依赖文本先验而忽视音频证据的问题。

Neta Glazer, Lenny Aharon, Ethan Fetaya2026-03-10💻 cs

What Does AI Do for Cultural Interpretation? A Randomized Experiment on Close Reading Poems with Exposure to AI Interpretation

该研究通过一项针对 400 名参与者的随机实验发现，在诗歌细读中，单一 AI 解读能同时提升表现与愉悦感，而多重解读仅改善表现，且过度依赖 AI 虽能提高任务表现却会削弱阅读乐趣，从而表明在文化解读中"AI 辅助少即是多”。

Jiayin Zhi, Hoyt Long, Richard Jean So, Mina Lee2026-03-10💻 cs

cs