Making AI Evaluation Deployment Relevant Through Context Specification
该论文针对当前 AI 评估方法难以反映实际运营现状的问题,提出了“情境规范”(context specification)这一流程,旨在将模糊的利益相关者视角转化为明确的可测量构念,从而为组织在真实部署环境中制定明智的 AI 决策和评估提供基础路线图。
3863 篇论文
该论文针对当前 AI 评估方法难以反映实际运营现状的问题,提出了“情境规范”(context specification)这一流程,旨在将模糊的利益相关者视角转化为明确的可测量构念,从而为组织在真实部署环境中制定明智的 AI 决策和评估提供基础路线图。
该论文指出,在去中心化多智能体强化学习中,由于将同伴策略纳入世界边界会引发非平稳性,导致跨回合的不变决策核心(Invariant Core)可能收缩或消失,从而将此类问题重新定义为一种源于“智能体 - 世界”边界漂移的持续学习挑战。
本研究利用人工智能辅助技术,构建了涵盖 2005 至 2026 年社会社会工作与研究学会(SSWR)会议近 2.4 万篇摘要的数据库,揭示了该领域在作者协作、国际参与度及研究方法(以定量为主)等方面的显著演变趋势。
该论文通过引入新型网络故障注入工具 NetFI 并结合包含 15 名受试者的用户研究,系统分析了丢包、延迟和通信中断等网络服务质量因素对不同熟练度外科医生执行远程手术任务性能、运动原语及主观工作负荷的具体影响,从而为确定远程手术的操作边界及开发鲁棒控制策略提供了量化依据。
该论文揭示了一种长程视觉语言模型的行为规律,即模型在推理过程中保持与视觉状态一致的时间锚定能力(通过步级接地率 SGR 衡量),是预测其分布外泛化性能的关键指标,且该能力独立于模型规模和最终答案准确率。
该论文提出了一种面向全向飞行器的基于模型预测的零空间优化控制分配策略,通过在线求解约束迭代 LQR 问题并显式考虑执行器非对称动力学,有效抑制了电机指令振荡并提升了轨迹跟踪性能。
该论文通过案例研究展示了如何利用本地部署的 AI 模型分析四万余份招聘数据,从而为社会工作硕士(MSW)项目提供基于劳动力市场需求的课程规划情报,并强调了将数据洞察与利益相关者的情境知识相结合的重要性。
本文提出了 RoboCritics 方法,通过引入编码机器人专家知识的运动级评估器,为基于大语言模型的机器人编程提供透明反馈与自动修复机制,从而显著提升了端到端编程的安全性、执行质量及用户可控性。
该论文提出了基于运动学空间旋量等价性定义的“运动比特”(MotionBit)概念,构建了名为 MoRiBo 的手动标注基准,并开发了一种无需学习的图分割方法,在移动刚体分割任务中显著优于现有方法,为具身推理与机器人操作提供了关键的物理交互理解基础。
该研究通过对 40 个开源智能体 AI 仓库的大规模实证分析,构建并验证了一套包含 37 种故障类型、13 类症状及 12 类根本原因的分类体系,揭示了概率生成与确定性约束不匹配等核心问题及其在系统中的传播模式。
本文介绍了名为 Twitch 的工具,该工具利用 Stitch 自动从部分失败证明或相关定理的成功证明中发现等式定理证明中有用的抽象模式,并通过扩展 Twee 求解器,在 TPTP 单位等式问题上实现了 12 个难度为 1 的问题证明及显著的速度提升。
该论文利用新开发的 LAVT 测试床,通过 180 次仿真实验揭示了基于视觉的遥操作系统在 150 至 225 毫秒单程感知延迟区间内会出现稳定性急剧崩溃的非线性退化现象,并量化了控制通道延迟对系统失效的加速作用。
本文提出了一种名为“扰动高斯集合”的主动视图选择框架,通过结合不确定性建模与序贯决策,利用随机密度缩放构建高斯密度场集合并选取预测方差最大的视角,从而在稀疏视图 CT 重建中有效消除几何伪影并提升重建质量。
该论文利用机械可解释性识别出大型音频语言模型中的“听觉”注意力头,并通过在推理阶段对最终表示进行激活干预(音频 - 静音导向),在不更新参数的情况下将模型在 MMAU 基准上的准确率提升了高达 8.0 个百分点,有效解决了模型过度依赖文本先验而忽视音频证据的问题。
该研究通过一项针对 400 名参与者的随机实验发现,在诗歌细读中,单一 AI 解读能同时提升表现与愉悦感,而多重解读仅改善表现,且过度依赖 AI 虽能提高任务表现却会削弱阅读乐趣,从而表明在文化解读中"AI 辅助少即是多”。
该研究通过评估四种多智能体拓扑结构在 302 个罕见病诊断案例中的表现,发现层级结构略优于其他配置,而对抗性结构因引入人为怀疑导致推理差距巨大且性能显著下降,表明增加系统复杂性并不必然提升推理能力,从而支持采用动态拓扑选择策略。
该论文指出当前自动漏洞修复系统因忽略包含开发者意图和根因信息的增强测试()而高估了补丁有效性,为此构建了基准并发现超 40% 的“正确”补丁在增强测试下失效,进而提出修复工具需在根因分析、规范遵循及意图捕捉三方面进行改进。
本文针对现有动态重建方法难以准确建模结肠镜下复杂蠕动运动的局限,提出了名为 ColonSplat 的动态高斯溅射框架,并构建了含真值点云的 DynamicColon 合成数据集,从而实现了在保持全局几何一致性的同时精确重建结肠蠕动运动。
本文提出了一种融合环境先验信息与双 Transformer 级联架构的新型硬件高效轨迹预测框架,通过结合工业相机采集的网球飞行数据与场地边界等先验知识,显著提升了复杂场景下飞行轨迹及落点的预测精度。
本文提出了 Robodimm 框架,该框架结合 Pinocchio 动力学与 Pink 逆运动学,利用 KKT 约束逆动力学方法,实现了针对可扩展模块化机器人(特别是含闭链结构)的自动化执行器选型与参数化缩放设计。