CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents

该论文通过大规模元评估研究了视觉语言模型作为自主计算机使用代理审计器的能力,发现尽管这些模型在准确率和置信度校准方面表现强劲,但在复杂或异构环境中仍存在性能下降及模型间判断不一致的问题,从而揭示了当前基于模型的审计方法在评估真实世界自主代理时的根本局限性。

Marta Sumyk, Oleksandr KosovanThu, 12 Ma🤖 cs.AI

A Platform-Agnostic Multimodal Digital Human Modelling Framework: Neurophysiological Sensing in Game-Based Interaction

本文提出了一种平台无关的多模态数字人体建模框架,通过集成 OpenBCI Galea 头显的多源生理传感数据与基于 SuperTux 的可复现游戏交互环境,将生理信号抽象为结构化可观测对象,从而支持在无需修改架构的情况下开展符合伦理规范的 AI 驱动数字人体与无障碍交互研究。

Daniel J. Buxton, Mufti Mahmud, Jordan J. Bird, Thomas Hughes-Roberts, David J. BrownThu, 12 Ma🤖 cs.AI

AI-Generated Rubric Interfaces: K-12 Teachers' Perceptions and Practices

该研究通过调查 25 名 K-12 教师在专业发展工作坊中使用 AI 生成评分量表的经历,发现尽管 AI 能有效提供结构清晰且详细的初稿,但教师仍强调需进行人工审核与修改以解决通用性、错位及定制化不足等问题,从而表明在确保教师控制权和工作流支持灵活定制的前提下,教师对采用此类 AI 工具持条件性接受态度。

Bahare Riahi, Sayali Patukale, Joy Niranjan, Yogya Koneru, Tiffany Barnes, Veronica CatetéThu, 12 Ma💻 cs

Pre/Absence: Prompting Cultural Awareness and Understanding for Lost Architectural Heritage in Virtual Reality

该论文以唐代大明宫含元殿为例,提出并验证了名为"Pre/Absence"的虚拟现实体验,通过“在场与缺席”的辩证叙事将实体与消逝的遗产交织,证明其相较于传统纸质媒介能更有效地提升用户文化意识、激发情感共鸣并促进对遗产社会政治意义的批判性反思。

Yaning Li, Ke Zhao, Shucheng Zheng, Xingyu Chen, Chenyi Chen, Wenxi Dai, Weile Jiang, Qi Dong, Yiqing Zhao, Meng Li, Lin-Ping YuanMon, 09 Ma💻 cs