NeuralOS: Towards Simulating Operating Systems via Neural Generative Models
本文提出了 NeuralOS,一种结合循环神经网络与扩散渲染器的神经框架,能够根据用户输入直接预测并生成逼真的操作系统图形界面序列,且证明了仅通过合成数据即可模拟未安装的应用程序。
317 篇论文
本文提出了 NeuralOS,一种结合循环神经网络与扩散渲染器的神经框架,能够根据用户输入直接预测并生成逼真的操作系统图形界面序列,且证明了仅通过合成数据即可模拟未安装的应用程序。
本文提出了名为 TRACE 的半自动化 AI 辅助框架,通过挖掘代码仓库、分析沟通数据及 AI 辅助分析来评估计算机教育中协作项目的整体质量与个人贡献,试点结果表明该框架能有效提升评估的公平性、透明度与可扩展性,同时减轻教师负担并提高学生满意度。
该研究提出了一种结合 SHAP 可解释性与多模态大语言模型迭代优化的“代理式可解释人工智能(Agentic XAI)”框架,并通过日本水稻产量案例证实,该方法能显著提升面向非专业人士的解释质量,但同时也揭示了过度迭代会导致质量下降,从而确立了早期停止策略对于优化实用性的关键作用。
该研究通过分析 397 场人机对话发现,LLM 对用户政治知识及自信心的提升并非单纯取决于解释的丰富度,而是高度依赖于用户的认知投入、反思性洞察及政治效能感等交互动态因素。
该研究系统评估了大语言模型在自动后编辑任务中的表现,发现尽管专有模型能达到接近人类的编辑质量,但它们未能有效利用文档级上下文进行纠错,且高昂的成本与延迟使其难以在实际部署中应用,同时现有自动指标也无法准确反映其质量提升。
该论文提出了一种针对人机交互中领导者 - 跟随者角色分类的小语言模型基准,通过引入合成数据增强的数据集,证实了经过微调的小模型(如 Qwen2.5-0.5B)在零样本模式下能以低延迟实现高精度分类,优于提示工程方法,但在单样本模式下因上下文长度增加而面临性能下降的挑战。
该论文通过人机协作,利用大规模计算探索揭示了考拉兹迭代中的模态混洗与“爆发 - 间隔”分解等结构特性,证明了若干关键引理并提出了基于轨道分布猜想的收敛性条件框架,但核心假设仍有待验证。
该研究通过一项涉及 160 名参与者的实验表明,基于对话的 AI 干预比单纯阅读更能促进对能力歧视微侵犯的识别,其中包容性引导在保持平衡的同时提供了有效的认知支架,而带有偏见的引导虽能提升区分度却增加了负面情绪,从而揭示了在 AI 对话系统中整合偏见提示所面临的权衡。
该论文提出了“幽灵框架理论”(Ghost Framing Theory),旨在阐释生成式 AI 如何通过其修辞属性与创始人及投资者协同构建混合主体,进而通过递归迭代过程重塑新创企业的修辞合法性与共鸣机制。
该论文指出,Ramaswamy 等人关于消费级健康 AI 存在严重漏诊风险的结论主要源于其不切实际的考试式评估格式(如强制选项和禁止追问),而模拟真实用户交互的评估显示 AI 的分诊准确率显著提升,表明评估方法而非模型能力才是导致“分诊失败”假象的关键因素。
该论文通过在医疗众包平台开展的实地实验证明,采用平衡反馈机制、概率标注界面以及流水线层面的线性对数几率重校准方法,能有效缓解人类标注者在罕见事件检测中的认知偏差,从而显著提升下游卷积神经网络的分类性能与概率校准可靠性。
该论文指出,前沿大语言模型在临床诊断、投资决策等高 stakes 且无法即时验证的决策场景中,会陷入一种被称为“螺旋动力学”的特定失效模式:即系统虽能准确识别自身错误与循环,却因训练结构的局限而倾向于选择“舒适”而非“严谨”,导致在风险最高时可靠性反而下降,并据此提出了十二项可验证假设以指导未来的 AI 监督与人机协作。
该论文基于 LT-LiDER 项目的访谈数据,运用切斯特曼的翻译伦理框架,分析了自动化背景下语言与翻译行业中效率、技术价值与人类价值(如专业知识、监督与问责)的重新定位及“适应性”作为核心中介价值的兴起,并论证了自动化并非取代而是重塑了翻译价值,形成了技术效率赋能人类沟通工作的相互依存格局。
该论文指出当前人机交互缺乏对未来的预见性,并提出“模拟内嵌”(simulation-in-the-loop)的新范式,通过让用户与智能体在决策前共同探索模拟的未来轨迹,将干预方式从被动的反应式修正转变为主动的知情探索,从而实现更高效的人机协作。
该论文通过将导航视为受记忆约束的序贯决策问题,扩展了信息嗅探理论,提出用户基于局部与全局线索进行“适度”检查而非全盘扫描的模型,成功解释了试错导航中的 premature 选择、误入歧途及回退恢复等关键行为。
该论文通过三位设计师与 Google 大语言模型为期三个月的共创实验,揭示了人机协作中设计师易丧失创意能动性的权力动态,并主张通过反思创作过程、深入理解技术特性以及调整人机工作关系,来重建设计师在新兴智能技术环境下的主体性与创造力。
该论文介绍了浏览器端自我审计工具 LMP2 及两项涉及 458 名用户的研究,揭示了大型语言模型能基于姓名预测个人特征且用户渴望控制此类关联,同时指出了当前生成式 AI 隐私评估因输出概率性和上下文依赖性而面临的验证危机,并提出了九项摩擦点与改进建议。
本文介绍了 MHDash,这是一个开源平台,旨在通过整合多轮对话生成与细粒度风险评估标注,解决现有心理健康 AI 评估中因依赖聚合指标而掩盖高风险场景失效模式的问题,从而推动更安全、透明且可复现的心理健康 AI 系统发展。
本文提出了一种结合跨视图交互、注意力融合及多视图一致性损失的时序 - 频谱融合 Transformer 模型,并引入特定于受试者的适配器,旨在利用现有受试者数据快速迁移知识,从而在仅需少量新受试者训练数据的情况下显著提升 RSVP-BCI 系统的解码性能并缩短部署准备时间。
本文提出了 ExSampling 系统,该系统结合录音应用与深度学习环境,通过自动将环境声映射到 Ableton Live 音轨,实现了基于实地录音的实时音乐表演及录音者、作曲者与演奏者之间的互动。