AI Misuse in Education Is a Measurement Problem: Toward a Learning Visibility Framework
该论文主张将教育中的 AI 滥用问题从“检测难题”重新定义为“测量难题”,并提出以“学习可见性框架”为核心,通过明确 AI 使用规范、将学习过程视为评估证据以及建立透明的活动轨迹,在保障伦理与信任的前提下实现 AI 与教育的良性融合。
144 篇论文
该论文主张将教育中的 AI 滥用问题从“检测难题”重新定义为“测量难题”,并提出以“学习可见性框架”为核心,通过明确 AI 使用规范、将学习过程视为评估证据以及建立透明的活动轨迹,在保障伦理与信任的前提下实现 AI 与教育的良性融合。
该研究通过在 GitHub 上进行的两项现场实验发现,人为操纵开源软件的社会证明指标(如点赞数和下载量)并不能显著影响开发者的下载行为或项目活跃度,表明此类指标难以被恶意利用来诱导软件选择。
该论文提出了一种基于 AI 的模块化框架,通过结合语义与语法特征对 SQL 指标定义进行静态风险评分,从而在无需访问敏感患者数据的情况下,实现对医疗聚合指标隐私泄露风险的预先检测与可解释性治理。
该研究通过结构化扰动评估了大语言模型在 EPSRC 资助提案评审中的能力,发现分章节分析架构在检测率和评分可靠性上表现最佳,但现有模型仍存在高变异性且更倾向于合规性检查而非整体评估,因此目前仅适合作为辅助评审工具。
该论文提出了一种名为“判别风险”的新公平性度量方法,通过扰动受保护属性同时涵盖个体与群体公平性,并建立了基于边界的理论保证,进而设计了集成剪枝算法以在提升分类准确性的同时有效改善模型公平性。
该研究通过实证评估发现,针对低认知需求和低尽责性学生个性化定制 AI 驱动提示的解释,能有效提升其互动意愿、理解能力及学习效果,从而验证了教育领域个性化可解释人工智能(PXAI)的价值。
该研究基于在印度卡纳塔克邦政府学校开展的大规模混合方法研究,评估了"Shiksha Copilot"这一人机协作工具在低资源、多语言环境中如何帮助教师减轻行政负担、缩短备课时间并推动活动式教学,同时也揭示了师资短缺等系统性挑战对深层教学变革的限制。
该研究通过对意大利音乐听众的访谈与情感文本分析,揭示了听众虽习惯使用推荐系统却缺乏对其运作机制的批判性理解,且对性别代表性问题认知有限,从而强调了在音乐推荐系统设计中融合心理社会视角的重要性。
本文以 R v F (2025) 案为例,首次通过实证研究展示了数字取证调查人员如何有效应对“黑客辩护”(即“他人所为”辩护),为司法系统区分无辜者与罪犯提供了实用的调查技术与经验教训。
该研究通过实验与大数据分析发现,评价顺序(先评分后写评 vs. 先写评后评分)会通过情感启发式与认知努力的双重中介机制显著影响消费者评分,导致高服务质量情境下评分更高、低服务质量情境下评分更低,且该效应在享乐型产品中更为强烈,从而揭示了界面设计对在线评分真实性与分布形态的关键影响。
该研究通过临床评估发现,OpenAI 不同代际模型(GPT-4o 至 GPT-5-mini)在共情能力上并无统计学差异,用户感知的“共情丧失”实为模型危机检测能力增强与过度干预建议之间的安全策略转变,这种在对话中途危机时刻发生的显著变化揭示了当前评估体系难以捕捉的潜在风险。
该研究提出了一种名为 TOBA-LM 的 12 亿参数三语语言模型,通过结合 GPT-2 架构与自适应印迹记忆(Engram Memory)机制,利用音节黏着分词技术高效训练印尼语、巴塔克语和米南加保语,显著提升了训练效率并降低了计算资源需求。
该研究通过文献综述与专家访谈,系统识别并评估了阻碍开放教育资源(OER)创建、使用和维护的26项社会、经济及技术障碍,并构建了概念模型以提出减轻这些障碍的策略,从而推动教育资源的普惠获取与包容性生态建设。
该论文提出了一种名为Ed 的标准化、平台无关的教育微服务 API 规范,旨在通过整合多机构现有系统功能(如反馈、评估和教育聊天机器人),构建一个互操作的微服务生态系统,从而解决大型学习平台因缺乏专业自动化而受限的问题,并提升跨学科的学习体验。
该论文指出当前前沿 AI 安全政策过度侧重预防而忽视了预防失效后的协调机制,导致系统性投资不足,并借鉴核安全与流行病防控等领域的经验,提出应建立预先承诺、共享协议及常设协调平台等制度架构以填补这一结构性缺口。
该研究通过对比五种大语言模型在司法量刑场景下的表现,发现模型虽表现出类似人类的“美德受害者”偏见且对“相邻同意”缺乏显著惩罚,但在职业、公司及学历光环效应上比人类偏见更弱(其中学历光环效应减弱尤为明显),表明尽管当前模型尚不足以直接用于司法决策,但其在减少部分偏见方面已展现出优于人类的潜力。
本文探讨了如何在欧盟《人工智能法案》框架下,运用比例原则科学地校准通用人工智能模型的风险评估实践,以在有效管理系统性风险与避免给提供者施加过度负担之间取得平衡。
该论文提出了名为 DeliberationBench 的基准,通过对比大规模随机实验中用户与前沿大语言模型讨论政策后的观点变化与审议式民意调查的标准,验证了这些模型在促进符合民主合法性且尊重用户自主性的观点转变方面具有显著的积极影响。
本文通过引入"GPTheology"(大语言模型神学)这一概念,结合网络社区叙事与全球 AI 宗教实践案例,探讨了人工智能如何被赋予神性并演变为一种融合传统宗教结构的新型技术宗教,进而分析了其带来的哲学、社会及伦理挑战。
本文探讨了应用开发中可能有意或无意产生的暗黑模式对消费者自主权的损害,并提出了通过优化选择架构和透明设计原则来规避法律风险、建立用户信任的策略。