How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions
该研究评估了四种主流大语言模型在 2015 至 2025 年 AP 物理自由响应题上的表现,发现尽管它们在结构化代数解题方面得分较高,但在空间推理、图表解读及概念整合等任务上仍存在显著局限和系统性错误。
14 篇论文
该研究评估了四种主流大语言模型在 2015 至 2025 年 AP 物理自由响应题上的表现,发现尽管它们在结构化代数解题方面得分较高,但在空间推理、图表解读及概念整合等任务上仍存在显著局限和系统性错误。
本文研究了半无限方势阱中的束缚态问题,通过图形法确定能级并给出定态数量规则,纠正了教科书解法中的简化错误,提出了更精确的近似方法,并构造了一类精确解及其归一化本征函数与粒子在势阱内的概率。
本文提出了一种名为“对与方”的新元素周期表排布方式,该方案利用原子能级轨道数均为完全平方数的特性,使周期表呈现出比现有版本更规整且直观的结构。
该研究通过准实验设计对比了在一所普通高中为期 19 周的力学课程中使用移动设备作为实验工具(MDET)与传统教学的效果,结果表明虽然 MDET 未显著优于传统教学,但两者均带来了显著的学习增益,且 MDET 未引发分心或认知过载等负面影响,证明了其作为有效教学整合选项的潜力。
本文介绍了加拿大首次全国性的物理学界公平、多样性和包容性调查“加拿大物理统计”,揭示了该领域在种族、性别和残疾等方面存在的严重代表性不足问题,并强调了通过及时干预来保留未来多元化物理学家群体的紧迫性。
该研究通过访谈与主题分析发现,生成式人工智能显著影响物理计算建模的规划、实现与调试等环节,其生产性使用依赖于学生将其限制在局部步骤并严格核查,而过度依赖则会导致错误假设与基础技能缺失,因此教学上需引导学生制定计划、掌握工具并重视低利害评估。
本文介绍了一种名为“共同学习”的低成本、可复制的轮流分享模式,旨在通过明确规则与引导技巧,帮助物理系人员在安全的环境中就历史、文化及公平议题进行结构化反思与倾听。
该论文介绍了一种基于交互式量子电路模拟器的在线课程,旨在通过即时反馈和自动评估任务降低学习门槛,使不同背景的学生无需量子物理基础即可掌握量子计算。
该研究分析了加拿大科学出版(CSP)旗下 24 种期刊在 2010 至 2021 年间发表的 6.7 万余篇文章,发现女性作者占比不足三分之一且多处于非领导性署名位置,表明性别差异主要源于科研 workforce 的结构性失衡而非出版偏见,因此呼吁采取双重措施以消除系统性障碍并改革出版实践。
本研究利用计算扎根理论方法,通过分析大学现代物理课程中 AI 聊天机器人产生的海量对话数据,成功识别了学生在相对论动量和量子能级等关键概念上的常见误解及提问模式,从而验证了该技术在规模化挖掘学生推理特征并指导自适应教育工具开发方面的潜力。
本文介绍了"Stan",这是一个基于本地部署的开源大语言模型(如 Llama 3.1 和 Whisper)构建的热力学课程辅助系统,它通过检索增强生成技术同时为学生提供基于教材索引的精准问答,并为教师生成包含教学总结、学生困惑点及教学案例的结构化分析,从而在保障数据隐私和成本可控的前提下,全面支持教与学。
本文介绍了一款基于网页的智能手机加速度计应用,该应用通过实时将设备坐标系数据转换为全局坐标系数据来补偿旋转影响,并配合数据处理工具,有效支持了本科力学实验中对运动轨迹的精确重建及学生对运动学概念的理解。
该研究基于 Web of Science 核心库对 2021 至 2025 年人工智能在物理教育领域的应用进行了文献计量分析,揭示了该领域正从机器学习辅助分析向生成式 AI 教学等方向爆发式增长,并提出了构建自适应学习生态及培养 AI 伦理等未来发展方向。
本文报告了基于 Gemini 3.1 Pro Preview 构建的智能体在 2025 年国际物理奥林匹克竞赛理论部分五次测试中均获得满分,但同时也指出由于模型发布时间晚于竞赛,存在数据污染的可能性。