PRBench: End-to-end Paper Reproduction in Physics Research
本文介绍了 PRBench,这是一个由北京大学物理系专家构建的包含 30 个真实物理研究复现任务的基准,旨在评估大语言模型智能体在无需人工干预的情况下从理解论文到生成可验证结果的端到端科研能力,测试结果显示当前最强智能体仅得 34 分且无法成功完成任何完整复现任务,揭示了其在公式实现、调试及数据准确性方面的显著局限性。
542 篇论文
肝-拉丁美洲(Hep-Lat)领域聚焦于拉丁美洲高能物理研究的独特视角,这里汇聚了来自该地区科学家对宇宙基本粒子和相互作用的前沿探索。这些研究不仅填补了全球物理图谱的空白,也展现了多元文化背景下的科学创新活力。
Gist.Science 持续追踪 arXiv 平台上所有属于此分类的最新预印本。我们不仅提供详尽的技术解读,更将复杂的物理推导转化为通俗易懂的通俗语言摘要,让每一位读者都能轻松跨越专业门槛,洞察研究核心。
以下是该领域最新的论文列表,欢迎查阅。
本文介绍了 PRBench,这是一个由北京大学物理系专家构建的包含 30 个真实物理研究复现任务的基准,旨在评估大语言模型智能体在无需人工干预的情况下从理解论文到生成可验证结果的端到端科研能力,测试结果显示当前最强智能体仅得 34 分且无法成功完成任何完整复现任务,揭示了其在公式实现、调试及数据准确性方面的显著局限性。
该论文基于组分夸克模型和分子图像,系统计算了开重味与分子型五夸克八重态的磁矩,揭示了不同轻双夸克构型导致的磁矩显著差异及重味夸克味对称性破缺效应,为未来实验鉴别此类粒子的内部结构提供了关键电磁基准。
本文利用 RBC/UKQCD 合作组在 2+1 味规范系综上生成的格点数据,展示了在窄宽度近似下提取描述 衰变的四个形状因子的分析步骤。
该研究利用梯度流和微扰论匹配技术,在六组 RBC/UKQCD 2+1 味格点上首次完成了对描述重介子寿命比的四夸克算符袋参数的完整误差预算计算,并给出了\overline{\text{MS}}}方案下的精确数值结果。
该研究利用梯度流结合短流时间展开(GF+SFTX)方法,基于 RBC/UKQCD 格点数据精确计算了物理夸克质量下重介子混合与寿命相关的四夸克算符矩阵元及袋参数,并将其微扰匹配至方案,从而验证了该方法在处理幂次发散混合问题上的可靠性与高精度。
本文综述了近年来格点量子色动力学在强子结构计算方面的重大进展,特别是针对π介子、K介子和核子的电荷、形状因子及各类分布函数的计算结果,并阐述了这些理论成果如何为电子 - 离子对撞机(EIC)的科学议程提供关键支撑。
本文概述了世界体积混合蒙特卡洛(WV-HMC)方法的核心思想,并将其扩展至群流形,从而为将其应用于格点规范理论以解决数值符号问题提供了严谨框架。
该论文通过利用手征格点离散化和扭曲体积约化技术,在大 (高达 841)极限下将非微扰狄拉克谱数值计算结果与手征随机矩阵理论预测进行对比,从而提取了大 手征凝聚并验证了手征对称性破缺的普适性特征。
该论文利用梯度流、扭曲边界条件及边界条件并行退火算法,在 SU() 杨 - 米尔斯理论(及大极限)中成功设定了标度,实现了以往遍历算法无法达到的精细格距(约 0.025 fm)下的精确测量,并有效抑制了拓扑冻结与有限体积效应。
该论文利用对称性保持的矢量 - 矢量接触相互作用,计算了介子中 和 价夸克的四种横动量依赖部分子分布函数,并深入探讨了涌现强子质量、希格斯玻色子耦合、规范链接模型对正定性约束的影响以及非对角项对演化核效应的具体作用。