里程碑论文 | Gist.Science

ATLAS 实验团队利用 LHC 质子 - 质子对撞数据，在多个衰变道中观测到质量为 126.0 GeV 的新粒子，其统计显著性达到 5.9 个标准差，结果与标准模型希格斯玻色子的产生和衰变特性相符。

CMS 实验通过分析 LHC 上质子 - 质子对撞数据，在约 125 GeV 质量处观测到具有 5.0 倍标准差显著性的新玻色子信号，其性质与标准模型希格斯玻色子一致。

该论文报道了LIGO于2015年9月14日首次直接探测到来自双黑洞并合的引力波信号，证实了广义相对论的预测及双黑洞系统的存在。

事件视界望远镜通过全球甚长基线干涉测量技术，首次成功拍摄到 M87 星系中心超大质量黑洞的阴影图像，其观测结果与广义相对论预言高度一致，并证实了该黑洞的质量约为 65 亿倍太阳质量。

该论文提出了一种完全基于注意力机制、摒弃循环和卷积结构的新型网络架构 Transformer，其在机器翻译任务中不仅显著提升了翻译质量，还大幅降低了训练成本并实现了更高的并行化效率。

该论文提出了残差学习框架，通过显式地让网络层学习相对于输入的残差函数，成功解决了深层神经网络难以训练的问题，使得构建高达 152 层的网络成为可能，并在 ImageNet 和 COCO 等多项视觉识别任务中取得了冠军级的性能突破。

该论文提出了一种通过对抗过程同时训练生成模型和判别模型的新框架，利用极小极大博弈使生成模型无需马尔可夫链或近似推理网络即可有效捕捉数据分布。

本文介绍了一种名为 BERT 的新型语言表示模型，它通过在所有层中联合左右上下文对无标签文本进行预训练，仅需添加一个输出层即可微调出在多种自然语言处理任务上达到当时最先进水平的模型。

该论文提出了一种受非平衡热力学启发的去噪扩散概率模型，通过结合去噪得分匹配与朗之万动力学的加权变分界进行训练，在 CIFAR10 和 LSUN 数据集上实现了当时最先进的图像生成质量。

本文提出了一种名为 Adam 的随机优化算法，该方法基于低阶矩的自适应估计，具有实现简单、计算高效、内存需求低以及对非平稳目标和稀疏梯度鲁棒等优势，并在理论和实证上均表现出优越性能。

该论文提出了一种名为“批量归一化”（Batch Normalization）的方法，通过在每个训练小批量中对层输入进行归一化以解决内部协变量偏移问题，从而显著加速深度神经网络训练、允许使用更高学习率并减少初始化敏感性，最终在 ImageNet 分类任务上取得了超越人类水平的准确率。

该论文提出了一种随机变分推断与学习算法，通过重参数化技巧使变分下界估计器能够利用标准随机梯度法进行优化，从而在连续潜变量后验分布难以处理且数据规模巨大的情况下实现高效的推断与学习。

该论文通过实证研究揭示了语言模型性能与模型规模、数据集大小及计算量之间遵循幂律关系，并据此提出了在固定计算预算下，应优先训练超大模型并在收敛前停止以实现最优计算效率的策略。

该论文提出了一种名为“随机丢弃（dropout）”的方法，通过在训练过程中随机忽略一半的特征检测器来防止过拟合和复杂的共适应现象，从而显著提升了神经网络在语音和物体识别等基准任务上的性能。

该论文提出了两种用于从大规模语料库中高效计算连续词向量的新模型架构，在显著降低计算成本的同时，于词相似性任务中实现了优于以往神经网络的精度并达到了当时的最先进水平。