Key-Value Means
本文介绍了键值均值(KVM),这是一种新颖的块循环注意力机制,它通过支持高效且可分块并行训练、具备灵活的状态扩展能力以及次二次方预填充时间,同时仅采用标准运算和极少的额外参数,从而融合了 Transformer 与线性循环神经网络的各自优势。
原作者已查阅我们通俗解释的论文。
本页收录的每篇论文,都有至少一位原作者阅读并参与了我们的通俗解释——或是确认其准确无误,或是提出修正意见并由我们随后采纳。作者的确认并不等同于对每一句话的正式背书,但说明该解释已经过论文作者的审视。
607 篇论文已由作者审阅 · 351–360 / 607
本文介绍了键值均值(KVM),这是一种新颖的块循环注意力机制,它通过支持高效且可分块并行训练、具备灵活的状态扩展能力以及次二次方预填充时间,同时仅采用标准运算和极少的额外参数,从而融合了 Transformer 与线性循环神经网络的各自优势。
本文介绍了 DP-LAC,一种用于语言模型差分隐私联邦微调的轻量级方法,该方法能够在不增加额外隐私成本或超参数调整的情况下高效估计并自适应裁剪阈值,相比现有方法实现了 6.6% 的准确率提升。
本文介绍了测试时推测(TTS),这是一种在线蒸馏方法,它利用目标模型的验证信号在推理过程中持续调整草稿模型,从而克服现有推测器在长序列上的性能下降问题,并显著提升了接受长度。
本文介绍了金融标注数据集(FIAD)的构建,该数据集是一种源自银行应用评论和本地语法图的韩语语言资源,用于生成标注训练数据,从而显著提升各类自然语言理解模型在银行客服对话系统中的性能。
NEO 是一种无需超参数且计算高效的测试时自适应方法,它通过将目标数据嵌入重新居中至原点,在分布偏移下提升模型的鲁棒性和校准能力,从而以极低的计算开销在多个数据集和设备上实现更优的准确率。
该论文介绍了 Scam2Prompt,这是一个可扩展的框架,揭示了生产环境中的大型语言模型存在一种关键且日益恶化的安全漏洞,即源自恶意诈骗网站的自动化提示词在多个模型中成功触发有害代码生成的比例高达 47.3%,从而使护栏和检索增强生成等现有安全措施变得不足。
本文通过建立一种利用从有限观测集导出的规范假设语法的有限类型重构理论,证明了在固定有限幺半群类型化下可替换的上下文无关语言能够从正例数据在极限意义下被识别:对于一般的固定 h 类,假设构建与更新在样本规模上具有多项式时间复杂度;而对于线性子类,则建立了包含多项式特征样本规模界限在内的完整多项式时间与数据保证。
该论文证明了复杂度类 NL 与 logCFL 不同,这一结果进一步意味着 L ≠ Ptime 以及 NL ≠ Ptime 的分离。
本文介绍了 INCAMA,这是一个物理感知框架,它结合了潜在空间反演与延迟感知 Mamba 编码器,从失真的神经影像信号中恢复定向神经因果结构,在模拟和真实世界 fMRI 数据中均展现出优于基线的性能。
本文通过从余三维里斯约化导出诱导格林核,建立了标量卡西米尔迹的二次型表示,该方法使得热正则化高斯源能量的期望值能够精确复现该迹,并验证了狄利克雷平行板几何中的标准有限部分结果。