MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations
本文介绍了 MITRA,一种专为大型物理实验(如 CMS)设计的本地化检索增强生成(RAG)原型系统,它通过自动化文档提取、两阶段向量数据库架构及完全本地部署的模型,有效解决了海量内部文档的检索难题并确保了数据隐私。
1071 篇论文
本文介绍了 MITRA,一种专为大型物理实验(如 CMS)设计的本地化检索增强生成(RAG)原型系统,它通过自动化文档提取、两阶段向量数据库架构及完全本地部署的模型,有效解决了海量内部文档的检索难题并确保了数据隐私。
本文介绍了 One-Eval,一个能够将自然语言评估请求自动转化为可执行、可追溯且可定制的评估工作流的智能体系统,旨在通过集成基准规划、数据获取与归一化、任务感知指标选择及人机协作机制,解决大语言模型评估中依赖人工操作、难以复现及缺乏可解释性等挑战。
该论文提出利用 Chow-Liu 树学习长文本块间的依赖结构,并通过广度优先遍历确定处理顺序,从而在 Chain-of-Agents 框架中减少信息损失,显著提升长上下文推理任务的答案相关性和准确率。
该论文提出并证实,阅读时间更依赖于简单的 n-gram 统计特征而非复杂模型学到的深层统计规律,因此那些预测结果与 n-gram 概率相关性最高的神经语言模型,在预测自然文本阅读时间(基于眼动追踪数据)时也表现最佳。
该论文提出了名为 DoWhatISay (DOWIS) 的多语言口语指令数据集,旨在填补语音大模型评估中缺乏真实口语指令的空白,并通过基准测试揭示了文本提示在多数场景下优于口语提示,但在涉及语音输出的任务中口语提示能有效缩小性能差距。
该研究通过两项涵盖 19,145 名受访者的调查实验,评估了七款前沿大语言模型在政治议题上的说服能力,发现其整体表现优于传统竞选广告且存在显著模型差异(Claude 最强、Grok 最弱),同时揭示了信息型提示对说服效果的影响因模型而异,并提出了评估大模型潜在说服风险的框架。
该论文提出了一种名为 MSSR 的记忆感知自适应回放框架,通过估计样本级记忆强度并动态调整复习间隔,在持续微调大语言模型时有效缓解了灾难性遗忘问题,同时保持了快速适应能力,并在多项基准测试中显著优于现有方法。
该论文揭示了推理机制如何通过“计算缓冲效应”和“事实启动”两个关键机制显著提升大语言模型对简单事实性知识的检索能力,同时也指出推理过程中产生的中间幻觉会损害最终答案的准确性,并据此提出了通过优先选择无幻觉推理轨迹来提升模型精度的方法。
这篇论文提出了名为 FUSE 的四维分类框架,全面综述了大语言模型时代下模型合并的理论基础、算法方法、应用场景及生态系统,并指出了该领域未来的挑战与方向。
该论文通过新颖的道德权衡数据集发现,与人类不同,推理过程能显著提升大语言模型的诚实度,其根本原因在于欺骗性回答在表征空间中处于亚稳态,而推理生成的思维链通过遍历该空间将模型推向更稳定的诚实默认状态。
本文介绍了名为 CREATE 的新基准,旨在通过评估模型在概念间生成高特异性与高多样性关联路径的能力,来量化其联想创造力,并发现尽管前沿模型表现更优,但现有思维模型和提示方法在该任务上的提升仍有限。
本文综述了大型语言模型(LLM)的最新进展,系统介绍了其背景、关键发现及主流技术,重点围绕预训练、适应微调、应用利用和能力评估四大核心方面展开,并总结了相关资源与未来挑战。
本文提出了名为 Agent-OM 的新型大语言模型代理框架,通过双 Siamese 代理与专用工具协同工作,在简单本体匹配任务上达到顶尖性能,并在复杂及少样本任务中显著优于现有最先进系统。
该论文提出了名为 Llama-Mob 的指令微调 Llama-3-8B 模型,通过问答形式在长周期城市级人类移动性预测任务中超越了现有最先进方法,并展现出强大的跨城市零样本泛化能力。
这篇综述文章提出了一种整合模型,认为语言理解中的说话者效应源于基于声学情景记忆的底向上感知过程与基于说话者模型的顶向下预期过程之间的相互作用,并探讨了该机制在语言发展、社会认知及人工智能交互领域的应用。
该论文提出了一种专为编码器语言模型设计的离散键值瓶颈(DKVB)方法,通过引入任务无关的初始化技术和局部更新机制,在无需任务 ID 的具有挑战性的持续学习场景中,有效缓解了灾难性遗忘问题,同时以较低的计算成本实现了与主流方法相当的性能。
该论文提出了名为 HarmonicEval 的无参考综合评估指标,通过自下而上的方式聚合多准则得分以解决现有指标难以适应多任务场景的问题,并构建了包含 1.8 万条专家标注的 MMHE 基准,实验表明其比传统指标与人类判断具有更高的相关性。
该论文通过引入嵌入先验并分析提示微调中嵌入坍塌现象,发现模型能在激活空间的不同区域有效工作,且不同任务类型的激活轨迹呈现特定聚类模式,从而为提升提示微调的可解释性、可控性及泛化能力提供了新见解。
该论文提出了一种基于枢轴翻译的单模型集成框架,通过枢轴翻译生成多样化的高质量候选译文,并经由后处理聚合步骤筛选融合,从而在不增加多模型训练成本的情况下显著提升了低资源语言对的神经机器翻译质量。
该论文提出了一种名为 GRADIEND 的新型编码器 - 解码器方法,利用模型梯度学习编码社会偏见(如性别、种族和宗教)的特征神经元,从而能够精准定位并修改模型权重以在保留其他能力的同时消除偏见。