Cache-to-Cache: Direct Semantic Communication Between Large Language Models
本文提出了 Cache-to-Cache (C2C) 新范式,通过直接投影和融合大语言模型的 KV-Cache 实现模型间深层语义通信,从而在避免文本生成延迟的同时,显著提升了多模型系统的准确率与推理速度。
1367 篇论文
本文提出了 Cache-to-Cache (C2C) 新范式,通过直接投影和融合大语言模型的 KV-Cache 实现模型间深层语义通信,从而在避免文本生成延迟的同时,显著提升了多模型系统的准确率与推理速度。
本文提出了 LaDiR 框架,通过结合变分自编码器构建结构化潜在推理空间与潜在扩散模型实现块级双向注意力的迭代优化,从而克服了传统自回归解码的局限,显著提升了大语言模型在数学推理与规划任务中的准确性、多样性及可解释性。
本文提出了一种名为能量景观引导(ELS)的无需微调的推理时干预框架,通过训练轻量级能量模型动态引导大语言模型的隐藏状态,在保持安全性的同时显著降低了过度拒绝率。
该论文通过评估 10 种语言下的多种预训练模型,发现尽管有明确指令和上下文信息,语言模型仍难以区分借词与原生词汇,且表现出对借词的偏见,这一发现对开发少数语言 NLP 工具及支持语言保护具有重要意义。
该论文提出了 STARS 算法,通过引入基于固定时间间隔的同步验证机制,克服了现有推理时对齐方法依赖模型不确定性所带来的幻觉风险与硬件利用率低下问题,在显著提升大语言模型对齐可靠性与系统吞吐量的同时,实现了更具可扩展性的安全部署。
该论文提出将自然语言查询中的歧义重构为用户与系统共同承担责任的协作特征,通过建立区分可协作解析与不可解析查询的框架,揭示了现有评估中查询类型混杂的问题,并为表数据分析自然语言接口的设计与评估指明了未来方向。
本文介绍了 TransactionGPT,这是一种基于十亿级真实交易数据训练、采用专为捕捉支付动态而设计的 3D-Transformer 架构的消费交易基础模型,其在异常检测、交易生成及效率方面均显著优于现有基线模型和微调大语言模型。
本文提出了一种基于激活工程的精确可解释框架,通过利用归因修补技术定位关键干预点并构建情感表达向量,成功引导 LLaMA 3.1-8B 模型在谈判对话中展现出更丰富的人类情感细微差别和更强的个人参与感。
本文提出了一种基于开源大语言模型的“置信度感知细粒度辩论”(CFD)框架,通过模拟协作标注机制有效解决了心理健康与在线安全领域多标签数据标注困难的问题,并在引入新构建的专家标注数据集后,验证了该框架在提升下游任务性能方面的显著优势。
本文介绍了 GUMBridge,这是一个涵盖 16 种英语体裁、提供细粒度子类别标注的新语料库,旨在解决现有桥接指代资源覆盖不足的问题,并评估了当前大语言模型在桥接解析和子类别分类任务上的表现。
该论文提出了一种针对掩码扩散语言模型(MDLMs)的激活导向机制,通过提取单一低维方向并在去噪过程中施加全局干预,实现了无需优化即可高效、系统地控制模型行为(如安全拒绝),并揭示了该机制在扩散模型中特有的可访问性及跨语言迁移能力,同时指出其难以直接迁移至自回归架构。
该论文提出并验证了一种基于推理时解码熵迹的轻量级方法,能够利用输出熵分布有效预测大语言模型在 STEM 领域不同子集上的准确率,从而为模型性能监控和针对性数据获取提供了可扩展的解决方案。
该论文揭示了“上下文拖曳”现象,即大语言模型在推理过程中因上下文包含失败尝试而倾向于重复类似的结构化错误,导致性能显著下降且难以通过常规反馈或验证机制消除。
该论文提出利用大五人格特质作为潜在信号来指导偏好选择,构建了包含 1200 条标注数据的 PACIFIC 数据集及相应框架,显著提升了大语言模型在个性化问答中的答案选择准确率。
Steer2Edit 提出了一种无需训练的框架,将推理时的激活导向向量转化为诊断信号,通过选择性地对注意力头和 MLP 神经元进行秩 1 权重编辑,在保持推理效率的同时显著改善了大语言模型在安全性、真实性和推理效率方面的属性 - 效用权衡。
本文介绍了 MedXIAOHE,一种通过实体感知持续预训练、强化学习与工具增强智能体训练,以及证据导向的低幻觉报告生成等综合策略构建的医疗多模态大模型,其在多项基准测试中超越了领先的闭源系统,显著提升了医疗理解、推理及临床应用的可靠性。
该论文通过涵盖 80 亿观测值的大规模实证研究,推翻了以往关于大语言模型(LLM)在时间序列预测中无效的负面评估,证明了 LLM 在跨域泛化及复杂动态建模中的显著优势,并明确了预训练知识与模型架构在应对分布偏移时的互补作用,为有效模型设计提供了实践指导。
该论文提出了一种无需训练的“溢出能量”方法,通过将大语言模型的 softmax 分类器重新解释为能量模型,利用输出 logits 直接计算能量指标,从而有效检测事实性错误、偏见及幻觉。
本文提出了名为 CFE-Bench 的多模态基准测试,该测试基于 20 多个 STEM 领域的真实大学考题与教师参考答案,旨在评估大语言模型的推理能力,研究发现尽管前沿模型表现尚可,但在多步推理中仍难以维持中间状态的正确性且步骤效率较低。
本文提出了 RuCL 框架,通过将课程学习从数据选择转向奖励设计,利用基于模型能力分层的泛化评分标准动态调整训练权重,有效解决了多模态大模型推理中的奖励黑客问题,并在视觉推理基准测试中实现了显著的性能提升。