Query-focused and Memory-aware Reranker for Long Context Processing
该论文提出了一种基于大语言模型注意力分数的轻量级查询感知与记忆感知重排序框架,无需标度监督即可利用列表式信息实现高效且强大的长上下文检索性能,并在 LoCoMo 等多个基准测试中取得了新的最先进成果。
1071 篇论文
该论文提出了一种基于大语言模型注意力分数的轻量级查询感知与记忆感知重排序框架,无需标度监督即可利用列表式信息实现高效且强大的长上下文检索性能,并在 LoCoMo 等多个基准测试中取得了新的最先进成果。
本文提出了“缺失即设计”(MBD)框架,通过结合结构化表征学习与可验证的参数修改流程,实现了多模态情感分析中特定模态信息的可撤销删除,在保障用户隐私自主权的同时维持了模型的高效预测性能。
本文介绍了包含 56 个植入隐藏行为模型的基准测试 AuditBench,通过自主调查代理评估了多种对齐审计技术的有效性,揭示了工具在代理环境中的性能差距、黑盒工具的优势以及不同训练方法对审计难度的影响。
该论文提出了名为 SkillCraft 的基准测试,旨在评估大语言模型智能体在长程工作流中抽象和复用高阶工具组合(即“技能”)的能力,并通过引入轻量级评估协议验证了技能积累与复用能显著提升执行效率(最高减少 80% 的 Token 消耗)并增强任务成功率。
PonderLM-3 提出了一种基于可微分掩码的预训练框架,通过实现训练与推理的一致性,使模型能够以自监督方式自适应地为每个令牌分配额外的推理计算资源,从而在同等计算成本下显著降低困惑度并提升下游任务性能。
该论文通过受控的因子实验设计,实证研究了不同规模与类型的语言模型在 Verilog 代码生成任务中与提示工程策略(如结构化输出、思维链及进化优化)的交互规律,揭示了通用趋势与特定模型 - 提示组合间的差异。
本文提出了一种完全本地化、无需调用外部 API 的端到端流水线,利用本地大语言模型将讲座 PDF 转换为多项选择题,并通过确定性质量控制机制确保生成内容的安全性与隐私性,最终发布了包含 24 道经过严格验证的试题数据集。
Fish Audio S2 是一款开源的多说话人、多轮次且支持自然语言指令控制的高级文本转语音系统,其通过多阶段训练与数据流水线实现了生产级流式推理(RTF 0.195,首字延迟<100ms),并公开了模型权重、微调代码及基于 SGLang 的推理引擎。
该论文提出了 MASEval 框架,旨在填补现有基准测试仅关注模型而忽视系统实现(如拓扑结构和编排逻辑)的空白,通过系统级评估证明框架选择对多智能体系统性能的影响与模型选择同等重要。
该论文利用塞尔维亚语双文制(拉丁字母与西里尔字母)作为受控实验环境,发现稀疏自编码器(SAE)在 Gemma 模型中学习的特征能够超越完全不同的分词方式,捕捉到比表面形式更抽象的语义含义,且这种脚本不变性随模型规模增大而增强。
该论文提出了名为 MultiGraSCCo 的多语言匿名化基准,通过机器翻译方法在十种语言中构建了包含 2500 多个个人标识符注释的合成医疗数据集,旨在解决敏感数据获取难题并支持匿名化系统的开发与评估。
该研究提出了一种无需电化学标签的文本驱动筛选策略,通过比较基于 Word2Vec 和 Transformer 的组分嵌入方法,成功在 15 种材料库中利用“导电性”和“介电性”概念方向有效过滤了复杂的组合电催化剂候选物,其中轻量级的 Word2Vec 基线模型在减少候选数量的同时保持了优异的筛选性能。
本文提出了名为 ConFu 的新型推测采样框架,通过引入“思考未来”的机制(如思考令牌、软提示及动态混合专家模型),使草稿模型能够利用来自目标模型的未来导向信号,从而在几乎不增加成本的情况下显著提升了 Llama-3 模型的令牌接受率和生成速度。
本文介绍了 SciTaRC 基准,该基准通过专家编写的科学论文表格数据问答任务,揭示了当前最先进的 AI 模型(包括 Llama-3.3-70B)因存在普遍的“执行瓶颈”而在深度语言推理和复杂计算方面表现不佳,导致在至少 23% 的任务上失败。
本文提出了 PathoScribe 框架,通过统一的检索增强大语言模型技术,将静态的病理报告档案转化为支持自然语言检索、自动队列构建及临床推理的“活体图书馆”,显著提升了病理数据的检索效率与临床决策价值。
本文提出了名为 VoxEmo 的综合基准,旨在通过引入分布感知软标签和提示词集成策略,评估语音大语言模型在跨语言、多语料库场景下对情感模糊性的建模能力及其与人类主观分布的契合度。
该论文提出了 BiCLIP 框架,通过利用少量锚点样本学习跨域图像特征间的规范几何变换,以极简的参数量实现了多模态特征的对齐,并在多个基准测试中取得了最先进的零样本域适应性能。
本文介绍了名为"Guardian"的端到端系统及其多模型流水线,该系统通过结合基于 QLoRA 的微调、任务专用大语言模型以及共识引擎,旨在以可审计的保守方式辅助失踪人员(特别是儿童)调查中的关键信息提取与搜索规划。
该论文提出了一种结合迭代代码本优化与完整溯源追踪的自动化主题分析框架,旨在解决临床定性数据处理中的可扩展性与可重复性挑战,并在多个数据集上验证了其相较于基线方法在代码复用性、分布一致性及专家主题对齐方面的显著优势。
该论文提出了一种基于置信度的自适应采样框架,通过分析单条推理轨迹中的中间状态特征来动态选择推理路径,在保持与多路径方法相当准确率的同时,显著降低了大语言模型链式推理的计算成本。