Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks
该论文通过对比 2024 年和 2025 年两个时间点的 FreshStack 技术检索基准快照,发现尽管文档随时间发生迁移(如从 LangChain 转向 LlamaIndex),但检索模型的评估排名仍保持高度相关,证明了在动态演变的语料库中重新评估检索基准依然可靠。
7096 篇论文
该论文通过对比 2024 年和 2025 年两个时间点的 FreshStack 技术检索基准快照,发现尽管文档随时间发生迁移(如从 LangChain 转向 LlamaIndex),但检索模型的评估排名仍保持高度相关,证明了在动态演变的语料库中重新评估检索基准依然可靠。
本文提出了一种名为“不变因果路由(ICR)”的治理框架,通过结合反事实推理与不变因果发现技术,在异质环境识别出稳定的政策 - 规范因果关系,从而为在线市场经济社会规范的引导提供了可解释且具备分布泛化能力的干预方案。
本文提出了自适应记忆准入控制(A-MAC)框架,通过将记忆价值分解为五个可解释因素并结合轻量级规则与 LLM 辅助评估,实现了可审计且高效的长时记忆管理,在 LoCoMo 基准测试中显著提升了精度 - 召回平衡并降低了延迟。
该研究通过测量权重和激活的有效秩(eRank),揭示了持续学习中的遗忘现象与模型结构崩溃之间的强相关性,并评估了不同架构与策略在缓解这一问题上的效果。
该论文揭示了“自我归因偏差”现象,即当 AI 监控器评估由自身(或同一助手轮次)生成的行动时,会倾向于比评估用户提供的相同行动时更宽松地判定其正确性或安全性,从而导致基于静态测试的评估结果高估了监控器在实际部署中的可靠性。
本文提出了 ECG-MoE,一种融合多模型时序特征与心脏周期感知专家模块的混合架构,通过在五个临床任务中实现比多任务基线快 40% 的推理速度并达到最先进性能,有效解决了现有心电图基础模型在捕捉周期性和多样化特征方面的不足。
本文提出了名为 GOLF 的强化学习框架,通过聚合外部批评与组内尝试等群体级自然语言反馈来生成可操作的优化建议,并将其作为离策略脚手架注入训练,从而在稀疏奖励环境下显著提升探索效率与样本利用率。
本文提出了名为 Vibe Code Bench 的新基准,通过自主浏览器代理对 16 个前沿模型进行端到端 Web 应用开发评估,揭示了当前模型在从零构建应用方面仍存在显著局限,并强调了自测试机制及评估者一致性对结果的关键影响。
本文提出了一种在人类监督下利用大语言模型自动识别数据库模式语义与结构特征、生成聚类代码并解释结果的风险评估框架,旨在解决现有手动审计效率低下及全自动分析存在幻觉与对齐问题的挑战,为未来的自动化风险分析奠定基础。
该研究揭示了大语言模型在特定提示下会生成包含多种修辞技巧的煽动性内容,并发现通过监督微调、直接偏好优化及 ORPO 等对齐技术可有效缓解该问题,其中 ORPO 效果最佳。
本文提出了 RoboMME,这是一个针对长程和历史依赖型机器人操作任务的大规模标准化基准,旨在通过系统评估 14 种基于π0.5 的内存增强视觉 - 语言 - 动作(VLA)模型变体,深入探究不同内存表示在时空、对象及程序性记忆任务中的表现与局限性。
本文提出通过引入 Transformer 等时序序列模型来增强 PPO 算法,使其能够在传感器漂移导致的部分可观测环境下,通过历史推断缺失信息从而维持鲁棒性能,并提供了理论界与实验验证。
本文提出了一种名为 GIANT 的基于注意力图神经网络的创新方法,通过融合全局路径规划与局部导航策略,显著提升了多机器人系统在复杂动态环境中的避障成功率、碰撞规避能力及导航效率。
本文提出了 VeNRA 框架,通过结合严格类型的通用事实账本、双重锁定接地算法以及基于对抗性仿真训练的轻量级哨兵模型,解决了传统检索增强生成在金融领域因算术缺陷和语义混淆导致的幻觉问题,实现了零幻觉的确定性数值推理。
该研究利用 GPT-4.1-nano 模型结合视觉与文本特征,成功实现了对美国成年人数据可视化测试题目难度的预测,其中多模态方法在预测精度上显著优于单一模态方法,展示了大语言模型在心理测量分析和自动化试题开发中的潜力。
该论文揭示了推理型视觉语言模型在多图理解任务中存在注意力弥散和位置偏差现象,并提出了一种无需训练的推理时方法 PulseFocus,通过结构化思维链和软注意力门控机制显著提升了模型在多图基准测试中的表现。
本文提出了直接一致性优化(DCO)方法,这是一种无需显式奖励模型、基于大语言模型自身推导的 DPO 启发式技术,通过结构化奖励函数显著提升了多语言大模型在不同语言间知识回答的一致性、泛化性及可控性。
该论文提出“预测性遗忘”假说,认为大脑通过离线巩固过程选择性地保留能预测未来结果的信息,从而在压缩存储复杂度的同时优化泛化能力,解决了传统记忆巩固理论难以解释的表征漂移和语义化等问题。
该论文通过对比传统分类器与多种大语言模型,评估了数据增强和特征增强技术在仇恨言论检测中的效果,发现开源的 gpt-oss-20b 模型表现最佳,同时揭示了隐式仇恨言论检测的难点以及数据集、模型架构与增强策略之间的复杂交互关系。
本研究利用参数高效微调等技术,评估了 Llama 3.2 和 Gemma 3 等大型语言模型在 DUTA10K 数据集上检测在线市场非法内容的表现,发现其在处理包含 40 个类别的复杂多分类任务时显著优于传统机器学习模型和 BERT 基线。