FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents
本文介绍了 FinRetrieval 基准,该基准通过 500 个金融检索问题评估了 AI 代理从结构化数据库中提取数值的能力,揭示了工具可用性对性能的决定性影响,并发现推理模式的效果取决于基础能力而非推理本身,同时指出了地理命名惯例带来的性能差异。
154 篇论文
本文介绍了 FinRetrieval 基准,该基准通过 500 个金融检索问题评估了 AI 代理从结构化数据库中提取数值的能力,揭示了工具可用性对性能的决定性影响,并发现推理模式的效果取决于基础能力而非推理本身,同时指出了地理命名惯例带来的性能差异。
本研究利用大语言模型分析 1.6 万余条在线评论,揭示了传统指标未能捕捉的埃及航空服务痛点(如沟通不畅与员工态度),证明了该框架在将非结构化乘客反馈转化为可操作战略情报方面的有效性。
该论文通过对比 2024 年和 2025 年两个时间点的 FreshStack 技术检索基准快照,发现尽管文档随时间发生迁移(如从 LangChain 转向 LlamaIndex),但检索模型的评估排名仍保持高度相关,证明了在动态演变的语料库中重新评估检索基准依然可靠。
本文提出了 iAgentBench,一个基于真实热点话题的动态开放域问答基准,旨在通过构建需要跨多源证据整合与推理的复杂问题,评估生成式智能体在信息寻求中的高阶“意义构建”能力,而非仅测试单一信息检索。
本文提出了名为 CONE 的混合 Transformer 预训练模型,通过一种新颖的复合嵌入构建算法,将数值、范围、高斯分布及其单位和属性名称整合为保留距离的嵌入向量,从而在多个领域的大规模数据集上显著提升了模型的数值推理能力。
本文提出了 DARE 框架,通过构建包含 8191 个 CRAN 包的 RPKB 知识库并引入分布感知检索机制,显著提升了 LLM 代理在 R 语言统计生态中的代码生成与工具检索能力。
本文首次系统研究了重排序模型在模型规模和数据预算下的扩展规律,证实了点式、成对和列表式重排序的性能遵循可预测的幂律,从而能够利用小规模实验准确预测大规模模型在 NDCG 等指标上的表现,为构建工业级检索系统提供了节省计算资源的可行方法。
本文针对电商检索中视觉信息利用不足的问题,提出了一种新颖的模态融合网络,通过领域特定微调及两阶段对齐策略,有效实现了文本与图像信息的统一融合以提升多模态检索效果。
本文提出了一种针对大语言模型检索增强生成(RAG)系统的广告风格分类法,通过模拟广告风格变化评估了多种检测方法的鲁棒性,发现基于实体识别的模型在定位广告时表现优异且抗干扰性强,而轻量级模型则因风格变化显得脆弱,凸显了开发高效端侧检测方案的必要性。
本文针对顺序推荐中因忽略曝光信息而导致的选择偏差和曝光偏差问题,提出了一种能够捕捉用户行为时序依赖与动态变化的时间感知逆倾向评分(TIPS)方法,通过反事实推理有效区分“未曝光”与“不感兴趣”,从而显著提升了多种顺序推荐模型的性能。
该论文针对现有基于 Leiden 聚类的 GraphRAG 在稀疏知识图上社区划分不可复现的问题,提出了一种利用确定性 k-core 分解构建分层社区、结合轻量级启发式策略与 Token 预算感知采样的高效 GraphRAG 框架,在提升全局理解任务答案全面性与多样性的同时显著降低了计算成本。
该研究提出了一种结合大语言模型与澳大利亚国立大学计算机科学领域学术知识图谱的创新系统,通过深度文档模型和知识图谱增强查询处理技术,实现了对学术文献细粒度语义信息的精准检索与高效问答。
本文通过建立统一评估协议,系统性地对比了 RAG 与 GraphRAG 在文本任务中的性能差异,揭示了各自优劣并提出了融合策略以显著提升系统表现。
OSCAR 提出了一种新颖的查询依赖型在线软压缩与重排序方法,通过动态压缩检索信息并消除存储开销,在显著加速推理过程的同时,为不同规模的检索增强生成(RAG)模型实现了精度无损的性能提升。
本文介绍了 Pinterest 推出的 PinRec 模型,该模型通过结果条件生成和多 Token 生成技术,在工业级规模下成功实现了推荐系统性能、多样性与效率的平衡,并首次严谨地验证了生成式检索在大规模工业场景中的落地可行性。
本文针对现有大语言模型增强推荐系统在长期兴趣建模偏差和静态优化方面的不足,提出了包含双稳态兴趣探索模块与周期性协同优化机制的协同演化对齐(CoEA)方法,通过联合建模长短期兴趣并构建动态闭环反馈,有效实现了兼顾相关性与新颖性的惊喜推荐。
本文提出了首个针对深度研究智能体个性化能力的基准测试 PDR-Bench,通过构建包含真实用户画像与多样化任务的评估集,并引入涵盖个性化对齐、内容质量及事实可靠性的 PQR 评估框架,填补了现有开放型个性化深度研究评估的空白。
该论文提出了名为 REVISION 的框架,通过结合离线大模型隐式意图挖掘与在线推理决策,有效解决了电商视觉搜索中用户意图与系统响应不匹配的问题,显著降低了无点击率并提升了搜索系统的自适应优化能力。
该论文提出了 DevRev-Search 基准及一种索引保持的自适应策略,通过自动化管道构建数据集并仅微调查询编码器,从而在不重新索引文档的前提下实现了多租户搜索系统的高效领域适应。
本文介绍了专为大规模广告场景设计的生成式推荐系统 GR4AD,该系统通过统一语义 ID、惰性自回归解码、价值感知监督学习与排序引导强化学习等创新技术,在 Kuaishou 成功实现高吞吐实时部署,显著提升了广告收入。