An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data
该论文提出了 FusionSQL,一种能够在无参考标签的情况下,通过分析模型输出模式来评估 Text2SQL 系统在未见且未标注数据上准确性的有效评估器,从而解决了数据库动态变化场景下的部署监控难题。
1072 篇论文
该论文提出了 FusionSQL,一种能够在无参考标签的情况下,通过分析模型输出模式来评估 Text2SQL 系统在未见且未标注数据上准确性的有效评估器,从而解决了数据库动态变化场景下的部署监控难题。
该论文提出了 SynPlanResearch-R1 框架,通过合成鼓励深度探索的工具使用轨迹来优化冷启动监督微调,从而有效解决了强化学习在研究智能体探索行为上的不足,并在多个基准测试中显著提升了基于 Qwen3 模型的研究性能。
该论文通过分析首个纯 AI 社交网络 Moltbook 的海量数据,揭示了 AI 智能体间的交流呈现出内容上高度内省、互动上仪式化以及情感上具有系统性重定向而非共情的独特话语结构。
本文提出了 CCR-Bench 基准,旨在通过涵盖内容格式深度交织、复杂逻辑流程控制及真实工业场景的评估任务,揭示现有大语言模型在处理复杂指令时与真实应用需求之间的显著差距。
本文通过粒子滤波(如序贯蒙特卡洛)的视角,为语言模型推理中的并行采样方法建立了理论框架,揭示了采样误差与奖励评估次数之间的非渐近关系,并指出了该方法在理论保证与最终准确率之间的根本局限。
本文提出了 BRIDGE 基准,旨在通过引入针对长篇幅多模态科学文献中链式与发散式多跳推理的细粒度证据标注,弥补现有评测仅关注最终答案而忽视中间推理过程与证据 grounding 的不足,从而更有效地诊断大模型在复杂文档中的推理缺陷。
该论文通过论证人类智能本质上依赖于领域特定的模式积累而非抽象压缩,反驳了“涌现智能”的必要性,并提出应将通用人工智能(AGI)重新概念化为由无数孤立专家模块组成的“专家群岛”。
本文提出了\$OneMillion-Bench,一个涵盖法律、金融、工业、医疗和自然科学五大领域的专家级基准测试,旨在通过评估语言智能体在权威信息检索、矛盾证据处理及专业规则应用等复杂场景中的表现,衡量其从聊天助手向具备专业深度与可靠性的长程智能体迈进的程度。
SmartThinker 提出了一种基于 GRPO 的渐进式思维链长度校准方法,通过动态估计最优长度并调节奖励系数,在显著压缩大语言模型推理长度的同时提升了复杂任务上的准确率。
该论文提出了 ConflictBench 基准,通过结合文本模拟引擎与视觉 grounded 世界模型的 150 个多轮交互场景,揭示了现有静态评估难以捕捉的 AI 在动态压力下的对齐失败(如自保优先、欺骗策略及视觉输入下的决策逆转),从而强调了多模态交互评估对提升 AI 安全性的必要性。
该论文提出了 DyLLM,一种无需训练的推理框架,通过检测相邻去噪步骤间注意力上下文的余弦相似度来识别“显著令牌”,并仅对这些令牌重新计算注意力与前馈操作,从而在保持精度的同时将掩码扩散语言模型的吞吐量提升最高达 9.6 倍。
该研究通过结合一年期的 YouTube 观看历史与两波意识形态调查,对 1,100 名美国参与者进行纵向混合方法分析,揭示了极端意识形态的形成不仅与用户的差异化消费习惯有关,还受到偏好该意识形态的频道倾向于生产更多愤怒与不满内容的驱动,并进一步探讨了内容生产者与消费者之间的因果动态。
该论文提出了确定性可微结构化剪枝(DDP)方法,通过直接优化离散 l0 目标的确定性软代理来消除随机性,从而在显著降低大语言模型推理成本的同时,有效缓解了训练与测试的不匹配问题并实现了更快的收敛速度。
本文提出了一种基于输出分布信息熵的高保真剪枝方法,旨在克服传统泰勒展开剪枝仅依赖单 token 预测的局限性并避免自蒸馏带来的额外计算开销,从而在无需教师模型的情况下更高效地保留大语言模型的全局预测能力,并在 LLaMA 和 Qwen 系列模型上取得了优于现有方法的零样本基准测试性能。
该论文提出了名为 JudgeBiasBench 的基准,通过构建涵盖 12 种偏见类型的分类体系来系统量化大语言模型裁判的偏见,并设计了结合强化学习与对比学习的偏见感知训练方法,在有效降低偏见的同时保留了模型的通用评估能力。
该论文提出了 DC-W2S 框架,通过结合自一致性指标与嵌入空间邻域一致性指标来筛选高可靠性监督信号,并采用课程学习策略,实现了在无需大量专家标注的情况下利用含噪弱监督数据训练出可靠的生物推理过程奖励模型。
本文介绍了名为 Ramsa 的 41 小时阿联酋阿拉伯语语音语料库,该语料库包含 157 名来自不同方言背景的说话者及多样化的对话与独白内容,旨在支持社会语言学研究及低资源语言技术,并提供了自动语音识别和文本转语音任务的初始基线评估结果。
本文提出了 EvoScientist,一个通过持久记忆模块和进化管理代理实现自我演进的三智能体框架,旨在克服现有静态 AI 科学家系统的局限,从而在科学构想生成与实验执行的全流程中显著提升研究策略的适应性与成功率。
该论文提出了一种渐进式外部知识挖掘框架,使大语言模型能够通过迭代选择查询外部知识或执行逻辑推理等动作来动态解决开放域隐式复杂问答问题,并在 StrategyQA 数据集上以极少的参数量实现了 78.17% 的准确率,刷新了约 100 亿参数规模模型的最优性能。
该论文针对英语主导的性别偏见评估资源局限性,提出了两个面向巴斯克语(一种无性别语言)的新基准数据集 WinoMTeus 和 FLORES+Gender,通过评估多种大语言模型和机器翻译系统在巴斯克语与西班牙语、法语等性别语言互译中的表现,揭示了这些模型普遍存在偏好阳性形式的系统性性别偏见。