CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases
本文提出了 CCR-Bench 基准,旨在通过涵盖内容格式深度交织、复杂逻辑流程控制及真实工业场景的评估任务,揭示现有大语言模型在处理复杂指令时与真实应用需求之间的显著差距。
11784 篇论文
本文提出了 CCR-Bench 基准,旨在通过涵盖内容格式深度交织、复杂逻辑流程控制及真实工业场景的评估任务,揭示现有大语言模型在处理复杂指令时与真实应用需求之间的显著差距。
本文通过粒子滤波(如序贯蒙特卡洛)的视角,为语言模型推理中的并行采样方法建立了理论框架,揭示了采样误差与奖励评估次数之间的非渐近关系,并指出了该方法在理论保证与最终准确率之间的根本局限。
本文提出了 VLM-SubtleBench 基准,旨在通过涵盖工业、医疗和航拍等多领域及十种细微差异类型的配对图像与问题,评估视觉语言模型在细微对比推理方面与人类水平的差距,并揭示了现有模型在复杂场景下的系统性不足。
该论文提出将图像分割作为联盟形成博弈的可视化诊断测试平台,通过量化机制设计参数对均衡结构的影响,揭示了从凝聚到碎片化再到失效的演化过程。
该论文提出了一种利用 LaCAM* 在搜索过程中构建动态轻量级交通图的新方法,旨在克服现有基于引导路径的优化方案计算开销大且静态的局限性,从而在多种多智能体路径规划变体中实现更优的解质量。
该论文提出了一种基于决策理论的框架,通过融合人工智能天气预测模型与动态农民期望统计模型,成功开发了更精准的印度季风预报系统,并于 2025 年向 3800 万印度农民提供了有效的季节性降雨 onset 预报以辅助农业决策。
该论文提出了名为 SMGI 的结构化通用人工智能理论,通过形式化一个包含动态组件的元模型,将学习问题重新定义为学习接口本身的受控演化,并证明了经典机器学习范式均为该理论的结构受限特例。
本文提出了 EveryQuery,一种基于任务条件预训练的电子健康记录基础模型,它通过单次前向传播直接根据患者病史和结构化查询预测临床结果,在无需微调或轨迹生成的情况下实现了零-shot 推理,并在 MIMIC-IV 数据集的绝大多数任务(尤其是罕见事件)上显著优于自回归基线模型。
该论文提出了一种仅依赖视觉的自主支气管镜导航框架,通过长短期智能体协同与世界模型批判机制,在无外部追踪传感器的情况下实现了高精度的机器人自主导航,并在体内外实验中验证了其达到专家水平的可行性。
本文提出了 Ares 框架,通过轻量级路由器为多步代理任务中的每个步骤动态选择最低所需的推理强度,在显著降低推理成本(最高减少 52.7% 的推理 token 使用)的同时保持了任务成功率。
本文针对关系数据库中实体分类任务存在的类别不平衡问题,提出了关系中心的小样本合成过采样图神经网络模型 Rel-MOSS,通过设计关系门控控制器和关系引导合成器来增强少数类信息表达与一致性,显著提升了模型在平衡准确率和几何平均数上的性能。
本文提出了 IMSE 方法,通过仅微调预训练视觉 Transformer 线性层的奇异值(即谱专家)并引入基于专家输入对齐的多样性最大化损失以解决特征坍塌问题,结合域感知谱码检索机制,在显著减少可训练参数量的同时实现了测试时适应及持续测试时适应任务中的最先进性能。
本文提出了 SWE-Fuse 框架,通过融合无问题轨迹学习与熵感知 RLVR 训练,有效解决了真实软件问题中描述与解决方案不匹配导致的噪声干扰,在 SWE-bench Verified 基准测试中显著提升了大语言模型智能体的代码修复成功率。
本文提出以基于大语言模型和深度学习的智能人机协作代理系统(如中科院高能物理所的 Dr. Sai 系统)作为科学研究的下一代范式,旨在解决数据规模超越传统分析能力的危机,通过扩展人类认知边界来推动粒子物理乃至整个数据驱动科学领域的革命性发展。
该论文针对现有大语言模型在生成受重大社会事件影响的人类轨迹时难以平衡习惯模式与事件约束的局限,构建了首个事件标注移动数据集,并提出了基于模糊痕迹理论的自对齐大语言模型框架 ELLMob,通过提取并迭代对齐竞争推理来生成兼具习惯基础与事件响应性的轨迹,实验表明其性能优于现有最先进方法。
本文提出了一种名为 PSTNet 的轻量级物理结构化网络,通过将湍流物理定律直接嵌入架构(如 Monin-Obukhov 理论和 Kolmogorov 输出层),在仅含 552 个参数且资源受限的机载微控制器上实现了比传统方法更准确、可解释且高效的实时大气湍流强度估计。
本文提出了名为 EvoStage 的新型进化范式,通过将算法设计分解为多阶段并结合多智能体与全局 - 局部视角机制,有效解决了大语言模型在自动化算法设计中的幻觉问题,并在芯片布局等工业场景中实现了超越人类专家及现有方法的性能突破。
该论文提出了 HILA 框架,通过引入包含成本感知奖励的 GRPO 内循环与将专家反馈转化为监督信号的外循环持续学习机制,使多智能体系统能够学习元认知策略以动态决定自主解决或向人类专家求助,从而突破静态知识限制并实现持续进化的协作能力。
本文提出了 VORL-EXPLORE 框架,通过引入表征局部可导航性的“执行保真度”信号,将任务分配与运动执行紧密耦合,并结合 Voronoi 优化与风险自适应仲裁机制,有效解决了动态密集环境中多机器人探索易出现的拥塞、振荡及冗余覆盖问题。
该论文提出了 OSExpert 框架,通过基于深度优先搜索的 GUI 探索算法自动发现并构建细粒度动作原语与技能组合课程,显著提升了通用计算机使用代理在复杂任务中的表现(提升约 20%)及效率(缩小与人类差距约 80%),使其更接近专家水平。