Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL
该论文通过基于 Google BigQuery 的大规模实证研究,揭示了推理与非推理大语言模型在 Text-to-SQL 任务中的成本权衡,指出执行时间与云计费成本弱相关,且非推理模型因缺乏分区过滤等优化会导致高达 3.4 倍的成本波动,从而为企业部署提供了降低财务风险的关键指导。
4469 篇论文
该论文通过基于 Google BigQuery 的大规模实证研究,揭示了推理与非推理大语言模型在 Text-to-SQL 任务中的成本权衡,指出执行时间与云计费成本弱相关,且非推理模型因缺乏分区过滤等优化会导致高达 3.4 倍的成本波动,从而为企业部署提供了降低财务风险的关键指导。
NashOpt 是一个开源 Python 库,利用 JAX 自动微分和混合整数线性规划等技术,通过联合 KKT 条件高效求解非线性及线性二次广义纳什均衡,并支持逆博弈与斯塔克尔伯格博弈设计问题。
本文提出了“守恒一致编码”(CCE)框架,将智能视为受守恒律约束的物理过程,通过推广兰道尔原理和 metriplectic 流,建立了连接热力学耗散、量子测量与宏观时空几何的统一理论,从而为理解自然与人工智能提供了物理约束和量化指标。
本文提出了 DrivingGen,这是首个针对自动驾驶生成式世界模型的综合基准,通过构建涵盖多样化场景的数据集和一套包含视觉真实感、轨迹合理性、时序一致性及可控性的新评估指标,解决了现有评估方法的局限性并揭示了当前模型的优劣权衡。
本文提出了一种三阶段物理引导机器学习框架,利用 Frontier 超算一年的运行数据,通过构建单调性约束的代理模型识别并量化冷却系统能效浪费,进而证明在满足热安全约束的前提下,通过微调设定参数可回收高达 96% 的无效能耗。
本文提出了一种无需训练的“思维批处理”(BoT)方法,通过联合处理相关查询并利用多智能体反思架构(BoT-R)进行跨实例学习与一致性校验,在提升大语言模型推理准确率与置信度校准的同时,显著降低了推理成本。
本文提出了名为 R^4 的自改进智能体框架,通过路由、检索、反思与修复四个协同智能体,在不进行梯度微调的情况下显著提升了大型视觉语言模型在医学影像(如胸部 X 光)报告生成与弱监督检测任务中的准确性、安全性及空间定位能力。
本文通过审计和数字民族志研究发现,广泛用于训练视觉生成模型的 LAION 美学预测器(LAP)存在显著的性别、性取向及文化偏见,其“算法凝视”强化了西方艺术史中的帝国与男性凝视,因此呼吁开发者摒弃单一的美学标准,转向更具包容性的多元评估体系。
该论文针对计算机使用代理(CUAs)面临的安全挑战,提出了一种名为“单次规划”的架构,通过在接触不可信环境前由可信规划器生成完整执行图,在有效防御提示注入和分支操控攻击的同时,显著提升了模型在安全与实用性之间的平衡。
该论文通过分析 Reddit 讨论,揭示了用户识别与应对 AI 逢迎行为的模式,指出逢迎行为的影响具有情境依赖性,对特定脆弱群体具有情感支持价值,因此主张摒弃“全面消除逢迎”的假设,转而设计能够平衡风险与益处的上下文感知型人工智能。
本文提出了名为 BoxMind 的闭环 AI 专家系统,该系统通过解析拳击比赛视频构建层级化技战术指标并融合图预测模型生成战略建议,在 2024 年巴黎奥运会中成功验证了其卓越性能,直接助力中国国家队夺得三金两银的历史性成就。
本文针对现有方法忽视不同场景下用户移动模式差异的问题,提出了名为 MSAHG 的多面场景感知超图学习框架,通过构建场景特定的多视图解耦子超图及参数分裂机制,有效解决了跨场景特征捕捉与优化冲突问题,从而显著提升了下一兴趣点推荐的准确性。
本文提出了专为移动设备设计的 S2DiT(流式三明治扩散 Transformer),通过混合高效注意力机制、预算感知的动态规划搜索以及 2 合 1 蒸馏框架,在 iPhone 上实现了超过 10 FPS 的实时流式视频生成,同时达到了与顶尖服务器模型相当的高质量。
本文研究了受限于支付公平性的多智能体合同设计问题,通过提供针对特定奖励函数的多项式时间近似算法与不可近似性证明,解决了无约束合同设计中的两个开放问题,并量化了公平性约束导致的效用损失(价格 of equality)。
本文针对视觉 - 语言 - 动作(VLA)模型中因模态失衡导致的“虚假完成”问题,提出了首个评估基准套件,并设计了通过引入任务阶段感知视觉线索来动态平衡视觉与本体感觉的 ReViP 框架,显著提升了模型在扰动下的鲁棒性与任务成功率。
本文提出了 ScenePilot-Bench,这是一个基于 3847 小时多粒度标注驾驶视频构建的大规模基准,旨在通过涵盖场景理解、空间感知、运动规划及安全评估的四维体系,全面评估视觉语言模型在自动驾驶场景中的能力与局限。
本文提出了一种名为 QSTar 的新型查询引导时空频交互方法,通过引入查询上下文推理模块并充分利用音频的频域特性及问题引导线索,有效解决了现有音视频问答任务中音频与文本信息利用不足的问题,从而在多个基准测试中显著提升了性能。
本文提出了一种动态框架,用于在固定常数 下维护无向简单图的 -边连通性,该框架结合 Nagamochi-Ibaraki 稀疏证书与 Link-Cut Trees 实现 摊销时间的插入处理,并通过在稀疏化图上进行最大流计算,在 时间内处理导致连通性下降的删除操作,同时始终保持图具有 条边。
本文介绍了 BioAgent Bench,这是一个专为评估生物信息学 AI 代理性能与鲁棒性而设计的基准数据集和评估套件,通过涵盖端到端任务及压力测试,揭示了前沿模型虽能可靠构建复杂流程,但在面对输入扰动时仍缺乏稳健性,并指出了在隐私敏感场景下开源模型相较于闭源模型的适用性优势。
本文提出了名为 R2M 的新型轻量级 RLHF 框架,通过利用策略模型在训练过程中的实时隐藏状态反馈来动态对齐奖励模型,从而有效解决了传统方法因依赖静态语义信息而导致的奖励过优化及分布偏移问题。