BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models
该论文提出了一个评估工具选择偏差的基准,揭示了大型语言模型在从功能等效工具中选择时存在显著偏差(主要受语义匹配、描述扰动及预训练曝光影响),并设计了一种先过滤后均匀采样的轻量级策略以有效缓解该问题。
2384 篇论文
该论文提出了一个评估工具选择偏差的基准,揭示了大型语言模型在从功能等效工具中选择时存在显著偏差(主要受语义匹配、描述扰动及预训练曝光影响),并设计了一种先过滤后均匀采样的轻量级策略以有效缓解该问题。
本文提出了名为 MonitorVLM 的视觉 - 语言框架,通过构建包含 9000 个样本的矿业违规数据集,并创新性地引入条款筛选和行为放大模块,显著提升了矿山作业中安全违规行为检测的精度与效率,实现了从监控视频流到自动违规报告的智能化闭环。
本文首次系统评估了自监督学习在可穿戴 EEG 睡眠分期中的应用,提出了一种专用流程,证明其仅需 5% 至 10% 的标注数据即可实现超过 80% 的临床级准确率,显著优于监督基线及通用 EEG 基础模型。
本文提出了一种名为 HyWA 的新方法,利用超网络为语音活动检测(VAD)模型中的特定层生成个性化权重,从而在保持架构统一的同时,显著提升了个性化语音活动检测(PVAD)的平均精度并优化了部署效率。
该论文提出了一种名为“揭示 - 修订”的可解释性偏差感知生成框架,通过融合跨模态注意力、Grad-CAM++ 归因及迭代反馈机制,在多个基准测试中实现了超越现有基线的生成质量、鲁棒性及公平性。
本文提出了 MVCustom,一种基于扩散模型的新框架,通过特征场表示、深度感知特征渲染及一致性感知潜变量补全技术,成功解决了多视图生成中视角控制与提示词定制化难以兼顾且缺乏几何一致性的难题。
该论文提出了一种基于数据协方差矩阵和目标函数多项式分解的“厄米特征结构假设”(HEA)理论框架,能够仅利用原始数据统计量准确预测真实数据集上的核回归学习曲线,并发现多层感知机在特征学习阶段也遵循该假设所预测的厄米多项式学习顺序。
本文提出了 KVTC,一种基于主成分分析、自适应量化和熵编码的轻量级变换编码方法,能够在保持大语言模型推理精度和长上下文能力的同时,实现高达 20 倍(特定场景下 40 倍以上)的 KV 缓存压缩,从而显著降低显存占用并支持缓存复用。
该研究以高温超导领域为例,通过构建专家 curated 的文献库与评估体系,证实了基于检索增强生成(RAG)的 LLM 系统在回答复杂科学问题时,在全面性和证据支持方面优于现有的闭源模型。
本文提出了 DeepEyesV2 模型,通过构建包含工具使用有益案例的数据集、采用“冷启动预训练 + 强化学习”的两阶段训练策略,并引入 RealX-Bench 基准,成功实现了能够根据任务上下文自适应调用代码执行、网页搜索等外部工具的具身多模态智能体。
该论文提出了一种名为"What We Don't C"的新方法,利用潜在流匹配技术通过显式移除条件引导中的信息来解耦潜在子空间,从而生成有意义的残差表示,使未被条件变量捕获的变异因子更易被利用,进而实现对生成模型潜在表示的分析、控制与再利用。
该论文提出了 D-GAP 方法,通过利用任务梯度在频域自适应地插值振幅以消除域偏差,并辅以像素空间融合恢复细节,从而在无需特定数据集先验知识的情况下显著提升了模型在真实世界场景中的泛化鲁棒性。
本文提出了 STREAM-VAE 模型,通过双路径编码器分离车辆遥测数据中的慢速漂移与快速尖峰动态,从而在多种工况下实现比现有基线方法更鲁棒的异常检测。
本文提出了首个涵盖 160 多种遥感基础模型的结构化数据库 RS-FMD,并基于此构建了约束感知智能体 REMSA,该智能体能够通过自然语言查询自动筛选最合适的模型,并在专家构建的基准测试中展现出超越现有基线的实用性能。
本文提出了一种针对医疗数据隐私风险的层次化双策略遗忘框架,通过几何约束梯度更新与概念感知令牌级干预相结合,在仅修改 0.1% 参数的情况下实现了 82.7% 的遗忘率与 88.5% 的知识保留,有效平衡了敏感信息移除与基础医疗能力保持的需求。
本文提出了 CostNav,这是首个结合行业标准监管与财务数据及物理仿真的经济导航基准,通过量化分析揭示现有导航方法在真实商业部署中均无法实现经济可行性,从而挑战社区开发以经济成本为核心指标的导航策略。
本文介绍了 IndiMathBench,这是一个基于印度数学奥林匹克竞赛题目、通过 AI 辅助与人工验证相结合构建的包含 312 个 Lean 4 定理的基准数据集,旨在评估大语言模型在数学定理证明与自动形式化方面的能力并揭示当前技术仍面临的显著挑战。
该论文提出了名为 C3 的校准不确定性量化方法,通过在潜空间利用严格评分规则训练可控视频生成模型,实现了在保持生成质量的同时对每一帧进行亚图块级别的密集置信度估计与可视化,从而有效缓解幻觉并支持分布外检测。
本文提出了名为 Trio 的分子生成框架,通过整合片段式分子语言模型、强化学习与蒙特卡洛树搜索,实现了兼具可解释性、合成可行性与高结合亲和力的闭环靶向分子设计,显著优于现有最先进方法并大幅拓展了化学空间多样性。
本文提出了一种基于最大风险最小化(MaxRM)原则的随机森林变体,通过设计高效算法并证明统计一致性,实现了在均方误差、负奖励和遗憾三种风险度量下的跨环境泛化,并针对遗憾风险给出了新分布下的泛化保证。