cs.AI 篇论文 | Gist.Science

PnLCalib: Sports Field Registration via Points and Lines Optimization

本文提出了一种名为 PnLCalib 的基于点和线优化的体育场地注册方法，通过结合 3D 足球场模型、关键点检测及非线性线条优化模块，有效克服了传统方法在复杂广播场景下的局限，显著提升了多视角与单视角下的摄像机标定精度与鲁棒性。

Marc Gutiérrez-Pérez, Antonio AgudoWed, 11 Ma🤖 cs.AI

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

该论文提出了 CoHet 算法，通过利用基于图神经网络（GNN）的新型内在动机机制，有效解决了部分可观测和奖励稀疏环境下异构多智能体在去中心化设置中的协作学习难题，并在多个基准测试中展现出优于现有最先进方法的性能。

Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek KhanWed, 11 Ma🤖 cs.AI

Sparse Variational Student-t Processes for Heavy-tailed Modeling

该论文提出了首个可扩展的稀疏变分 Student-t 过程（SVTP）框架，通过引入两种新型推理算法及基于 Beta 函数的自然梯度优化方法，在保持大规模数据计算效率的同时，显著提升了模型对异常值和重尾分布的鲁棒性，在预测精度和收敛速度上均优于稀疏高斯过程。

Jian Xu, Delu Zeng, John PaisleyWed, 11 Ma🤖 cs.AI

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

该论文提出了一种将量化和稀疏化统一建模为加性噪声的框架，通过引入基于岭回归的去噪反量化变换来构建明确的梯度路径，从而解决了传统直通估计器在超低精度和稀疏训练中的不稳定性问题，实现了任意精度与稀疏度下的鲁棒训练并取得了最先进的性能。

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

本文提出了利用特权信息（如特征标签或注意力标签）进行辅助监督的 DRUPI 方法，通过合成额外信息来增强数据集压缩效果，并在多个基准数据集上显著提升了模型性能。

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

On the Impact of the Utility in Semivalue-based Data Valuation

该论文通过引入数据集的“空间签名”概念，将半值法数据估值中的效用选择问题转化为低维空间中的线性泛函问题，并提出了一种实用的鲁棒性度量方法，以量化和评估效用变化对数据估值结果的影响。

Mélissa Tamine, Benjamin Heymann, Maxime Vono, Patrick LoiseauWed, 11 Ma🤖 cs.AI

MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

本文提出了 MKE-Coder 框架，通过整合诊断的多轴知识并利用评分模型筛选临床证据，结合掩码语言建模策略进行验证，有效解决了中文电子病历中 ICD 自动编码面临的文本结构复杂及证据关联不足的挑战，显著提升了编码的准确性与效率。

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji WuWed, 11 Ma🤖 cs.AI

LLM-Advisor: An LLM Benchmark for Cost-efficient Path Planning across Multiple Terrains

本文提出了 LLM-Advisor 框架，利用大语言模型作为后处理顾问来优化多地形路径规划的成本效率，并通过引入幻觉抑制策略和两个新数据集，显著提升了多种传统规划算法在复杂场景下的表现。

Ling Xiao, Toshihiko YamasakiWed, 11 Ma🤖 cs.AI

HyConEx: Hypernetwork classifier with counterfactual explanations for tabular data

本文提出了 HyConEx，这是一种专为表格数据设计的基于深度超网络的分类模型，它能够同时输出预测结果和将样本导向替代类别的局部反事实解释，从而实现了预测与解释的一体化。

Patryk Marszałek, Kamil Ksi\k{a}\.zek, Oleksii Furman, Ulvi Movsum-zada, Przemysław Spurek, Marek SmiejaWed, 11 Ma🤖 cs.AI

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

本文提出了 GateLens，一种通过引入关系代数作为自然语言与可执行代码间的形式化中间表示，以解决大型语言模型在复杂表格数据分析中推理与代码生成差距的架构，并在汽车软件发布分析场景中验证了其在准确性、速度及零样本适应性上优于传统链式思维方法的显著优势。

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

本文从决策理论的后果主义视角出发，批判了机器学习领域过度依赖固定阈值评估的现状，提出应优先采用 Brier 分数等严格评分规则，并通过构建决策框架、开发 Python 工具包及改进算法来弥合理论与实践的差距。

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. WilsonWed, 11 Ma🤖 cs.AI

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

本文提出了 MCP Bridge，这是一种轻量级、与 LLM 无关的 RESTful 代理，旨在解决 MCP 服务器在移动端和浏览器等资源受限环境中无法通过 STDIO 运行的问题，同时结合基于风险的执行安全模型，并通过使用四种强化学习技术微调 Qwen3 模型，使其在 MCPToolBench++ 基准测试中取得了超越更大规模模型的性能。

Arash Ahmadi, Sarah Sharif, Yaser M. BanadWed, 11 Ma🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

该论文提出了步式引导策略优化（SGPO）框架，通过引入步式评判模型增强组内响应多样性，有效解决了 GRPO 在全部样本错误时无法更新策略的局限性，从而提升了大语言模型在推理任务中的训练效率与性能。

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

Let's Verify Math Questions Step by Step

本文提出了名为 MathQ-Verify 的五阶段流水线，通过格式验证、形式化分解、逻辑矛盾检测及目标完整性检查等步骤，有效识别并过滤数学问题中的无效或定义不清情况，从而显著提升了数学数据集的可靠性与模型验证性能。

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao ZhangWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

本文提出了 UltraEdit，这是一种无需训练、主体和记忆的高效终身模型编辑方法，通过单步参数更新和终身归一化策略，在显著降低显存需求的同时实现了超大规模编辑，并构建了包含 200 万编辑对的 UltraEditBench 数据集以验证其卓越性能。

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

本文提出了名为 SATURN 的基于布尔可满足性（SAT）问题的强化学习框架，通过构建可扩展、可验证且难度可控的 SAT 任务课程，有效提升了大语言模型在 SAT 求解及数学、编程等通用推理任务中的表现。

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong DongWed, 11 Ma🤖 cs.AI

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

本文提出了名为 Daily-Omni 的音频 - 视觉问答基准，旨在评估大语言模型在跨模态时序对齐方面的能力，并通过大规模实验揭示了当前端到端模型在处理此类同步推理任务时仍面临显著挑战。

Ziwei Zhou, Rui Wang, Zuxuan Wu, Yu-Gang JiangWed, 11 Ma🤖 cs.AI

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

本文提出了名为 TSRating 的统一框架，通过利用大语言模型（LLM）的预训练知识进行质量判断，并结合元学习与 signSGD 优化策略训练专用评分模型 TSRater，从而实现对跨领域多样化时间序列数据的高效、准确且具备强适应性的质量评级。

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong NgWed, 11 Ma🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

本文提出了名为 CORA 的基于合作博弈论核心分配的多智能体强化学习信用分配方法，通过评估联盟边际贡献并结合截断双 Q 学习来高效估算联盟优势，从而解决传统全局优势共享导致的优化不足问题，在多个基准测试中显著提升了多智能体协作性能。

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang LiWed, 11 Ma🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

该论文提出了名为 ChannelTokenFormer 的 Transformer 框架，旨在通过统一处理通道依赖、异步采样和缺失值这三大现实挑战，显著提升多变量时间序列预测在复杂真实场景下的鲁棒性与准确性。

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup KimWed, 11 Ma🤖 cs.AI