cs.LG 篇论文 | Gist.Science

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

该研究证实，利用大语言模型提取认知与语言特征并结合树集成机器学习算法，比直接让模型评分更能准确预测 K-5 数学和阅读题目的难度，从而为减少大规模实地测试提供了高效可行的替代方案。

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

该论文提出了一种仅依赖车载摄像头和传感器数据的视觉强化学习智能体，通过非对称演员 - 评论家框架在《Gran Turismo 7》中实现了无需外部定位的冠军级竞技表现。

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

该论文提出了一种将神经网络视为贝叶斯统计力学系统的线性响应框架，通过估计数据分布扰动下的局部 SGLD 采样响应，高效计算可分解为逐 Token 归因分数的“敏感性”，并利用响应矩阵的低秩结构成功分离了 300 万参数 Transformer 中的功能模块（如多词元头和归纳头）。

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

本文提出了一种名为 HetGL2R 的异构图学习框架，通过构建融合起终点流量、路径及网络拓扑的三分图与属性引导图，利用异构联合随机游走和 Transformer 编码器捕捉长程空间依赖与功能关联，从而有效提升了关键道路路段的排序性能。

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

该论文系统整合了2019至2025年间评估大语言模型与自主智能体的碎片化工作，提出了涵盖约60个基准的统一分类法，综述了智能体框架、跨领域应用及关键协作协议，并针对未来研究方向提出了具体建议。

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

本文提出了名为 StablePCA 的分布鲁棒框架，旨在从多源高维数据中提取共享的低维表示，并通过凸松弛与镜像近端算法解决其非凸优化难题，同时提供了评估松弛紧致性的数据依赖证书。

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

本文提出了一种针对异质时间平稳马尔可夫决策过程的个性化离线策略优化框架，通过引入个体潜变量构建异质模型并设计惩罚性悲观个性化策略学习（P4L）算法，在弱覆盖假设下实现了平均遗憾的快速收敛，并在模拟与真实数据中展现出优于现有方法的性能。

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

该论文利用可解释性技术分析知识蒸馏过程中内部电路的重构机制，发现学生模型（如 DistilGPT2）在保留功能行为的同时，会通过重组、压缩甚至丢弃教师模型组件来改变内部计算结构，并提出了基于影响加权的组件对齐指标以量化这种功能对齐。

Reilly Haskins, Benjamin Adams2026-03-10🤖 cs.LG

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

该论文提出了名为 Ready2Unlearn 的元学习优化方法，通过在训练阶段前瞻性地赋予模型“可遗忘就绪”状态，使其在面对未来的数据删除请求时，能够比传统反应式方法更高效、更规范地执行机器遗忘。

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

该论文介绍了利用 Apple Vision Pro 采集的 EgoDex 数据集，这是目前规模最大且最多样化的灵巧操作数据集，包含 829 小时带有同步 3D 手部追踪数据的沉浸式视频，旨在通过填补大规模数据空白来推动机器人模仿学习与基础模型的发展。

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

FreeKV 提出了一种无需训练的算法与系统协同优化框架，通过推测检索、细粒度校正及混合内存布局等创新技术，在保持大语言模型推理精度近乎无损的同时，将 KV 缓存检索效率提升了最高 13 倍。

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

Online Decision-Focused Learning

本文针对动态环境中决策导向学习（DFL）面临的梯度缺失与非凸性挑战，提出了两种结合正则化与扰动技术的在线算法，并首次为该问题建立了静态与动态 regret 理论保证，且在背包实验中的表现优于现有基准。

Aymeric Capitaine, Maxime Haddouche, Eric Moulines, Michael I. Jordan, Etienne Boursier, Alain Durmus2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

本文提出了 Vid2World 框架，通过系统性地重塑预训练视频扩散模型的架构与训练目标并引入因果动作引导机制，成功将其转化为能够生成高保真、可交互且具备动作可控性的通用世界模型，从而在机器人操作、3D 游戏模拟及开放世界导航等多个领域实现了高效应用。

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

本文提出了 MAS-ZERO，这是首个无需验证集即可在推理阶段通过元级设计自我演化、动态分解问题并自适应调整代理配置的自动多智能体系统框架，在多种任务中显著超越了现有手动及自动基线方法。

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

该论文提出了首个将硬件描述语言（HDL）固有图特征（如抽象语法树和数据流图）与检索增强生成（RAG）相结合的 HDLxGraph 框架，并发布了基于真实项目的 HDLSearch 基准数据集，有效解决了现有 RAG 在处理复杂 HDL 项目时面临的结构性与词汇性不匹配问题，显著提升了搜索、调试和代码补全的准确率。

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

针对现有协同学习基准忽视真实世界数据孤岛中表连接与对齐等端到端数据管理流程的不足，本文构建了基于 10 万个真实关系数据库的 WikiDBGraph 基准套件，以评估并揭示现有方法在复杂异构数据环境下的局限性及改进方向。

Zhaomin Wu, Ziyang Wang, Bingsheng He2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

本文提出了基于非回合制游戏 Agar.io 的持续强化学习研究平台 AgarCL，该平台通过高维、随机且动态演化的环境为智能体提供了渐进式行为发展的测试场，并通过对多种算法的评估揭示了 AgarCL 所面临的挑战超越了传统的稳定性 - 可塑性困境。

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

X-MethaneWet: A Cross-scale Global Wetland Methane Emission Benchmark Dataset for Advancing Science Discovery with AI

本文提出了首个跨尺度全球湿地甲烷排放基准数据集 X-MethaneWet，该数据集融合了物理模型模拟与实地观测数据，并通过评估深度学习模型及迁移学习策略，为利用人工智能提升全球甲烷通量建模精度与科学发现提供了新途径。

Yiming Sun, Shuo Chen, Shengyu Chen, Chonghao Qiu, Licheng Liu, Youmi Oh, Sparkle L. Malone, Gavin McNicol, Qianlai Zhuang, Chris Smith, Yiqun Xie, Xiaowei Jia2026-03-10🤖 cs.LG

Maximum Principle of Optimal Probability Density Control

该论文建立了一个针对无限维概率分布空间的最优控制最大原理与哈密顿 - 雅可比 - 贝尔曼方程的通用理论框架，并提出了结合深度神经网络的扩展数值算法，以有效解决包含障碍物和智能体交互的大规模多智能体控制问题。

Nathan Gaby, Xiaojing Ye2026-03-10🤖 cs.LG

VISTA: Vision-Language Inference for Training-Free Stock Time-Series Analysis

本文提出了名为 VISTA 的免训练框架，通过结合文本与图表多模态信息并利用思维链提示引导视觉语言模型，在零样本设置下实现了显著优于传统统计模型及单模态方法的股票价格预测性能。

Tina Khezresmaeilzadeh, Parsa Razmara, Seyedarmin Azizi, Mohammad Erfan Sadeghi, Erfan Baghaei Potraghloo2026-03-10🤖 cs.LG