cs.LG 篇论文 | Gist.Science

GNN For Muon Particle Momentum estimation

该论文提出利用图神经网络（GNN）进行 CMS 实验中缪子动量估计，通过两种图构建方法证明了 GNN 在捕捉数据复杂依赖关系方面优于 TabNet 模型，并强调了节点特征维度对模型效率的关键作用。

Vishak K Bhat, Eric A. F. Reinhardt, Sergei Gleyzer2026-03-10🤖 cs.LG

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

该论文提出了一种结合可解释人工智能（XAI）与少样本学习（FSL）的混合分类模型，通过集成孪生网络和原型网络并利用 Grad-CAM 增强可解释性，在数据受限条件下实现了对玉米、水稻和小麦叶片病害阶段的高精度识别与透明化诊断。

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

该论文针对现有图表智能在深度研究能力上的不足，提出了通过并行相对策略优化（PRPO）解决训练冲突的框架，并构建了基于“误差唯一性”原则的 MCDR-Bench 评测基准，从而系统性地提升了大型视觉语言模型在图表深度分析中的协同训练与客观评估能力。

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

One step further with Monte-Carlo sampler to guide diffusion better

该论文提出了一种名为 ABMS 的即插即用策略，通过引入额外的反向去噪步骤和蒙特卡洛采样来降低后验采样的估计误差，从而在无需重新训练的情况下显著提升基于随机微分方程的生成模型在多种条件生成任务中的引导效果与样本质量。

Minsi Ren, Wenhao Deng, Ruiqi Feng, Tailin Wu2026-03-10🤖 cs.LG

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

该论文提出了一种基于卷积滤波与优化早停策略的无监督深度学习框架，成功在缺乏训练数据且信噪比极低的条件下实现了离子束图像的高保真去噪与重建，将束流晕的可测量范围扩展至七倍标准差以上。

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Soft Equivariance Regularization for Invariant Self-Supervised Learning

该论文提出了一种名为软等变性正则化（SER）的即插即用方法，通过在中间特征层而非最终嵌入层施加等变性约束，在保持自监督学习不变性优势的同时有效提升了模型对几何扰动的鲁棒性及下游任务性能。

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

On the Generalization Capacities of MLLMs for Spatial Intelligence

该论文指出仅依赖 RGB 输入的 MLLM 因忽略相机参数而难以泛化，并提出通过注入相机内参、引入相机感知数据增强及蒸馏几何先验的“相机感知 MLLM"框架，显著提升了模型在跨相机场景下的空间推理泛化能力。

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

该研究通过将共形预测框架应用于全日面太阳耀斑回归预测，对比了共形预测、分位数回归与共形化分位数回归三种方法，结果表明共形化分位数回归在覆盖率和区间长度方面表现最优，显著提升了空间天气预测的可靠性。

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

该论文提出了 ATLAS 框架，通过引入可学习的上下文控制与基于评分标准的强化微调策略，使小语言模型能够在大型工具空间中高效执行长程任务，从而在有限的参数和上下文预算下达到接近前沿智能体的性能。

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG

From Statistical Fidelity to Clinical Consistency: Scalable Generation and Auditing of Synthetic Patient Trajectories

该研究提出了一种结合高保真生成与大规模自动审计的集成管道，利用大语言模型有效消除了合成电子健康记录中的临床不一致性，在确保隐私安全的同时显著提升了合成数据在下游任务中的实用性能。

Guanglin Zhou, Armin Catic, Motahare Shabestari, Matthew Young, Chaiquan Li, Katrina Poppe, Sebastiano Barbieri2026-03-10🤖 cs.LG

ProtAlign: Contrastive learning paradigm for Sequence and structure alignment

本文提出了 ProtAlign 框架，通过对比学习将蛋白质序列与结构映射到统一的嵌入空间，从而实现了跨模态检索并提升了功能预测与稳定性评估等下游任务的性能。

Aditya Ranganath, Hasin Us Sami, Kowshik Thopalli, Bhavya Kailkhura, Wesam Sakla2026-03-10🤖 cs.LG

Bi Directional Feedback Fusion for Activity Aware Forecasting of Indoor CO2 and PM2.5

该论文提出了一种双向反馈融合框架，通过联合建模室内环境演变与人类活动特征，并引入双时间尺度模块及复合损失函数，显著提升了室内二氧化碳和 PM2.5 浓度预测的准确性与可解释性。

Harshala Gammulle, Lidia Morawska, Sridha Sridharan, Clinton Fookes2026-03-10🤖 cs.LG

Regression Models Meet Foundation Models: A Hybrid-AI Approach to Practical Electricity Price Forecasting

本文提出了名为 FutureBoosting 的混合 AI 框架，通过将冻结的时间序列基础模型生成的预测特征融入回归模型，有效克服了单一模型在捕捉跨变量关联与历史驱动因素方面的局限，从而在电价预测任务中显著提升了预测精度与可解释性。

Yunzhong Qiu, Binzhu Li, Hao Wei, Shenglin Weng, Chen Wang, Zhongyi Pei, Mingsheng Long, Jianmin Wang2026-03-10🤖 cs.LG

Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment

本文提出了一种名为"Safe Transformer"的模块化方法，通过在 Transformer 层间插入包含显式安全位的离散信息瓶颈，利用对比学习实现安全决策的可解释性与可控制性，仅需轻量级微调即可在保持生成能力的同时显著降低攻击成功率。

Jingyuan Feng, Andrew Gambardella, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo2026-03-10🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

本文介绍了 Orion，这是首个能够绕过 CoreML 直接利用苹果神经引擎（ANE）进行大语言模型训练与推理的开源端到端系统，它通过揭示并规避 ANE 的 20 项限制、实现权重热更新以将每步训练时间缩短 8.5 倍，并在 M4 Max 设备上成功实现了 GPT-2 的高效推理及 1.1 亿参数模型的稳定训练。

Ramchand Kumaresan2026-03-10🤖 cs.LG

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

该论文提出了一种结合密度不变观测编码、密度随机化训练及物理信息近距奖励塑造的强化学习方法，有效解决了密集人群导航中因分布外密度导致的泛化失效问题，在显著减少冻结现象的同时实现了零样本密度泛化与高碰撞避免率。

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

PolyBlocks: A Compiler Infrastructure for AI Chips and Programming Frameworks

本文介绍了 PolyBlocks，这是一个基于 MLIR 的模块化编译器基础设施，通过组合轻量级仿射分析与启发式成本模型自动执行多级分块、融合及算子映射等优化，实现了从高层框架到特定 AI 芯片的高效代码生成，并在 NVIDIA GPU 上的实验表明其性能可媲美甚至超越 Torch Inductor 和 XLA。

Uday Bondhugula, Akshay Baviskar, Navdeep Katel, Vimal Patel, Anoop JS, Arnab Dutta2026-03-10🤖 cs.LG

Calibrated Credit Intelligence: Shift-Robust and Fair Risk Scoring with Bayesian Uncertainty and Gradient Boosting

本文提出了“校准信用智能”（CCI）框架，通过结合贝叶斯神经网络、公平性约束梯度提升及分布偏移感知融合策略，在动态变化的信贷数据中实现了兼具高准确性、可靠校准性与群体公平性的风险评分。

Srikumar Nayak2026-03-10🤖 cs.LG

Rank-Factorized Implicit Neural Bias: Scaling Super-Resolution Transformer with FlashAttention

该论文提出了秩分解隐式神经偏置（RIB）以替代传统的相对位置偏置，从而在超分辨率 Transformer 中启用高效的 FlashAttention 并支持更大窗口与数据集的扩展，最终在显著提升重建质量（Urban100×2 达 35.63 dB PSNR）的同时，将训练和推理时间分别缩短了 2.1 倍和 2.9 倍。

Dongheon Lee, Seokju Yun, Jaegyun Im, Youngmin Ro2026-03-10🤖 cs.LG

Heterogeneous Decentralized Diffusion Models

该论文提出了一种高效且支持异构训练目标的去中心化扩散模型框架，通过结合异构训练范式、预训练检查点转换及 PixArt-alpha 架构，在显著降低计算与数据需求的同时，实现了比同质化基线更优的生成质量与多样性。

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG