cs.LG 篇论文 | Gist.Science

Disjunctive Branch-and-Bound for Certifiably Optimal Low-Rank Matrix Completion

该论文提出了一种基于凸松弛和分支定界的新框架，将低秩矩阵补全问题转化为可证明最优解的凸优化问题，从而在显著缩小最优性间隙的同时，大幅降低了测试集误差。

Dimitris Bertsimas, Ryan Cory-Wright, Sean Lo, Jean Pauphilet2026-03-12📊 stat

Mindstorms in Natural Language-Based Societies of Mind

本文提出并实验了基于自然语言的大规模多模态神经网络“社会”（NLSOMs），通过让多个智能体以自然语言进行“头脑风暴”协作，有效解决了视觉问答、图像生成及具身 AI 等多种任务，并探讨了此类异构智能体社会的未来社会结构与治理机制。

Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Pi\k{e}kos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanic, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber2026-03-12💬 cs.CL

Riemannian Laplace Approximation with the Fisher Metric

本文指出基于 Fisher 度量的黎曼拉普拉斯近似在无限数据极限下仍存在偏差和过窄问题，并提出了两种修正变体，使其在保持计算高效的同时实现无限数据下的精确性，从而在理论和实验上均优于现有方法。

Hanlin Yu, Marcelo Hartmann, Bernardo Williams + 2 more2026-03-12🤖 cs.LG

Large Language Models for Travel Behavior Prediction

该研究提出了两种利用大语言模型进行出行行为预测的框架（零样本提示与文本嵌入结合传统模型），实证结果表明其性能可媲美甚至超越传统数值模型，为出行需求管理提供了灵活且数据高效的替代方案。

Baichuan Mo, Hanyong Xu, Ruoyun Ma, Jung-Hoon Cho, Dingyi Zhuang, Xiaotong Guo, Jinhua Zhao2026-03-12💬 cs.CL

Optimal Transport Aggregation for Distributed Mixture-of-Experts

该论文提出了一种基于最优传输的分布式混合专家模型聚合框架，通过最小化传输散度将本地模型高效整合为全局估计器，仅需单次通信即可在保持模型结构的同时实现媲美集中式训练的性能并显著降低计算成本。

Faïcel Chamroukhi, Nhat Thien Pham2026-03-12📊 stat

Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

本文提出了通信高效的 MFedMC 框架，通过解耦模态编码器与融合模块，并结合基于 Shapley 值、编码器大小及更新频率的模态选择策略与基于本地损失的客户端选择策略，有效解决了多模态联邦学习中数据异构与通信受限的挑战，在保持精度的同时将通信开销降低了 20 倍以上。

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. Brinton2026-03-12🤖 cs.LG

Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment

本文提出了一种名为 HyWIA 的新型大语言模型结构化剪枝方法，通过注意力机制自适应地融合细粒度与粗粒度的权重重要性评估，从而在显著压缩模型的同时有效缓解了现有方法导致的下游任务性能下降问题。

Jun Liu, Zhenglun Kong, Pu Zhao + 9 more2026-03-12💬 cs.CL

Fast Fishing: Approximating BAIT for Efficient and Scalable Deep Active Image Classification

本文提出了两种基于期望近似和二元分类任务构建的优化方法，显著降低了 BAIT 主动学习策略的计算复杂度与内存需求，使其能够高效扩展至 ImageNet 等大规模图像分类任务，并提供了相应的开源工具箱。

Denis Huseljic, Paul Hahn, Marek Herde + 2 more2026-03-12🤖 cs.LG

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

本研究利用 28 年长期监测数据，应用可解释机器学习技术（特别是随机森林模型）成功预测了亚得里亚海特里雅斯特湾贻贝的腹泻性贝类毒素（DSP）事件，并识别出关键致毒藻种及环境因素，为优化早期预警系统和促进可持续水产养殖提供了重要依据。

Martin Marzidovšek, Janja Francé, Vid Podpečan + 3 more2026-03-12🤖 cs.AI

Exploratory Optimal Stopping: A Singular Control Formulation

本文从强化学习视角出发，通过引入随机停止时间和累积剩余熵正则化，将连续时空最优停止问题转化为有限燃料奇异随机控制问题，进而利用动态规划原理确定最优探索策略，并提出了具有策略改进保证且适用于高维场景的模型基与模型无关（Actor-Critic）强化学习算法。

Jodi Dianetti, Giorgio Ferrari, Renyuan Xu2026-03-12💰 q-fin

Mamba Neural Operator: Who Wins? Transformers vs. State-Space Models for PDEs

该论文提出了 Mamba 神经算子（MNO），通过建立结构化状态空间模型与神经算子之间的理论联系，克服了 Transformer 在捕捉连续动态和长程依赖方面的局限，从而为偏微分方程求解提供了比传统 Transformer 更高效且准确的统一框架。

Chun-Wun Cheng, Jiahao Huang, Yi Zhang, Guang Yang, Carola-Bibiane Schönlieb, Angelica I. Aviles-Rivero2026-03-12🤖 cs.LG

EarthquakeNPP: A Benchmark for Earthquake Forecasting with Neural Point Processes

该论文提出了名为 EarthquakeNPP 的基准测试平台，旨在通过引入更严谨的数据集和评估协议来弥补现有神经点过程（NPP）基准的缺陷，实验结果表明当前测试的 NPP 模型在加州地震预测任务中均未能超越经典的 ETAS 模型，暗示其尚未具备实际预报能力。

Samuel Stockman, Daniel Lawson, Maximilian Werner2026-03-12🔬 physics

Losing dimensions: Geometric memorization in generative diffusion

该论文提出了一种几何记忆理论，揭示扩散模型在训练数据稀缺时会经历从泛化到精确复制的平滑过渡，其过程表现为特征按显著性顺序逐步“冻结”，最终导致模型坍缩至少数低能态配置。

Beatrice Achilli, Enrico Ventura, Gianluigi Silvestri, Bao Pham, Gabriel Raya, Dmitry Krotov, Carlo Lucibello, Luca Ambrogioni2026-03-12📊 stat

Enhancing Brain Source Reconstruction by Initializing 3D Neural Networks with Physical Inverse Solutions

本文提出了一种名为 3D-PIUNet 的新型混合方法，通过结合物理逆解初始化与 3D 卷积 U-Net 的数据驱动优化，显著提升了脑电图（EEG）源定位的空间精度，并在模拟与真实视觉任务数据中验证了其优越性能。

Marco Morik, Ali Hashemi, Klaus-Robert Müller, Stefan Haufe, Shinichi Nakajima2026-03-12⚡ eess

Class Incremental Learning with Task-Specific Batch Normalization and Out-of-Distribution Detection

该论文提出了一种结合任务特定批归一化与分布外检测的新型持续学习框架，通过为每个任务头引入“未知”类来预测任务 ID，从而在无需访问旧数据的情况下有效平衡了类增量学习中的可塑性与稳定性，并在多个医学及自然图像数据集上取得了最先进性能。

Zhiping Zhou, Xuchen Xie, Yiqiao Qiu, Run Lin, Weishi Zheng, Ruixuan Wang2026-03-12🤖 cs.LG

Conditional Local Importance by Quantile Expectations

本文提出了一种名为 CLIQUE 的新颖模型无关方法，通过量化期望来捕捉局部依赖关系，从而克服了 LIME 和 SHAP 等现有方法在反映局部变量交互及多分类问题上的局限性，并有效降低了预测偏差。

Kelvyn K. Bladen, Adele Cutler, D. Richard Cutler, Kevin R. Moon2026-03-12📊 stat

A Novel Single-Layer Quantum Neural Network for Approximate SRBB-Based Unitary Synthesis

本文提出了一种基于标准递归块基（SRBB）的新型单层量子神经网络，通过利用李代数及其拓扑特性将单位算符的参数化扩展至单层近似，并显著减少了 CNOT 门数量，从而实现了高效且可扩展的任意单位演化近似合成。

Giacomo Belli, Marco Mordacci, Michele Amoretti2026-03-12⚛️ quant-ph

Pairwise Comparisons without Stochastic Transitivity: Model, Theory and Applications

本文提出了一种不依赖随机传递性假设的广义成对比较统计模型，该模型利用低维斜对称矩阵刻画比较概率，并开发了具备稀疏数据适应性与极小化极大最优性的估计方法，从而在理论与实证上显著超越了传统的 Bradley-Terry 等模型。

Sze Ming Lee, Yunxiao Chen2026-03-12📊 stat

Particle Trajectory Representation Learning with Masked Point Modeling

本文提出了基于掩码点建模的自监督学习框架 PoLAr-MAE，通过利用未标记的液氩时间投影 chamber（LArTPC）数据学习物理意义明确的轨迹表示，仅需极少量标注样本即可实现媲美超大规模监督训练的性能，并释放了包含 100 万个事件的大规模数据集 PILArNet-M 以推动该领域基础模型的发展。

Sam Young, Yeon-jae Jwa, Kazuhiro Terao2026-03-12⚛️ hep-ex

Graph machine learning for flight delay prediction due to holding manouver

本研究利用图机器学习技术（对比了增强图特征的 CatBoost 与图注意力网络 GAT）将因等待机动导致的航班延误预测建模为图问题，发现 CatBoost 在预测不平衡数据时表现更优，并开发了实时 Web 工具以辅助提升航空运营效率。

Jorge L. Franco, Manoel V. Machado Neto, Filipe A. N. Verri + 1 more2026-03-12🤖 cs.LG