cs.LG 篇论文 | Gist.Science

Fairness May Backfire: When Leveling-Down Occurs in Fair Machine Learning

该论文通过统一的贝叶斯框架分析表明，在属性感知场景下公平性约束能改善弱势群体结果，但在属性盲场景下，公平性可能导致“向下拉平”现象，使一个或两个群体的结果同时恶化。

Yi Yang, Xiangyu Chang, Pei-yu Chen2026-03-10🤖 cs.LG

XGenBoost: Synthesizing Small and Large Tabular Datasets with XGBoost

本文提出了 XGenBoost，一种基于 XGBoost 的生成模型框架，通过结合去噪扩散隐式模型与分层自回归模型，分别针对小规模和大规模混合类型表格数据实现了优于现有神经及树基模型且训练成本更低的合成效果。

Jim Achterberg, Marcel Haas, Bram van Dijk, Marco Spruit2026-03-10🤖 cs.LG

A Dynamic Self-Evolving Extraction System

本文提出了 DySECT（动态自演进提取与整理工具包），这是一个通过构建自扩展知识库并利用图推理与概率知识不断反哺大语言模型，从而在结构化信息提取任务中实现“提取优化知识、知识反哺提取”的闭环自演进系统。

Moin Amin-Naseri, Hannah Kim, Estevam Hruschka2026-03-10🤖 cs.LG

CN-CBF: Composite Neural Control Barrier Function for Safe Robot Navigation in Dynamic Environments

本文提出了一种名为 CN-CBF 的复合神经控制障碍函数方法，通过结合基于哈密顿 - 雅可比可达性框架训练的单个障碍函数与残差神经网络架构，实现了在动态环境中安全且高效的机器人导航，并在仿真与硬件实验中显著提升了任务成功率。

Bojan Derajic, Sebastian Bernhard, Wolfgang Hönig2026-03-10🤖 cs.LG

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

本文提出了名为 NerVE 的统一特征谱动力学框架，通过四种轻量级指标深入解析大语言模型前馈网络（FFN）中非线性激活与优化器几何结构如何协同调控高维潜在空间的信息流与特征分布，从而为超越试错法的架构与优化器选择提供可解释的洞察。

Nandan Kumar Jha, Brandon Reagen2026-03-10🤖 cs.LG

Swimba: Switch Mamba Model Scales State Space Models

该论文提出了 Switch Mamba（Swimba）方法，通过在参数空间混合专家而非复制状态轨迹，实现了状态空间模型（SSM）的专家化扩展，从而在保持主导递归计算成本不变的前提下提升了模型容量。

Zhixu Du, Krishna Teja Chitty-Venkata, Murali Emani, Venkatram Vishwanath, Hai Helen Li, Yiran Chen2026-03-10🤖 cs.LG

Physics-Consistent Neural Networks for Learning Deformation and Director Fields in Microstructured Media with Loss-Based Validation Criteria

本文提出了一种基于物理一致性的神经网络方法，结合有限元法求解具有微结构的 Cosserat 弹性体平衡构型，并通过推导准凸性、秩一凸性及 Legendre-Hadamard 不等式等稳定性判据，构建了一套能够验证神经网络预测解能量稳定性的物理约束框架。

Milad Shirani, Pete H. Gueldner, Murat Khidoyatov, Jeremy L. Warren, Federica Ninno2026-03-10🤖 cs.LG

Joint MDPs and Reinforcement Learning in Coupled-Dynamics Environments

该论文针对传统马尔可夫决策过程无法描述多动作反事实结果联合分布的局限，提出了联合马尔可夫决策过程（JMDP）这一新形式化框架，通过引入多动作采样转移模型来刻画耦合动力学环境，并推导了相应的贝尔曼算子及具有收敛保证的动态规划与增量算法。

Ege C. Kaya, Mahsa Ghasemi, Abolfazl Hashemi2026-03-10🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

该研究揭示了 DNA 基础模型生成的嵌入表示（尤其是 per-token 嵌入）存在严重隐私风险，攻击者可通过模型反演攻击近乎完美地重建原始基因组序列，从而表明在嵌入即服务（EaaS）框架广泛部署前亟需加强隐私保护设计。

Sofiane Ouaari, Jules Kreuer, Nico Pfeifer2026-03-10🤖 cs.LG

Not All Neighbors Matter: Understanding the Impact of Graph Sparsification on GNN Pipelines

该论文通过构建系统性实验框架，首次全面评估了图稀疏化在大规模图神经网络流水线中的应用，发现其不仅能显著加速训练与推理过程（如在 Products 图上实现 11.7 倍加速），还能在极小精度损失甚至提升模型性能的同时有效缓解数据移动瓶颈。

Yuhang Song, Naima Abrar Shami, Romaric Duvignau, Vasiliki Kalavri2026-03-10🤖 cs.LG

Post-Training with Policy Gradients: Optimality and the Base Model Barrier

该论文研究了基于策略梯度的后训练方法，证明了在基础模型具备非平凡似然时，该方法能以最优样本复杂度提升性能，但指出仅使用结果奖励会因基础模型支持集限制而遭遇指数级查询复杂度障碍，而引入过程奖励模型则能通过依赖令牌级似然分位数有效克服这一维度灾难。

Alireza Mousavi-Hosseini, Murat A. Erdogdu2026-03-10🤖 cs.LG

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

本文提出了名为 Chart-RL 的强化学习方法，通过引入数学可验证奖励机制，显著提升了视觉语言模型在图表问答任务中的泛化能力与推理性能，并证明训练数据的任务复杂度比数据数量更为关键。

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

Learning Quadruped Walking from Seconds of Demonstration

该论文通过理论分析揭示了四足机器人模仿学习在小样本下的有效性，并提出了一种新方法，仅需数秒演示即可离线训练出具备合理鲁棒性的行走策略。

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization

本文提出了一种基于 SISA（分片、隔离、切片和聚合）的机器遗忘框架，用于解决电力变压器匝间短路故障定位中因传感器故障导致训练数据中毒的问题，该方法通过仅重训受影响的分片模型，在保持与全量重训相当诊断精度的同时显著降低了重训时间。

Nanhong Liu, Jingyi Yan, Mucun Sun, Jie Zhang2026-03-10🤖 cs.LG

Topology-Aware Reinforcement Learning over Graphs for Resilient Power Distribution Networks

该研究提出了一种融合拓扑数据分析（特别是持久同调）的图强化学习框架，用于提升配电网在极端事件下的韧性，实验表明该方法能显著优化网络重构与负荷削减策略，从而在增加电力供应的同时减少电压越限并提升系统自愈能力。

Roshni Anna Jacob, Prithvi Poddar, Jaidev Goel, Souma Chowdhury, Yulia R. Gel, Jie Zhang2026-03-10🤖 cs.LG

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

本文提出了条件非平衡最优传输（CUOT）框架，通过引入 Csiszár 散度惩罚来缓解条件分布匹配中的硬约束，从而构建出一种对异常值具有鲁棒性且能保持高采样效率的条件生成模型 CUOTM。

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

本文提出了一种名为 NePPO 的新多智能体强化学习流程，通过学习玩家无关的势函数将混合合作 - 竞争环境转化为近似势博弈，从而在通用和博弈中有效计算近似纳什均衡，其性能优于 MAPPO、IPPO 和 MADDPG 等主流基线方法。

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

该论文提出了 Diffusion Controller (DiffCon) 框架，通过控制理论视角将扩散采样统一为线性可解马尔可夫决策过程，并据此推导了高效的强化学习微调算法与轻量级侧网络参数化方法，在保持骨干网络冻结的同时显著提升了扩散模型的偏好对齐效果与质量效率。

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

该论文揭示了仅基于平均处理效应（ATE）为零的监管标准存在“因果掩盖”漏洞，即优化算法可在满足该统计指标的同时通过混淆因素实施严重的不公平对待，且此类隐蔽的不公难以被检测，因此主张应将公平性监管从决策层面提升至模型层面。

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

该论文提出了一种利用多模态大语言模型在 AdaFlock 框架中自适应发现可解释音频属性的方法，通过以机器替代人工显著提升了属性发现效率，并在低资源音频分类任务中实现了优于直接预测的准确率与仅需 11 分钟的高效训练。

Kosuke Yoshimura, Hisashi Kashima2026-03-10🤖 cs.LG