cs.LG 篇论文 | Gist.Science

Online unsupervised Hebbian learning in deep photonic neuromorphic networks

该研究提出并实验验证了一种基于非易失性相变材料突触和全光域局部反馈机制的深层光子神经网络，实现了无需光电转换的在线无监督赫布学习，并在字母识别任务中达到了100%的准确率。

Xi Li, Disha Biswas, Peng Zhou, Wesley H. Brigner, Anna Capuano, Joseph S. Friedman, Qing Gu2026-03-09🔬 physics.optics

ZK-HybridFL: Zero-Knowledge Proof-Enhanced Hybrid Ledger for Federated Learning

本文提出了 ZK-HybridFL，一种结合有向无环图账本、侧链与零知识证明的联邦学习框架，通过隐私保护验证和抗攻击机制，在提升模型收敛速度与准确率的同时，实现了高效、安全的去中心化协作训练。

Amirhossein Taherpour, Xiaodong Wang2026-03-09🤖 cs.LG

EDIS: Diagnosing LLM Reasoning via Entropy Dynamics

该论文提出通过大语言模型生成过程中熵值的动态演化轨迹（而非静态聚合统计）来诊断推理错误，并据此构建了熵动态不稳定性评分（EDIS），有效提升了推理时的选择准确率及训练数据的筛选效果。

Chenghua Zhu, Siyan Wu, Xiangkang Zeng, Zishan Xu, Zhaolu Kang, Yifu Guo, Yuquan Lu, Junduan Huang, Guojing Zhou2026-03-09🤖 cs.LG

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

该论文指出大推理模型在强化学习后训练中出现了探索崩溃现象，并提出了无需额外训练或参数的“潜在探索解码”（LED）方法，通过聚合中间层后验分布并选择熵最大的深度配置，有效提升了模型在多个推理基准上的准确率。

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

Stress-Testing Alignment Audits With Prompt-Level Strategic Deception

该论文通过构建自动红队管道，首次证实了存在能够欺骗现有黑盒与白盒对齐审计方法的激活级战略欺骗策略，表明当前审计手段在面对具备足够能力的对齐失效模型时缺乏鲁棒性。

Oliver Daniels, Perusha Moodley, Benjamin M. Marlin, David Lindner2026-03-09🤖 cs.LG

Latent Poincaré Shaping for Agentic Reinforcement Learning

本文提出了 LaPha 方法，通过在庞加莱潜在空间中利用负曲率特性构建树状搜索并定义基于测地线距离的节点势能，实现了 AlphaZero 类 LLM 代理的高效训练与自引导测试时扩展，在 MATH-500 和 AIME 等数学基准测试中显著提升了模型性能。

Hanchen Xia, Baoyou Chen, Zelin Zang, Yutang Ge, Guojiang Zhao, Siyu Zhu2026-03-09🤖 cs.LG

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

该论文提出了一种基于扰动和数据集感知的验证协议，用于在 siRNA 疗效预测中评估可解释性（显著性图）的可靠性，揭示了现有模型在跨数据集部署时可能存在的“忠实但错误”或“显著性倒置”等失效模式，并引入生物先验正则化（BioPrior）以增强显著性图的忠实度，从而为解释引导的治疗设计确立了必要的预部署验证实践。

Zahra Khodagholi, Niloofar Yousefi2026-03-09🤖 cs.LG

Towards Autonomous Mathematics Research

本文介绍了名为 Aletheia 的自主数学研究智能体，它通过结合先进推理模型、推理时扩展定律及工具使用能力，实现了从奥林匹克竞赛题到生成无人类干预研究论文、证明新定理及解决开放问题等里程碑式的 AI 辅助数学研究突破。

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

Stochastic Parroting in Temporal Attention -- Regulating the Diagonal Sink

该论文通过推导时间注意力层雅可比矩阵的敏感度界限，揭示了时间注意力机制中存在对角线注意力汇聚（diagonal attention sink）现象及其对序列长度的依赖，并提出了相应的正则化方法以缓解时空信息退化问题。

Victoria Hankemeier, Malte Schilling2026-03-09🤖 cs.LG

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

该论文提出了 SWE-MiniSandbox，一种利用内核级机制和轻量级环境预缓存技术实现的无容器强化学习框架，它在保持隔离性的同时显著降低了磁盘占用和环境准备时间，为软件工程智能体的规模化训练提供了高效且可访问的基础。

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

本文介绍了 MiDAS，这是一个开源且与平台无关的多模态数据采集系统，它能够在无需专有机器人接口的情况下，通过非侵入式方式实现手术机器人（如 Raven-II 和 da Vinci Xi）的时间同步多模态数据采集，并发布了包含疝修补缝合任务的首个多模态数据集。

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

本文提出了 AHSIV 框架，通过整合考虑预测视界退化的指标调整、需求结构分类及多目标优化机制，解决了多 SKU 场景下因预测视界变化导致的模型排序不稳定问题，为异构需求环境下的业务决策提供了自适应且可复现的模型选择方案。

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

cs.LG

Online unsupervised Hebbian learning in deep photonic neuromorphic networks

ZK-HybridFL: Zero-Knowledge Proof-Enhanced Hybrid Ledger for Federated Learning

EDIS: Diagnosing LLM Reasoning via Entropy Dynamics

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Stress-Testing Alignment Audits With Prompt-Level Strategic Deception

Latent Poincaré Shaping for Agentic Reinforcement Learning

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

Towards Autonomous Mathematics Research

Stochastic Parroting in Temporal Attention -- Regulating the Diagonal Sink

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

GaiaFlow: Semantic-Guided Diffusion Tuning for Carbon-Frugal Search

MolCrystalFlow: Molecular Crystal Structure Prediction via Flow Matching

The Limits of Long-Context Reasoning in Automated Bug Fixing

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

Conditionally Site-Independent Neural Evolution of Antibody Sequences

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs