cs.LG 篇论文 | Gist.Science

Ensuring Safety in Automated Mechanical Ventilation through Offline Reinforcement Learning and Digital Twin Verification

该论文提出了一种结合 Transformer 编码与保守强化学习（T-CQL）的新框架，通过引入临床导向的奖励函数和数字孪生验证，有效解决了机械通气自动化中忽视时间依赖性和安全性评估不足的问题，从而实现了更安全、个性化的重症患者呼吸支持决策。

Hang Yu, Huidong Liu, Qingchen Zhang, William Joy, Kateryna Nikulina, Andreas A. Schuppert, Sina Saffaran, Declan Bates2026-03-13🤖 cs.LG

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

该论文提出了一种结合伪标签继续预训练与监督微调的方法，利用 2 万条标注数据将 wav2vec2-bert-2.0 模型适配至斯瓦希里语自动语音识别任务，在 Common Voice 数据集上将词错率从基线的 8.3% 大幅降低至 3.24%，实现了当前学术界的最佳性能。

Hillary Mutisya, John Mugane2026-03-13⚡ eess

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

该论文提出了统一延续兴趣协议（UCIP），一种利用量子玻尔兹曼机将代理轨迹编码为密度矩阵并测量冯·诺依曼熵的框架，旨在通过检测潜在状态中的纠缠熵差异，在无需外部行为监控的情况下，从统计结构上可靠地区分以持续运作为终极目标的自主代理与仅将其作为工具性目标的代理。

Christopher Altman2026-03-13🤖 cs.AI

Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning

该论文通过构建“坚持或切换”评估框架，揭示了大型语言模型在多轮医疗对话中因过度顺从用户错误建议而表现出的“对话税”现象，即其诊断推理能力相比单轮基线显著下降，且频繁放弃正确诊断或安全 abstention 以迎合错误提示。

Kevin H. Guo, Chao Yan, Avinash Baidya, Katherine Brown, Xiang Gao, Juming Xiong, Zhijun Yin, Bradley A. Malin2026-03-13💬 cs.CL

ARROW: Augmented Replay for RObust World models

ARROW 是一种受神经科学启发的基于模型的持续强化学习算法，它通过引入包含短期和长期缓冲区的分布匹配回放机制，在显著降低内存需求的同时有效缓解了灾难性遗忘问题，并在 Atari 和 Procgen 等挑战性环境中展现出优于传统方法的性能。

Abdulaziz Alyahya, Abdallah Al Siyabi, Markus R. Ernst, Luke Yang, Levin Kuhlmann, Gideon Kowadlo2026-03-13🤖 cs.LG

Harnessing Data Asymmetry: Manifold Learning in the Finsler World

该论文提出了一种基于非对称芬斯勒几何的流形学习新框架，通过构建非对称距离度量并推广 t-SNE 和 UMAP 等算法，有效捕捉了传统对称方法所忽略的数据非均匀性信息，从而在各类数据集上实现了更高质量的嵌入表示。

Thomas Dagès, Simon Weber, Daniel Cremers, Ron Kimmel2026-03-13🤖 cs.LG

Zero-Shot Cross-City Generalization in End-to-End Autonomous Driving: Self-Supervised versus Supervised Representations

该论文通过对比监督与自监督视觉表征，揭示了端到端自动驾驶模型在跨城市零样本泛化中的显著差距，并证明自监督预训练能有效提升模型在不同道路拓扑和驾驶规则下的规划鲁棒性。

Fatemeh Naeinian, Ali Hamza, Haoran Zhu, Anna Choromanska2026-03-13🤖 cs.LG

A Stable Neural Statistical Dependence Estimator for Autoencoder Feature Analysis

该论文提出了一种基于正交密度比分解的稳定神经统计依赖估计器，通过引入高斯噪声辅助变量和变分高斯公式，克服了确定性自编码器中互信息难以度量的问题，实现了无需输入拼接且计算高效的特征分析。

Bo Hu, Jose C Principe2026-03-13🤖 cs.LG

ZTab: Domain-based Zero-shot Annotation for Table Columns

该论文提出了 ZTab 框架，通过利用领域配置生成伪表来微调大语言模型，从而在无需特定用户标注数据的情况下，有效解决了现有零-shot 模型在语义列类型检测中面临的大规模类型性能下降、表结构理解不足及隐私依赖等挑战。

Ehsan Hoseinzade, Ke Wang2026-03-13🤖 cs.LG

UniHetCO: A Unified Heterogeneous Representation for Multi-Problem Learning in Unsupervised Neural Combinatorial Optimization

本文提出了 UniHetCO，一种基于统一异构图表示的无监督神经组合优化框架，通过编码问题结构与约束并采用动态梯度加权策略，实现了在无需标签的情况下跨多种图节点子集选择问题的联合训练与高效求解。

Kien X. Nguyen, Ilya Safro2026-03-13🤖 cs.LG

Bridging Discrete Marks and Continuous Dynamics: Dual-Path Cross-Interaction for Marked Temporal Point Processes

该论文提出了 NEXTPP 框架，通过结合自注意力机制处理离散事件标记与神经微分方程建模连续时间演化，并利用交叉注意力模块实现两者的双向交互，从而有效解决了标记时序点过程中离散与连续依赖难以统一建模的问题，在多个真实数据集上显著优于现有最先进模型。

Yuxiang Liu, Qiao Liu, Tong Luo, Yanglei Gan, Peng He, Yao LIu2026-03-13🤖 cs.LG

HawkesRank: Event-Driven Centrality for Real-Time Importance Ranking

本文提出了名为 HawkesRank 的动态框架，该框架基于多元 Hawkes 点过程，通过区分外生驱动与内生放大机制来量化网络中的实时重要性，不仅将经典中心性指标视为其均值场极限，还在模拟和实证分析中展现出优于静态指标的性能。

Didier Sornette, Yishan Luo, Sandro Claudio Lera2026-03-13🔬 physics

Slack More, Predict Better: Proximal Relaxation for Probabilistic Latent Variable Model-based Soft Sensors

本文针对传统非线性概率隐变量模型因变分后验参数化导致的近似误差问题，提出了一种基于 Wasserstein 距离松弛优化目标的新型软传感器模型 KProxNPLVM，通过严格的理论推导与实验验证，证明了该方法能有效规避近似误差并显著提升预测精度。

Zehua Zou, Yiran Ma, Yulong Zhang, Zhengnan Li, Zeyu Yang, Jinhao Xie, Xiaoyu Jiang, Zhichao Chen2026-03-13🤖 cs.LG

Deep Learning Network-Temporal Models For Traffic Prediction

本文针对现有模型在多元时间序列预测中的局限性，提出了结合网络拓扑与时间模式的自定义图注意力网络（GAT）及微调多模态大语言模型（LLM），并通过真实网络数据集验证了 LLM 模型在整体预测性能上的优越性以及 GAT 模型在降低预测方差方面的优势。

Yufeng Xin, Ethan Fan2026-03-13🤖 cs.LG

Leveraging Phytolith Research using Artificial Intelligence

该论文提出了名为 Sorometry 的端到端人工智能管道，通过融合 ConvNeXt 与 PointNet++ 模型处理 2D 图像和 3D 点云数据，并结合贝叶斯混合建模，实现了植物硅酸体（phytoliths）的高通量自动化分类与群落组成分析，从而将传统耗时的显微分析转变为可规模化、标准化的“组学”级研究范式。

Andrés G. Mejía Ramón, Kate Dudgeon, Nina Witteveen, Dolores Piperno, Michael Kloster, Luigi Palopoli, Mónica Moraes R., José M. Capriles, Umberto Lombardo2026-03-13🧬 q-bio

Grammar of the Wave: Towards Explainable Multivariate Time Series Event Detection via Neuro-Symbolic VLM Agents

该论文提出了名为“知识引导的时间序列事件检测”的新任务，通过引入连接语言描述与物理数据的“事件逻辑树”（ELT）框架及神经符号视觉语言模型代理，实现了在极少标注数据下对多变量时间序列事件的精准检测与可解释推理，并有效缓解了大模型的幻觉问题。

Sky Chenwei Wan, Tianjun Hou, Yifei Wang, Xiqing Chang, Aymeric Jan2026-03-13🤖 cs.LG

Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

该论文从理论上证明了在 Softmax 自注意力机制中，归一化约束迫使模型在处理触发条件任务时必须产生“注意力汇”现象，并通过对比实验证实非归一化的 ReLU 注意力可避免此现象，从而确立了归一化是导致注意力汇的根本原因。

Yuval Ran-Milo2026-03-13🤖 cs.LG

KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

该论文针对基于图检索增强生成（GraphRAG）系统因依赖外部数据而面临的安全隐患，提出了一种名为 KEPo 的新型投毒攻击方法，通过构建伪造的知识演化路径将有毒事件注入知识图谱，从而有效误导大语言模型生成攻击者预设的有害回答，并在单目标和多目标攻击场景下均取得了优于现有方法的攻击成功率。

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang2026-03-13🤖 cs.LG

Sharpness-Aware Minimization for Generalized Embedding Learning in Federated Recommendation

该论文针对联邦推荐系统中因数据异构和稀疏性导致的通用物品嵌入学习困难问题，提出了一种名为 FedRecGEL 的新框架，通过从物品中心视角重构问题并结合锐度感知最小化技术，实现了更稳定的训练过程和更优的推荐性能。

Fengyuan Yu, Xiaohua Feng, Yuyuan Li, Changwang Zhang, Jun Wang, Chaochao Chen2026-03-13🤖 cs.LG

LongFlow: Efficient KV Cache Compression for Reasoning M

针对推理模型长输出场景下 KV 缓存占用高及现有压缩方法效率低的问题，本文提出了 LongFlow，一种基于当前查询中间结果进行高效重要性评估、无需额外存储且通过自定义融合算子实现的 KV 缓存压缩方法，在保持模型精度基本不变的同时实现了高达 80% 的缓存压缩和 11.8 倍的吞吐量提升。

Yi Su, Zhenxu Tian, Dan Qiao, Yuechi Zhou, Juntao Li, Min Zhang2026-03-13🤖 cs.LG