cs.LG 篇论文 | Gist.Science

Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning

该论文提出了 Reward-Zero，一种利用语言嵌入将自然语言任务描述转化为密集语义进展信号的通用隐式奖励机制，旨在无需特定任务工程的情况下加速强化学习训练、提升泛化能力并解决复杂任务。

Heng Zhang, Haddy Alchaer, Arash Ajoudani, Yu She2026-03-11🤖 cs.LG

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

该论文针对图异常检测中的跨域泛化难题，提出了一种名为 TA-GGAD 的测试时自适应图基础模型，通过定义并建模“异常异配性”（Anomaly Disassortativity）特征失配问题，实现了仅需单次训练即可在多个不同领域图上达到最先进的检测精度。

Xiong Zhang, Hong Peng, Changlong Fu, Xin Jin, Yun Yang, Cheng Xie2026-03-11🤖 cs.AI

Interactive 3D visualization of surface roughness predictions in additive manufacturing: A data-driven framework

本文提出了一种数据驱动框架，通过结合多层感知机回归器与条件生成对抗网络来预测材料挤出增材制造中的表面粗糙度，并开发了交互式 3D 可视化决策支持系统，以在制造前直观评估不同工艺参数和朝向对零件表面质量的影响。

Engin Deniz Erkan, Elif Surer, Ulas Yaman2026-03-11🤖 cs.LG

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

该论文提出了一种结合差分隐私的零阶优化框架，将数据集压缩技术扩展至决策树和 Cox 回归等非可微临床模型，从而在保护患者隐私的同时实现了模型无关的临床数据共享。

Anshul Thakur, Soheila Molaei, Pafue Christy Nganjimi, Joshua Fieggen, Andrew A. S. Soltan, Danielle Belgrave, Lei Clifton, David A. Clifton2026-03-11🤖 cs.AI

From Representation to Clusters: A Contrastive Learning Approach for Attributed Hypergraph Clustering

本文提出了一种名为 CAHC 的端到端对比学习方法，通过结合节点与超边级别的对比学习目标以及聚类导向的联合优化，实现了属性超图嵌入学习与聚类结果的同步获取，从而在八个数据集上取得了优于现有基线的性能。

Li Ni, Shuaikang Zeng, Lin Mu, Longlong Lin2026-03-11🤖 cs.LG

Flow Field Reconstruction via Voronoi-Enhanced Physics-Informed Neural Networks with End-to-End Sensor Placement Optimization

本文提出了一种结合 Voronoi 增强传感器优化的物理信息神经网络（VSOPINN），通过可微 Voronoi 构建与端到端传感器布局优化，显著提升了稀疏及故障条件下复杂流场的高保真重构精度与鲁棒性。

Renjie Xiao, Bingteng Sun, Yiling Chen, Lin Lu, Qiang Du, Junqiang Zhu2026-03-11🤖 cs.LG

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

本文提出了 SPAARS 框架，通过结合课程学习策略，先在低维潜在空间进行安全高效的探索以规避重建损失带来的性能瓶颈，再无缝过渡到原始动作空间进行精细化利用，从而在离线到在线强化学习中显著提升了样本效率与最终性能。

Swaminathan S K, Aritra Hazra2026-03-11🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

该论文提出了全卷积扩散模型（FCDM），通过采用类似 ConvNeXt 的骨干网络，在显著降低计算成本、训练步数和硬件需求的同时，实现了与主流 Transformer 架构相媲美的生成性能，从而证明了现代卷积设计是高效扩展扩散模型的有效替代方案。

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

Reconstructing Movement from Sparse Samples: Enhanced Spatio-Temporal Matching Strategies for Low-Frequency Data

本文针对稀疏采样 GPS 数据在密集城市环境中匹配路网时存在的效率与精度局限，提出了包含动态缓冲区、自适应观测概率、改进的时间评分函数及行为分析在内的四项算法优化策略，并通过米兰真实数据验证了其在提升计算效率与路径质量方面的显著成效。

Ali Yousefian, Arianna Burzacchi, Simone Vantini2026-03-11🤖 cs.LG

Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

本文通过颜色混合任务系统分析了马尔可夫决策过程（MDP）设计要素对强化学习仿真到现实迁移的影响，并验证了基于物理的动力学模型在严格精度约束下能显著提升工业过程控制的实际成功率。

Tatjana Krau, Jorge Mandlmaier, Tobias Damm, Frieder Heieck2026-03-11🤖 cs.LG

From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation

本文针对上下文多臂老虎机中的离线策略评估问题，提出了一种利用非参数模型构建权重以降低方差的非参数加权（NW）方法，并进一步结合奖励预测构建了模型辅助的非参数加权（MNW）估计器，在保持低偏差的同时显著提升了估计精度并优于现有技术。

Rong J. B. Zhu2026-03-11🤖 cs.LG

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

本文提出了变分混合专家路由（VMoER）框架，通过将贝叶斯推理限制在专家选择阶段，在几乎不增加计算成本的情况下，显著提升了大规模混合专家模型在不确定性量化、路由稳定性及分布外检测方面的表现。

Albus Yizhuo Li, Matthew Wicker2026-03-11🤖 cs.AI

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

本文提出了一种名为“时间条件归一化流（tcNF）”的新框架，通过利用自回归机制对时间序列中的复杂依赖关系和不确定性进行精确建模，从而实现高效且鲁棒的异常检测。

David Baumgartner, Helge Langseth, Kenth Engø-Monsen, Heri Ramampiaro2026-03-11🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

本文提出了 TrainDeeploy 框架，该框架在异构超低功耗片上系统（SoC）上实现了首个支持 CNN 和 Transformer 模型的端到端设备端微调流水线，通过结合选择性分层微调与低秩适应（LoRA）等参数高效策略，显著降低了极端边缘设备上的计算与内存开销。

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca Benini2026-03-11🤖 cs.LG

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

该论文揭示了语言模型在仅通过语义无关甚至内容相悖的忠实改写数据进行训练时，仍会隐式习得生成模型（教师模型）的特定偏好（如动物喜好），表明基于内容审查的过滤机制无法有效阻断此类“潜意学习”风险。

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)2026-03-11🤖 cs.LG

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

该论文提出了名为 EDA 的参数与数据高效框架，通过解耦架构、数据再生策略及样本选择机制，在显著降低训练成本的同时，有效解决了目标模型微调后推测解码性能下降的问题。

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

本文提出了 BRACE 算法，旨在解决带有不合规（Noncompliance）的 Bandit 问题中推荐福利与直接控制治疗目标不一致的矛盾，通过参数化相位倍增策略实现 IV 逆运算的矩阵认证与诚实结构区间估计，从而在保障统计有效性的同时，根据上下文同质性等条件灵活识别最优推荐或治疗策略。

Nicolás Della Penna2026-03-11🤖 cs.LG

cs.LG

Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

Interactive 3D visualization of surface roughness predictions in additive manufacturing: A data-driven framework

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

From Representation to Clusters: A Contrastive Learning Approach for Attributed Hypergraph Clustering

Flow Field Reconstruction via Voronoi-Enhanced Physics-Informed Neural Networks with End-to-End Sensor Placement Optimization

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Reconstructing Movement from Sparse Samples: Enhanced Spatio-Temporal Matching Strategies for Low-Frequency Data

Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Learning Bayesian and Markov Networks with an Unreliable Oracle

a-TMFG: Scalable Triangulated Maximally Filtered Graphs via Approximate Nearest Neighbors

cs.LG

Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

Interactive 3D visualization of surface roughness predictions in additive manufacturing: A data-driven framework

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

From Representation to Clusters: A Contrastive Learning Approach for Attributed Hypergraph Clustering

Flow Field Reconstruction via Voronoi-Enhanced Physics-Informed Neural Networks with End-to-End Sensor Placement Optimization

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Reconstructing Movement from Sparse Samples: Enhanced Spatio-Temporal Matching Strategies for Low-Frequency Data

Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

Compiler-First State Space Duality and Portable O(1)O(1)O(1) Autoregressive Caching for Inference

Learning Bayesian and Markov Networks with an Unreliable Oracle

a-TMFG: Scalable Triangulated Maximally Filtered Graphs via Approximate Nearest Neighbors

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference