Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

该论文提出了个性化组相对策略优化(P-GRPO)框架,通过将优势估计与当前批次统计解耦并基于特定偏好群体的奖励历史进行归一化,有效解决了标准 GRPO 在异质偏好对齐中因假设样本可交换而导致的偏差问题,从而实现了对多样化用户偏好的更快速收敛和更精准对齐。

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

LWM-Temporal: Sparse Spatio-Temporal Attention for Wireless Channel Representation Learning

本文提出了 LWM-Temporal,这是一种面向无线信道时空特性的任务无关基础模型,它通过引入符合物理传播规律的稀疏时空注意力机制(SSTA)和基于物理信息的自监督预训练策略,显著降低了计算复杂度并学习到了可迁移的通用信道表征,从而在多种移动性场景下的信道预测任务中实现了优于基线的性能。

Sadjad Alikhani, Akshay Malhotra, Shahab Hamidi-Rad, Ahmed Alkhateeb2026-03-12🤖 cs.LG

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

该论文在 NetSecGame 环境中评估了自主网络攻击代理在目标 IP 地址重分配场景下的泛化能力,发现尽管提示驱动的预训练大语言模型在未见地址空间下取得了最高成功率,但传统元学习代理仅表现出部分迁移能力,且所有方法均面临推理成本、可解释性或执行稳定性等方面的显著权衡。

Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian Garcia2026-03-12💻 cs

Gated Adaptation for Continual Learning in Human Activity Recognition

本文提出了一种基于通道门控调制的参数高效持续学习框架,通过冻结预训练骨干网络并仅学习对角缩放因子,在无需数据回放的情况下有效平衡了人类活动识别中的稳定性与可塑性,显著降低了灾难性遗忘并提升了模型在连续新主体任务上的最终准确率。

Reza Rahimi Azghan, Gautham Krishna Gudur, Mohit Malu, Edison Thomaz, Giulia Pedrielli, Pavan Turaga, Hassan Ghasemzadeh2026-03-12🤖 cs.LG

InFusionLayer: a CFA-based ensemble tool to generate new classifiers for learning and modeling

本文介绍了名为 InFusionLayer 的开源 Python 工具,该工具基于组合融合分析(CFA)中的秩分特征函数和认知多样性,构建了一种通用的机器学习架构,旨在通过融合多个基模型来优化监督与无监督的多分类问题,并已在多种计算机视觉数据集上验证了其易用性与有效性。

Eric Roginek, Jingyan Xu, D. Frank. Hsu2026-03-12🤖 cs.LG

Training Language Models via Neural Cellular Automata

该论文提出利用神经细胞自动机生成可控且廉价的合成非语言数据对大语言模型进行“预预训练”,结果发现仅使用 1.64 亿个合成 token 即可在语言建模和推理任务上取得优于 16 亿自然语言 token 预训练的效果,并揭示了注意力层的高可迁移性及不同领域对合成数据复杂度的差异化需求。

Dan Lee, Seungwook Han, Akarsh Kumar, Pulkit Agrawal2026-03-12🤖 cs.LG