ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

该论文提出了 ActiveUltraFeedback,一种利用主动学习动态筛选高信息量样本以生成偏好数据的模块化流程,通过引入 DRTS 和 DeltaUCB 等新颖方法,仅用六分之一的标注数据即可实现与静态基线相当甚至更优的大语言模型对齐效果。

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas KrauseWed, 11 Ma🤖 cs.AI

A Multi-Prototype-Guided Federated Knowledge Distillation Approach in AI-RAN Enabled Multi-Access Edge Computing System

本文针对 AI-RAN 赋能的多接入边缘计算系统中联邦学习面临的非独立同分布数据挑战,提出了一种通过引入条件层次凝聚聚类与原型对齐机制的多原型引导联邦知识蒸馏(MP-FedKD)方法,有效克服了单原型策略的信息丢失问题并显著提升了模型精度。

Luyao Zou, Hayoung Oh, Chu Myaet Thwal, Apurba Adhikary, Seohyeon Hong, Zhu HanWed, 11 Ma🤖 cs.LG

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

该论文提出了一种名为“上下文强化学习验证(In-Context RLVR)”的新方法,通过利用模型自身的上下文学习能力生成“证据增益”信号来隐式地根据推理质量对奖励进行重加权,从而在无需外部评估器的情况下解决传统 RLVR 可能强化低质量推理路径的问题,显著提升了数学基准测试中的准确率与推理质量。

Tiehua Mei, Minxuan Lv, Leiyu Pan, Zhenpeng Su, Hongru Hou, Hengrui Chen, Ao Xu, Deqing YangWed, 11 Ma🤖 cs.LG

GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection

本文提出了梯度对齐稀疏微调(GAST)方法,通过统一优化策略在数据层和模型层两个维度上自适应地选择最具影响力的数据点与关键层,有效解决了现有参数高效微调方法忽视数据对不同层贡献差异的问题,并在实验中展现出优于基线的性能。

Kai Yao, Zhenghan Song, Kaixin Wu, Mingjie Zhong, Danzhao Cheng, Zhaorui Tan, Yixin Ji, Penglei GaoWed, 11 Ma🤖 cs.LG

CarbonBench: A Global Benchmark for Upscaling of Carbon Fluxes Using Zero-Shot Learning

本文介绍了 CarbonBench,这是首个旨在通过零样本空间迁移学习评估全球碳通量上模型性能的标准基准,它利用来自全球 567 个通量塔站的 130 多万条观测数据,提供了分层评估协议、统一特征集及多种基线模型,以推动机器学习与地球系统科学的融合及下一代气候建模的发展。

Aleksei Rozanov, Arvind Renganathan, Yimeng Zhang, Vipin KumarWed, 11 Ma🤖 cs.LG