wDPO: Winsorized Direct Preference Optimization for Robust LLM Alignment

本文提出了名为 wDPO 的鲁棒大语言模型对齐方法,通过利用 DPO 训练中的隐式边际信号实施分层干预策略(针对硬噪声进行数据级稀疏修正,针对模糊比较进行梯度级软截断),从而有效区分并处理不同类型的偏好噪声,显著提升了模型在含噪数据下的对齐质量与鲁棒性。

Jilong Liu, Yonghui Yang, Pengyang Shao, Haokai Ma, Wei Qin, Richang Hong2026-03-10🤖 cs.LG

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

该研究提出了一种基于 SonicGuard 可穿戴传感器和 Audio Spectrogram Transformer 模型的自动化肠音分割与分类系统,通过为健康人和患者分别训练专用模型,实现了高精度的肠音模式识别,显著减少了人工标注时间并为胃肠道功能提供了客观的定量评估工具。

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils Strodthoff2026-03-10🤖 cs.LG

Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

该论文通过构建高质量思维链蒸馏数据集 ODA-Fin-SFT-318k 和难例可验证强化学习数据集 ODA-Fin-RL-12k,证明了在金融垂直领域,数据的质量与难度分布对模型性能起决定性作用,并据此训练出的 ODA-Fin-RL-8B 模型在多项基准测试中超越了同规模开源金融大模型。

Chuxue Cao, Honglin Lin, Zhanping Zhong, Xin Gao, Mengzhang Cai, Conghui He, Sirui Han, Lijun Wu2026-03-10🤖 cs.LG

Conditional Rank-Rank Regression via Deep Conditional Transformation Models

该论文提出了一种基于深度条件变换模型(DCTM)和交叉拟合的改进型条件秩 - 秩回归方法,通过估计协变量调整后的条件秩来有效解决非线性、高阶交互及离散有序结果下的代际流动性测量难题,并建立了相应的渐近理论,在模拟与实证研究中均展现出优于传统方法的准确性与解释力。

Xiaoyi Wang, Long Feng, Zhaojun Wang2026-03-10🤖 cs.LG

LF2L: Loss Fusion Horizontal Federated Learning Across Heterogeneous Feature Spaces Using External Datasets Effectively: A Case Study in Second Primary Cancer Prediction

该研究针对肺癌幸存者二次原发癌症预测中本地数据受限及多源数据融合难题,提出了一种利用外部 SEER 数据并通过损失融合机制解决特征异构与隐私保护问题的水平联邦学习框架(LF2L),显著提升了模型的预测性能。

Chia-Fu Lin, Yi-Ju Tseng2026-03-10🤖 cs.LG