Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

本文提出了一种基于开源大语言模型的“置信度感知细粒度辩论”(CFD)框架,通过模拟协作标注机制有效解决了心理健康与在线安全领域多标签数据标注困难的问题,并在引入新构建的专家标注数据集后,验证了该框架在提升下游任务性能方面的显著优势。

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

该论文提出了一种针对掩码扩散语言模型(MDLMs)的激活导向机制,通过提取单一低维方向并在去噪过程中施加全局干预,实现了无需优化即可高效、系统地控制模型行为(如安全拒绝),并揭示了该机制在扩散模型中特有的可访问性及跨语言迁移能力,同时指出其难以直接迁移至自回归架构。

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL