More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models
该研究通过自由叙事评估框架发现,尽管大型语言模型因微调技术导致女性角色在职业分布上被过度代表,但其生成的职业性别比例仍比现实数据更贴近人类刻板印象,揭示了当前缓解性别偏见措施面临的悖论与挑战。
3799 篇论文
该研究通过自由叙事评估框架发现,尽管大型语言模型因微调技术导致女性角色在职业分布上被过度代表,但其生成的职业性别比例仍比现实数据更贴近人类刻板印象,揭示了当前缓解性别偏见措施面临的悖论与挑战。
该论文提出了一种从 2D 对齐到 3D 合理性的统一框架,通过融合异构基础模型先验进行 2D 结构对齐,并引入无穿透扩散模型优化 3D 空间交互,从而在单目图像中实现抗遮挡、无穿透且符合物理真实性的双手重建。
本文提出了熵驱动不确定性过程奖励模型(EDU-PRM),该框架通过利用高预测熵自动锚定推理步骤边界,无需昂贵的人工标注即可在 ProcessBench 基准测试中超越现有强基线,并仅用 1.5% 的训练数据实现了与 SOTA 模型相当的性能及更高效的推理。
该研究介绍了名为 MediTools 的基于大语言模型的医疗教育原型应用,通过提供皮肤科病例模拟、AI 增强版 PubMed 文献分析及医疗新闻摘要等工具,旨在革新医学教育并提升临床决策能力,同时通过针对医疗从业者的调查验证了其初步效果。
本文提出了一种名为 MetaBoost 的混合框架,通过集成多种数据平衡技术与反事实分析,不仅显著提升了代谢综合征预测模型的准确性,还识别出血糖和甘油三酯为关键风险因素,为临床干预提供了可操作的见解。
该论文系统整合了2019至2025年间评估大语言模型与自主智能体的碎片化工作,提出了涵盖约60个基准的统一分类法,综述了智能体框架、跨领域应用及关键协作协议,并针对未来研究方向提出了具体建议。
本文提出了一种名为 SFIBA 的空间全目标不可见后门攻击方法,通过结合频域注入、形态约束及局部空间区域限制,在确保触发器视觉不可见性和针对所有类别的特定性的同时,实现了高效的黑盒多目标攻击并有效规避现有防御。
本文介绍了 DCASE 2025 挑战赛中的第五项任务,即一个涵盖生物声学、时间声景和复杂问答等多领域的音频问答基准,旨在通过多样化的数据集和评估协议推动音频语言模型在声学内容推理方面的发展,使其具备接近人类水平的感知与交互能力。
该研究通过引入认知负荷理论,分析了 34 位金融专业人士在利用 GPT-4o 完成复杂估值任务时的表现,发现 AI 生成内容能提升工作质量,但由模型发起的任务切换等引发的外在认知负荷对绩效的负面影响最大,且这种负面影响会随经验不足而加剧。
该论文提出了名为 Ready2Unlearn 的元学习优化方法,通过在训练阶段前瞻性地赋予模型“可遗忘就绪”状态,使其在面对未来的数据删除请求时,能够比传统反应式方法更高效、更规范地执行机器遗忘。
FreeKV 提出了一种无需训练的算法与系统协同优化框架,通过推测检索、细粒度校正及混合内存布局等创新技术,在保持大语言模型推理精度近乎无损的同时,将 KV 缓存检索效率提升了最高 13 倍。
该论文提出了一种结合类比检索与形式化验证反馈的神经符号方法,显著提升了大语言模型在欧几里得几何证明任务中的准确性与可靠性。
本文提出了 MAS-ZERO,这是首个无需验证集即可在推理阶段通过元级设计自我演化、动态分解问题并自适应调整代理配置的自动多智能体系统框架,在多种任务中显著超越了现有手动及自动基线方法。
本文提出了基于非回合制游戏 Agar.io 的持续强化学习研究平台 AgarCL,该平台通过高维、随机且动态演化的环境为智能体提供了渐进式行为发展的测试场,并通过对多种算法的评估揭示了 AgarCL 所面临的挑战超越了传统的稳定性 - 可塑性困境。
该论文建立了一个针对无限维概率分布空间的最优控制最大原理与哈密顿 - 雅可比 - 贝尔曼方程的通用理论框架,并提出了结合深度神经网络的扩展数值算法,以有效解决包含障碍物和智能体交互的大规模多智能体控制问题。
该论文提出了一种通过向大语言模型的中间层表示注入可训练嵌入来增强指令层级信号的新方法,从而显著降低了提示注入攻击的成功率,同时保持了模型的实用性。
该论文针对高阶共同邻居中存在的冗余和过平滑问题,提出了通过正交化和归一化技术消除重复并缓解过平滑的“正交共同邻居(OCN)”方法,在多个链接预测基准测试中显著优于现有最先进模型。
该研究提出了一种源自原子基础模型中间特征的新型局部蛋白质环境表示方法,该方法不仅能有效捕捉结构与化学特征,还能构建数据驱动的先验分布,并成功实现了具有物理学信息且达到最先进精度的核磁共振化学位移预测。
本文提出了 MMTU,一个包含 28,000 多个问题和 25 项真实世界任务的大规模基准测试,旨在全面评估大语言模型在专家级表格理解、推理及操作方面的能力,并揭示了当前顶尖模型在此领域仍存在显著不足。
本文提出了 BemaGANv2,一种通过引入 AMP 生成模块和 MED 判别器,并系统评估多种判别器组合策略,以实现高保真、长时程音频生成(如文本转音乐/音频)的先进 GAN 语音合成器。