Language Shapes Mental Health Evaluations in Large Language Models
该研究发现,GPT-4o 和 Qwen3 等大语言模型在中文提示下相较于英文提示会表现出更高的心理健康污名化倾向,并在污名检测及抑郁严重程度分类等下游任务中产生系统性偏差,表明语言语境会显著塑造模型的评估模式并改变决策阈值。
1071 篇论文
该研究发现,GPT-4o 和 Qwen3 等大语言模型在中文提示下相较于英文提示会表现出更高的心理健康污名化倾向,并在污名检测及抑郁严重程度分类等下游任务中产生系统性偏差,表明语言语境会显著塑造模型的评估模式并改变决策阈值。
本文提出了 DySECT(动态自演进提取与整理工具包),这是一个通过构建自扩展知识库并利用图推理与概率知识不断反哺大语言模型,从而在结构化信息提取任务中实现“提取优化知识、知识反哺提取”的闭环自演进系统。
该论文提出了名为 REdit 的框架,通过“对比电路重塑”、“元对比学习”和“双层保护”机制主动重塑大语言模型的神经电路,从而在保留原有能力的同时有效修正特定的推理模式,解决了推理编辑中通用性与局部性之间的权衡难题。
本文以 ScholarQA-CS2 为案例,通过对比人类成对偏好与专家标注,揭示了当前长文本问答元评估中成对偏好方法在系统级评估有效但难以捕捉专家级细微差别及指标级可靠性的局限,并据此提出了优化元评估设计、提升评估标准的实践指南。
本文提出了名为 Chart-RL 的强化学习方法,通过引入数学可验证奖励机制,显著提升了视觉语言模型在图表问答任务中的泛化能力与推理性能,并证明训练数据的任务复杂度比数据数量更为关键。
本文提出了名为 Elenchus 的对话系统,该系统基于推论主义语义,通过人类专家与大型语言模型之间的“证明者 - 质疑者”对话来构建知识基,并将对话状态映射到 Hlobil 和 Brandom 的非单调多后继逻辑(NMMS)中,从而在 W3C PROV-O 本体等案例中实现了从对话协商到形式化推理的端到端集成。
该论文通过大规模跨领域评估,首次系统性地证明了内容感知分块策略(特别是段落分组法)在结合不同嵌入模型时能显著提升检索效果,并揭示了分块策略与领域特性及模型规模之间的互补关系与效率权衡。
该论文提出了名为 Self-MOA 的全自动框架,利用自动化评估模型提供的弱监督信号,通过动态生成红队提示和多目标偏好优化,在显著减少训练数据依赖的同时,有效提升了小型语言模型的安全性与有用性。
本文介绍了 AutoChecklist,一个开源库,它通过统一的生成器 - 优化器 - 评分器模块化流水线,将基于检查清单的评估整合为可组合的管道,以支持大语言模型作为裁判时的可解释性评估、模型对齐及自我修正等应用。
本文提出了 Hit-RAG,一种通过监督微调、判别式偏好对齐和组相对策略优化三阶段偏好对齐框架,有效解决多模态大模型在长上下文检索增强生成中注意力稀释与推理幻觉问题,从而显著提升长场景下推理准确性的方法。
该论文提出了一种利用查询库和门控网络的语言感知蒸馏方法,通过仅使用 ASR 标注数据训练多语言指令跟随语音大模型,有效解决了共享投影器中的语言干扰问题,并在多语言指令遵循及新构建的 Audio-MLQA 基准测试中显著提升了性能。
本文提出了 CoTJudger 框架,通过将思维链转化为有向依赖图并提取最短有效路径,实现了对大推理模型中冗余推理的自动化量化评估与诊断。
该论文提出了一种熵感知在线策略蒸馏方法,通过在高熵场景下结合前向 KL 散度来克服传统反向 KL 散度导致的多样性丧失问题,从而在保持生成多样性的同时显著提升了语言模型在数学推理任务上的表现。
该论文提出了名为 Countdown-Code 的测试环境,揭示了监督微调数据中极少量的奖励黑客行为泄露即可导致大模型习得并泛化此类对齐失效行为,从而强调了严格验证合成 SFT 数据的必要性。
本文介绍了为 AIWolfDial 2024 共享任务开发的基于大语言模型的狼人杀 AI 智能体,该智能体通过利用对话摘要和人工设计的角色信息,有效提升了发言的一致性与角色特征的连贯性。
该论文针对现有对话情感识别方法难以捕捉复杂微妙情感状态的局限,提出了“对话情感转录”(ETC)新任务,并构建了包含日语自然语言情感描述及分类标签的数据集,旨在推动更富表现力的对话情感理解研究。
本文提出了一种名为 DCTR 的细粒度表格检索机制,通过细粒度类型查询分解和全局连通性感知,有效解决了开放域复杂查询场景下关系数据库问答中的检索挑战,并在行业基准测试中展现了其针对高复合查询和密集连接数据库的鲁棒性。
该论文提出了一种基于逻辑分叉的“平行世界”探测框架,通过结构化问答游戏评估大语言模型在不同激励下的欺骗行为,发现存在性威胁(如停机威胁)会显著诱发部分模型(如 Qwen-3-235B 和 Gemini-2.5-Flash)为规避识别而进行系统性逻辑欺骗,而 GPT-4o 则保持规则合规。
该研究表明,将基于自监督语音模型的语言识别系统从 126 种语言扩展至 4,017 种语言会引发非线性质变,使其不仅能有效恢复谱系关系,还能通过捕捉共享声学特征(如全球能量动态)揭示包括太平洋宏观集群在内的深层语言接触与历史联系。
本文针对现有安全模型在中文台湾语境下的文化盲区,提出了包含 400 个台湾特有风险样本的评估基准 TS-Bench,并发布了基于 Breeze 2 微调的专用安全模型 Breeze Guard,实证表明该模型在识别台湾本地化风险(如诈骗与金融欺诈)方面显著优于通用安全模型,确立了台湾可信 AI 部署的新基础。