The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate
该论文通过实验揭示了大型语言模型在生成任务与评估任务之间存在显著性能差距,指出模型可能在缺乏相关能力的领域仍给出看似准确但不可靠的评估结果,从而凸显了“生成式 AI 悖论”并强调了对模型评估忠实度与可信度的深入审视。
1072 篇论文
该论文通过实验揭示了大型语言模型在生成任务与评估任务之间存在显著性能差距,指出模型可能在缺乏相关能力的领域仍给出看似准确但不可靠的评估结果,从而凸显了“生成式 AI 悖论”并强调了对模型评估忠实度与可信度的深入审视。
该论文介绍了利用 ChatGPT 等大型语言模型对科学文献中的引用进行情感分析,以揭示引用背后的细微态度并识别潜在偏见与利益冲突,从而提升学术评估的客观性与可靠性。
本文通过基于具身认知理论的自主性条件分析,论证大型语言模型(LLM)因缺乏个体性、规范性及交互不对称性而并非自主主体,应被界定为一种虽无自主性但能通过“幽灵性”人机耦合显著重塑人类代理形式的“会说话的图书馆”或语言自动机。
该论文指出,基于平均性能差距和分布距离的常用偏见指标无法可靠地捕捉大语言模型在资源分配任务中产生的分配性危害,强调了在评估偏见时必须考虑预测结果如何转化为实际决策。
该论文指出大型多语言模型在许多低资源语言上存在基础语法生成缺陷,并为此发布了包含 350 种语言、超过 1000 个小型单语模型的 Goldfish 套件,证明这些仅用少量数据训练的小模型在困惑度和语法性基准测试上均优于大型多语言模型。
该论文提出了一种在解码阶段利用小型偏置与去偏专家模型生成纠偏信号的方法,以在保持大语言模型性能的同时,高效且可解释地减轻性别、种族和宗教等偏见。
本文提出了 SpecEM,一种无需训练、即插即用的大语言模型集成框架,它通过受推测解码启发的分段协作机制以及基于在线反馈的乘性权重更新策略,动态调整模型贡献以克服现有集成方法的延迟与权重分配僵化问题,从而在多个基准测试中显著提升了性能。
该论文通过系统研究混合视觉编码器(MoVE)的融合设计,提出了一种名为 LEO 的轻量级架构,其采用独立投影器后融合、图块级序列交错及动态分块全局上下文等策略,在 11 个视觉语言基准测试和自动驾驶领域均展现出优于现有方法的性能与泛化能力。
这篇综述系统梳理了大型多模态语言模型在文献检索、研究构思与实验、内容生成、多模态创作及科学评估等五大关键环节中的应用,深入探讨了相关数据集、方法、评估策略、局限性及伦理风险,旨在为“人工智能驱动科学”(AI4Science)领域的新进者提供指南并推动未来系统的整合与发展。
该论文提出了一种通过回译构建平行语料库来微调大语言模型的方法,使其能够生成高质量的英西代码切换文本,并发现基于大模型的评估指标比传统指标更能准确反映人类对生成质量的偏好。
本文提出了名为 CAReDiO 的数据优化框架,通过信息论目标交替优化文化敏感性问题与回答,以解决现有语料在代表性和区分度上的不足,从而仅需少量样本即可实现大语言模型在多种文化背景下的高效对齐。
该论文提出了将奖励建模转化为推理任务的新范式,通过引入自生成评分准则的“准则链”机制及两阶段训练流程,构建了性能超越现有大型模型的推理型奖励模型(ReasRM)。
本文提出了名为 EVA 的新型事件异步特征学习框架,该框架借鉴语言建模中的线性注意力与自监督学习技术,在保持事件相机高时效性优势的同时显著提升了特征表达力与泛化能力,并在识别与检测任务中超越了现有异步方法。
该论文提出了一种名为 K-CAST 的细粒度条件激活导向方法,通过动态调节推理过程中的内部激活,有效缓解了大型语言模型在逻辑推理中因内容合理性而产生的偏差,显著提升了模型的逻辑推理准确率。
本文提出了 AdAEM,一种能够自适应扩展的评估算法,通过动态生成具有区分度的测试问题来克服现有方法信息量不足的局限,从而有效揭示大语言模型间深层的价值差异与动态演变。
该论文提出了一种无需依赖其他大模型或人工标注的确定性流水线,能够从原始领域语料自动生成无污染的完成式基准,从而以低成本、可扩展且无偏的方式评估大语言模型在特定领域的专业知识。
该论文提出了名为 Sysformer 的新方法,通过训练一个轻量级 Transformer 模型在输入嵌入空间中动态自适应地优化系统提示,从而在不微调冻结大语言模型参数的前提下,显著提升了模型对有害提示的拒绝率以及对安全提示的遵循度,并有效抵御了复杂的越狱攻击。
本文提出了 VLMQ,一种针对视觉语言模型(VLM)的特定后训练量化框架,通过利用梯度驱动的显著性因子识别并优先保留关键令牌、抑制冗余视觉令牌,有效解决了视觉过度表征和模态分布差异导致的量化性能下降问题,从而在低比特设置下实现了显著的性能提升。
该论文通过农业机器手册的跨语言问答案例研究,对比了长上下文大语言模型与三种检索增强生成(RAG)策略,发现混合 RAG 在准确性上始终优于直接提示,并展示了 Gemini 2.5 Flash 和 Qwen 2.5 7B 等模型在该特定工业领域的高表现。
本文提出了 CMRAG 框架,通过统一编码模型和统一共模态检索方法,将文本与图像信息融合以解决现有视觉文档问答任务中单模态处理的局限性,并发布了大规模三元组数据集,显著提升了复杂文档问答的性能。