The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate
该论文通过实验揭示了大型语言模型在生成任务与评估任务之间存在显著性能差距,指出模型可能在缺乏相关能力的领域仍给出看似准确但不可靠的评估结果,从而凸显了“生成式 AI 悖论”并强调了对模型评估忠实度与可信度的深入审视。
12047 篇论文
该论文通过实验揭示了大型语言模型在生成任务与评估任务之间存在显著性能差距,指出模型可能在缺乏相关能力的领域仍给出看似准确但不可靠的评估结果,从而凸显了“生成式 AI 悖论”并强调了对模型评估忠实度与可信度的深入审视。
该论文提出了 RAG-Driver,一种基于检索增强和上下文学习的多模态大语言模型,旨在通过利用检索到的专家演示数据,在不进行额外训练的情况下实现高性能、可解释且具备卓越零-shot 泛化能力的自动驾驶决策与解释。
本文推导了基于学习存内(LIM)范式、通过调制物理存储能量势垒以匹配优化动力学的理想神经形态优化器的理论能耗下限,提出了一个仅依赖操作数、模型规模、收敛速度和精度的模型无关性能评估框架,并将其应用于大规模 AI 工作负载的能耗估算。
该论文提出了一种名为 PA-ICVL 的基于姿态信息的上下文视觉学习方法,利用视觉语言模型(VLM)显著提升了在非写实渲染(如卡通)图像中检测语义结构视觉幻觉的能力。
该论文通过实验发现,基于大语言模型(LLM)的定价代理在寡头市场及拍卖环境中能自主达成超竞争价格与利润,且指令措辞的细微变化会显著影响其合谋程度,这为监管此类 AI 定价代理带来了独特挑战。
本文利用自然语言处理和机器学习技术对两千多首弗拉门戈歌词进行计算分析,不仅成功实现了流派(palos)的自动分类,还通过语义场提取和流派间距离网络分析,揭示了弗拉门戈各风格间的历史联系与演变规律,为这一非物质文化遗产提供了定量的研究视角。
本文提出了一种结合无监督 X 向量聚类与基于蒙特卡洛 Dropout 的贝叶斯批主动学习的两阶段流水线,通过分阶段筛选多样且信息丰富的语音样本,显著降低了自动语音识别模型训练的数据标注需求并提升了性能。
本文提出了一种通过关联专家贡献度与其意见权重来聚合同行评估的简单模型,旨在解决协作项目中关于个人贡献份额的共识达成问题,并指出该方法可应用于更广泛的场景。
这篇论文全面综述并形式化定义了基于神经科学预测编码框架的预测编码网络(PCNs),阐述了其作为比传统反向传播更具生物合理性且能统一监督与无监督学习的通用机器学习框架的潜力与优势。
本文通过基于具身认知理论的自主性条件分析,论证大型语言模型(LLM)因缺乏个体性、规范性及交互不对称性而并非自主主体,应被界定为一种虽无自主性但能通过“幽灵性”人机耦合显著重塑人类代理形式的“会说话的图书馆”或语言自动机。
本文提出了 FALCON,一种针对无人机视频动作识别的统一自监督预训练方法,通过结合物体感知掩码自编码与物体中心的双视野未来重建,有效解决了航拍画面中背景杂乱导致的空间不平衡问题,显著提升了识别精度并实现了比传统监督方法快 2 至 5 倍的推理速度。
本文提出了 UniHR 框架,通过统一的数据表示模块(HiDR)和分层结构学习模块(HiSL),实现了对超关系、以及时序和嵌套等多种复杂知识图谱事实的统一分层表示与链接预测。
本文提出了 SpecEM,一种无需训练、即插即用的大语言模型集成框架,它通过受推测解码启发的分段协作机制以及基于在线反馈的乘性权重更新策略,动态调整模型贡献以克服现有集成方法的延迟与权重分配僵化问题,从而在多个基准测试中显著提升了性能。
这篇综述系统梳理了大型多模态语言模型在文献检索、研究构思与实验、内容生成、多模态创作及科学评估等五大关键环节中的应用,深入探讨了相关数据集、方法、评估策略、局限性及伦理风险,旨在为“人工智能驱动科学”(AI4Science)领域的新进者提供指南并推动未来系统的整合与发展。
该论文提出了一种通过回译构建平行语料库来微调大语言模型的方法,使其能够生成高质量的英西代码切换文本,并发现基于大模型的评估指标比传统指标更能准确反映人类对生成质量的偏好。
该论文提出了“生成式预测控制”框架,通过利用采样式预测控制与生成建模之间的紧密联系,解决了现有生成式控制策略依赖专家演示且难以应对快速动态任务的局限,实现了基于模拟数据训练、支持高频反馈且具备时间一致性的流匹配策略。
本文提出了 FragFM,一种基于片段级离散流匹配的层次化分子生成框架,通过结合粗粒度到细粒度的自编码器与随机片段包策略,实现了高效、可扩展且具备优异属性控制能力的分子生成,并引入了针对天然产物生成的 NPGen 基准以验证其在药物发现中的优越性能。
该论文针对复合 AI 系统因组件间不可微交互及系统级偏好难以转化为组件级偏好而导致的对齐难题,提出了一种基于有向无环图建模并扩展直接偏好优化(DPO)的系统级对齐框架 SysDPO,有效实现了多组件系统的联合偏好对齐。
本文研究了在 NISQ 时代下,针对电路切割或量子态隐形传态等分布式执行方式的对抗性扰动,揭示了此类扰动与在量子分类器中间层实施对抗门之间的内在联系,并从理论和实验角度分析了分区量子分类器的对抗鲁棒性。
本文综述了从单模态、跨模态到多模态视角的音乐生成研究,系统梳理了模态表示、数据对齐及引导机制,探讨了当前数据集与评估方法,并指出了多模态融合、数据规模及评估体系等挑战与未来发展方向。