Evaluating LLM Alignment With Human Trust Models
该论文通过对比提示和余弦相似度分析,揭示了 EleutherAI/gpt-j-6B 大语言模型内部对信任的表征与 Castelfranchi 社会认知模型最为契合,表明 LLM 能够以支持人类-AI 协作系统设计的方式编码社会认知构建。
6494 篇论文
该论文通过对比提示和余弦相似度分析,揭示了 EleutherAI/gpt-j-6B 大语言模型内部对信任的表征与 Castelfranchi 社会认知模型最为契合,表明 LLM 能够以支持人类-AI 协作系统设计的方式编码社会认知构建。
该论文提出了一种结合卷积神经网络(CNN)与视觉 Transformer(ViT)的集成学习融合模型,通过训练四个独立模型并在预测阶段进行集成,有效克服了单一架构的局限性及冗余特征瓶颈,在 UC Merced、RSSCN7 和 MSRSI 等遥感图像数据集上取得了优于现有方法的分类精度。
本文提出了 MACRO,一种通过从验证执行轨迹中自主发现并合成可复用复合工具,从而将静态工具组合转变为经验驱动式自我演进的医疗影像智能体,显著提升了多步骤任务编排的准确性与跨域泛化能力。
本文汇集国际专家观点,在评估基础模型与智能体驱动的计算病理学在诊断、预后等任务中表现优异但临床落地滞后的现状基础上,从技术成熟度、运营准备度及经济监管环境等多维度,探讨了将其负责任地整合至临床实践的路径与障碍。
该论文提出了一种基于自监督表示重建(SSRR)损失的新方法,显著提升了神经音频编解码器的训练效率、语音可懂度及实时流式性能,并据此构建了低延迟、零前瞻的 JHCodec 模型。
本文针对大语言模型在长故事生成中普遍存在的连贯性缺陷,提出了包含 2000 个提示和 19 种细粒度错误分类的 ConStory-Bench 基准及 ConStory-Checker 自动检测工具,并通过实验揭示了事实与时间维度错误高发、多出现在叙事中段及高熵文本段等关键规律。
该论文针对大语言模型在分子优化任务中因缺乏轨迹数据而导致推理能力退化和奖励稀疏的问题,提出了一种名为 RePO 的参考引导策略优化方法,通过结合强化学习与参考分子引导的混合训练机制,在无需轨迹数据的情况下有效平衡了探索与利用,显著提升了分子优化的成功率与泛化性能。
本文提出了 LUMINA 框架,利用大语言模型通过瓶颈分析自动提取架构知识并生成设计规则,从而在仅需 20 步探索的情况下,高效地发现了比 A100 性能更优的 GPU 设计方案,显著提升了 GPU 架构探索的效率与质量。
该论文提出了名为 ProEvolve 的基于图的框架,通过可编程的图变换技术实现环境演化的自动可控生成,从而在动态变化的环境中更有效地评估智能体的适应能力。
该论文提出了首个面向复杂病灶推理分割的 Chain-of-Thought 基准 ComLesion-14K,并设计了结合语义引导提示适配器与自适应双粒度奖励机制的 CORE-Seg 框架,通过从监督微调(SFT)到 GRPO 的渐进式训练策略,显著提升了复杂病灶分割的精度与逻辑可解释性。
该论文针对深度研究报告事实性验证的难题,指出静态基准的局限性,提出了通过“审计 - 评分”机制实现基准与智能体协同进化的 DeepFact 框架,显著提升了专家标注可靠性并构建了可审计的 DeepFact-Bench 基准及高性能验证代理。
该论文提出了一种结合节点 Transformer 架构与 BERT 情感分析的集成框架,通过将股票市场建模为图结构并融合多源数据,在 S&P 500 股票预测中显著降低了误差并提升了方向预测准确率。
本文提出了名为 BlackMirror 的通用无训练黑盒检测框架,通过镜像匹配与镜像验证机制分析指令与生成图像间的语义偏差及其稳定性,从而有效识别现有基于图像相似性方法难以检测的多样化文本到图像模型后门攻击。
本文提出了一种受整流流启发的 RAC 模型,通过利用整流流的直线路径实现可修正的多步解码与双向推理,在降低约 41% 参数和 70% 计算成本的同时,显著超越了现有最先进 VAE 的重建与生成性能。
该论文提出通过引入作者上下文(HuLM 任务)来纠正大型语言模型中的生态谬误,实验表明在 8B Llama 模型上应用人类感知的微调(HuFT)或持续预训练,能显著提升其在多项下游任务中的性能。
该论文提出了一种结合深度残差网络与 U-Net 架构的残差掩蔽网络,利用分割网络优化特征图以增强注意力机制,从而在 FER2013 和 VEMO 数据集上实现了面部表情识别的当前最优性能。
该论文提出了一种将大语言模型编程代理的原始执行轨迹转化为结构化、可解释洞察的系统性方法,通过结合领域特定的失败分类法、自动标注系统及混合解释生成器,显著提升了开发者(包括非技术人员)识别故障根因的速度与修复准确率。
本文提出了 E-AdaPrune,一种基于视觉特征奇异值谱能量驱动的自适应视觉 Token 剪枝框架,它无需额外参数即可根据图像信息密度动态分配 Token 预算,在保持极低延迟的同时显著提升了多模态大模型的性能。
该论文基于交互主义和建构主义心理学理论,提出了一种融合个体特质与情境特征的机器学习方法,利用大型语言模型分析社交媒体数据以预测心理健康状态,在保持竞争力的同时显著提升了模型的可解释性。
本文提出了 DMM 框架,通过分阶段合并相似模型并利用归一化统计量合成伪数据进行知识蒸馏,实现了在无需原始数据的情况下高效融合高度异构的领域模型,从而在多个基准测试中取得了超越现有方法的性能。