Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment
该论文提出了一种以人类感知难度为核心的分布外(OOD)谱系框架,通过量化刺激偏离程度来重新定义挑战等级,从而在不同难度区间内更精准地评估了各类深度学习模型(如 CNN、ViT 及视觉 - 语言模型)与人类在错误模式上的一致性。
4789 篇论文
该论文提出了一种以人类感知难度为核心的分布外(OOD)谱系框架,通过量化刺激偏离程度来重新定义挑战等级,从而在不同难度区间内更精准地评估了各类深度学习模型(如 CNN、ViT 及视觉 - 语言模型)与人类在错误模式上的一致性。
该论文提出了一种通过自监督训练更新低秩适配器来微调冻结骨干网络的轻量级框架,仅需更新不到 1% 的参数即可在动态声学场景中实现高效的语音增强模型自适应,显著提升了模型在复杂噪声环境下的鲁棒性与感知质量。
该研究提出了一种基于条件扩散变换器的框架,利用 Hi-C 接触图谱引导生成具有高度构象多样性的*大肠杆菌*三维基因组结构集合,从而解决了传统方法仅能产生单一确定性结构的局限性。
该论文通过大规模实证分析揭示了基于模型上下文协议(MCP)的 AI 系统因缺乏调用者身份验证及细粒度授权机制,导致“一次授权、永久信任”的架构存在严重安全隐患,使得攻击者可能利用身份混淆绕过安全控制。
该研究表明,在视觉 - 语言模型中,即使完全移除训练数据中的显式超类证据,预训练语言模型仍能利用语言线索和视觉输入的一致性,成功恢复并泛化出物体的超类知识。
该论文提出了通过架构流独立性(即保持符号结构与上下文语义在独立流中处理直至输出融合)来“按设计实现可解释性”的新范式,并通过晚融合架构(LFA)验证了该方法能有效防止信息过早纠缠、提升模型稳定性,从而将可解释性确立为一种可通过结构约束强制实现的架构设计准则。
该论文提出了一种针对临床文本概念识别、断言分类和关系抽取的端到端联合神经网络基线模型,通过定义联合任务设置并采用多种嵌入技术,显著超越了传统的流水线基线方法,为未来相关研究提供了强有力的基准。
该论文针对大语言模型驱动的智能体从被动工具向自主实体演变所引发的安全挑战,提出了将安全划分为认知、执行和集体三个层级的“层级自主演化(HAE)”框架,系统梳理了威胁分类并指出了现有防御的不足,旨在为构建可信的多层自主防御架构提供指导。
SeDa 是一个统一框架,通过整合来自 200 多个平台的 760 多万份数据集,利用语义标准化、主题标签图及多实体增强导航策略,解决了跨源数据发现碎片化问题,实现了比现有平台更优越的覆盖度、时效性和可追溯性。
本文通过利用 Tweedie 公式,精确揭示了漂移模型(Drifting)与基于分数的扩散模型之间的内在联系,证明了高斯核漂移等价于在平滑分布上进行分数匹配,并进一步推导了通用径向核的分解形式及拉普拉斯核在低温和高维情形下的误差界,从而为理解漂移模型与分布匹配蒸馏(DMD)提供了统一的理论视角。
本文提出了 InterReal 框架,这是一个统一的基于物理的模仿学习系统,通过引入带接触约束的运动数据增强方案和自动奖励学习机制,实现了人形机器人对真实世界人机交互(HOI)技能的高效学习与鲁棒部署。
该论文提出了一种名为 SketchGraphNet 的混合图神经网络架构,通过结合局部消息传递与内存高效的全局注意力机制,在无需辅助编码的情况下直接处理大规模手绘草图图结构,并构建了包含 344 万样本的 SketchGraph 基准数据集,实现了高精度识别并显著降低了显存占用与训练时间。
该论文提出了一种神经动力学先验的预训练框架,通过提取异质场景下的个性化神经活动表征来指导脑区划分与相关性估计,从而克服了传统方法依赖固定图谱和线性假设的局限,显著提升了个性化脑功能网络构建的准确性与泛化能力。
该论文提出了一种名为 UniLongGen 的训练-free 推理策略,通过动态筛选并丢弃干扰性视觉信号来主动“遗忘”历史图像,从而解决统一多模态模型在生成长序列图文内容时因视觉信息累积污染而导致的质量崩溃问题。
DreamSAC 提出了一种结合基于哈密顿量的对称性探索策略与自监督对比学习的框架,通过主动收集符合物理守恒律的数据并从中学习不变性,显著提升了世界模型在物理模拟中面对新物理属性时的外推泛化能力。
本文提出了 COOL-MC 工具,通过概率模型检查和可解释性分析,对基于强化学习的多桥梁网络维护策略进行了形式化验证与解释,揭示了其安全违规概率及决策偏差。
该论文提出了一种无需 accented 训练数据的 L2 口音语音生成框架,通过结合多语言 TTS 模型与音系规则,在音素级别实现了对西班牙语和印度口音英语的显式转换,在保持语音质量的同时有效实现了口音迁移。
该论文针对零样本语音克隆的隐私风险,正式提出了“语音生成 speaker poisoning"(SGSP)任务,旨在通过修改模型参数在保留通用语音合成能力的同时有效阻止特定说话人身份的生成,并评估了该方法在不同遗忘规模下的隐私保护与效用权衡。
该论文发布了首个尼泊尔语(Newari)5.39 小时人工转写天城文语音语料库"Nw\=ach\=a Mun\=a",并证明在超低资源自动语音识别任务中,利用地理和语言邻近的尼泊尔语进行迁移学习,能以更少的参数量达到与大规模多语言模型相当的性能。
本文提出了一种名为 GRD-Net 的新型异常检测架构,该架构结合基于残差自编码器的生成对抗网络与区域兴趣(ROI)注意力模块,通过利用正常样本及合成缺陷数据进行训练,实现了无需复杂后处理算法即可精准定位工业表面缺陷(如药瓶铝盖)的异常检测。