Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition
该论文提出了一种无需显式噪声掩码的端到端音频 - 视觉语音识别框架,通过基于 Conformer 的瓶颈融合模块利用视觉线索隐式增强含噪音频特征,从而在保留语音语义完整性的同时提升了噪声环境下的识别鲁棒性。
6249 篇论文
该论文提出了一种无需显式噪声掩码的端到端音频 - 视觉语音识别框架,通过基于 Conformer 的瓶颈融合模块利用视觉线索隐式增强含噪音频特征,从而在保留语音语义完整性的同时提升了噪声环境下的识别鲁棒性。
本文提出 PepEDiff,一种基于预训练蛋白嵌入模型和扩散机制的零-shot 生成框架,无需依赖中间结构预测即可直接生成具有高度多样性的新型肽结合剂,并在 TIGIT 等挑战性靶点上超越了现有最先进方法。
SpatialMem 提出了一种以记忆为核心的系统,利用度量 3D 空间作为可解释的索引支架,从单目 RGB 视频构建分层记忆以支持长程、语言引导的室内场景检索、问答及离线导航任务。
该论文提出了首个临床脑电到语言的基础模型 CELM,利用包含近万份报告的大规模数据集,实现了从长时程、变长脑电记录到多维度临床报告的端到端自动生成,并在标准生成指标上取得了显著性能提升。
该论文提出了一种名为“局部化上下文学习”(L-ICL)的迭代指令增强方法,通过针对规划轨迹中的首个约束违反步骤注入最小修正示例,显著提升了大语言模型在符号经典规划任务中生成有效计划的准确率。
本文通过展示研究人员利用 Google Gemini 系列模型在理论计算机科学、经济学及物理学等领域成功解决开放问题、证伪猜想及生成新证明的案例,提炼出迭代优化、问题分解等高效人机协作技巧,并探讨了将模型作为对抗性审查者或嵌入神经符号循环等进阶应用,论证了 AI 作为科学发现创造性伙伴的潜力。
本文针对大语言模型智能体在复杂交互场景下不确定性量化研究的不足,提出了首个通用理论框架,系统剖析了四大关键技术挑战,并基于真实基准测试展望了该领域的未来发展方向。
该论文通过对比静态分类任务中的归因解释与智能体基准测试中的轨迹诊断,揭示了传统特征归因方法无法有效诊断智能体执行失败,从而论证了转向轨迹级可解释性对于评估和诊断自主 AI 行为(特别是状态跟踪不一致问题)的必要性。
本文介绍了名为 Aletheia 的自主数学研究智能体,它通过结合先进推理模型、推理时扩展定律及工具使用能力,实现了从奥林匹克竞赛题到生成无人类干预研究论文、证明新定理及解决开放问题等里程碑式的 AI 辅助数学研究突破。
该论文提出了以效用反馈为核心的框架,通过构建涵盖多种复杂场景的 AgoraBench 基准、引入基于人类偏好的经济评估指标,以及利用人类偏好数据集优化提示与微调流程,显著提升了大语言模型在谈判中的策略深度与对手感知能力。
这项基于 737 名参与者的研究通过对比实验发现,在“氛围编程”(vibe coding)协作中,人类主导指令而 AI 负责评估的混合模式表现最佳,且人类提供的高层指令能有效避免 AI 主导指令导致的性能崩溃,凸显了人类指导在构建未来人机协作社会中的关键作用。
该论文提出了名为 DataChef-32B 的强化学习框架,通过端到端自动生成数据食谱来优化大语言模型适应过程,其生成的食谱在多个任务上达到了专家级水平,并成功将 Qwen3-1.7B-Base 在 AIME'25 数学基准上的表现提升至超越官方后训练检查点的 66.7 分。
该论文提出了 SWE-MiniSandbox,一种利用内核级机制和轻量级环境预缓存技术实现的无容器强化学习框架,它在保持隔离性的同时显著降低了磁盘占用和环境准备时间,为软件工程智能体的规模化训练提供了高效且可访问的基础。
该论文针对多轮对话中提示注入攻击难以在代理层进行有效聚合检测的问题,提出了一种结合单轮峰值风险、持久性比率与类别多样性的“峰值 + 累积”评分公式,在无需调用大语言模型的情况下,于大规模数据集上实现了高召回率与低误报率的攻击检测效果。
本文通过系统文献综述批判了机器学习中将人类分歧视为噪声的“共识陷阱”谬误,揭示了数据标注中存在的锚定偏差与西方中心主义霸权,并主张将分歧重新定义为构建文化胜任模型的关键信号,从而推动从追求单一“真理”向映射人类经验多样性的标注范式转型。
本文提出了 AHSIV 框架,通过整合考虑预测视界退化的指标调整、需求结构分类及多目标优化机制,解决了多 SKU 场景下因预测视界变化导致的模型排序不稳定问题,为异构需求环境下的业务决策提供了自适应且可复现的模型选择方案。
该论文提出了 IntelliAsk,一种通过构建基于专家标注的奖励模型 IntelliReward 并结合 DAPO 强化学习算法,使大语言模型能够生成更具深度、证据充分且基于全文内容的高质量科研审稿问题的方法。
该论文展示了基于确定性语义状态基底的 C++ 生产级实现,通过局部状态演化机制在 Apple M2 芯片上实现了不随节点规模(100 万至 2500 万)而增长的恒定延迟与极低能耗,证明了“计算冰河时代”(ICE-AGE)在仅受内存容量限制而非推理重计算成本约束下的可扩展性。
本文提出了 FLoRG 框架,通过聚合单个低秩矩阵的 Gram 矩阵并结合 Procrustes 对齐技术,有效解决了联邦微调中 LoRA 方法存在的聚合误差与分解漂移问题,在显著提升下游任务精度的同时大幅降低了通信开销。
该论文提出了一种匹配骨干测试方法并结合机制分析,揭示当前语音大语言模型在多数场景下实为成本高昂的级联系统,且在噪声环境下其性能甚至可能低于传统的“语音识别转文本再输入大模型”的级联方案。