Speech Codec Probing from Semantic and Phonetic Perspectives
该论文通过词级探测、逐层表示分析及跨模态对齐指标,系统揭示了当前主流语音分词器主要编码语音学特征而非文本语义,从而指出了其与文本语义不匹配的问题并为下一代语音分词方法的设计提供了实践指导。
1071 篇论文
该论文通过词级探测、逐层表示分析及跨模态对齐指标,系统揭示了当前主流语音分词器主要编码语音学特征而非文本语义,从而指出了其与文本语义不匹配的问题并为下一代语音分词方法的设计提供了实践指导。
本文提出了首个面向开放式生成式搜索的大语言模型 SearchLLM,通过设计分层多维奖励系统与门控聚合策略,在 RedNote 平台上实现了生成质量与用户参与度的显著提升,同时严格保障了安全性与事实准确性。
该论文提出了一种基于多智能体协商的框架,通过让同一 LLM 扮演对立角色进行结构化对话并利用 RLAIF 优化策略,在保持集体能动性(CA)对齐水平的同时,显著提升了模型在价值冲突场景下的协商与冲突解决能力。
该论文提出了 PEEM(提示工程评估指标)框架,通过结合提示词与响应的多维度结构化评分及可解释性理由,不仅实现了对大语言模型交互效果的精准诊断,还显著优于现有方法地推动了零样本提示词优化。
本文介绍了名为 PULSE 的医疗推理智能体,该智能体通过结合领域微调的大语言模型与科学文献检索,在复杂内分泌病例诊断中展现出媲美资深专家且不受疾病罕见度影响的性能,并揭示了人机协作在提升诊断准确率的同时也伴随着自动化偏见风险。
本文提出了 VERI-DPO 框架,通过利用声明验证器从检索增强证据中挖掘偏好数据并结合直接偏好优化(DPO)技术,显著提升了临床摘要的忠实度,将不支持的声明率从 10.7% 大幅降低至 1.9%。
本文提出了 VeriEnv 框架,通过利用语言模型自动将真实网站克隆为可执行且可验证的合成环境,使智能体能够在安全、可扩展且无需启发式评判的条件下进行自我演化训练,从而显著提升其在未见网站上的泛化能力与特定站点掌握度。
该论文提出了名为 IH-Challenge 的强化学习训练数据集,旨在解决大语言模型指令层级冲突的鲁棒性难题,通过微调显著提升了模型在对抗攻击下的安全性与指令遵循能力,并开源了该数据集以推动相关研究。
本文介绍了 AILS-NTUA 团队在 SemEval-2026 任务 8 中提出的统一架构,该架构通过“查询多样性优于检索器多样性”策略及多阶段生成流程,在段落检索子任务中取得第一名,并在基于引用的回复生成子任务中获得第二名。
该论文提出了组相对奖励重缩放(GR³)方法,通过将长度控制重构为乘性重缩放范式并结合组相对正则化与优势感知校准,在无需牺牲优化效果的前提下有效解决了强化学习中大语言模型的长度膨胀问题。
该论文提出了一种基于 GPT-5.2 的端到端自动数据集成框架,能够自动生成模式映射、值映射及训练数据等关键组件,实验表明其在视频游戏、音乐和公司数据集成任务中的效果与人工设计的管道相当甚至更优,且成本仅为后者的极小部分。
该论文提出了一种端到端的自动评估框架,通过从知识库生成问答对、利用大语言模型进行判断以及应用置信度过滤,显著降低了人工成本,为领域特定聊天机器人提供了可扩展且语言无关的评估解决方案。
该论文通过实证研究反驳了道德推理任务必须依赖多样性算法的假设,发现基于奖励最大化的 RLVR 方法在道德对齐任务中同样有效,因为与数学推理不同,道德推理的高奖励响应在语义空间中呈现更集中的分布。
本文提出了首个涵盖 9 种语言(包括僧伽罗语和乌尔都语等低资源语言)的多语言新闻图像描述基准 MUNIChus,旨在解决该领域非英语数据稀缺的问题,并评估了多种先进模型的表现以推动相关技术的发展。
该论文通过构建基于大语言模型标注的合成基准与神经评分函数,成功解耦了主题模型中“语义相似性”与“主题关联性”这两个维度,揭示了不同模型家族在捕捉语义结构上的差异,并证明了这两个维度能有效预测下游任务表现,从而为评估主题模型提供了新的核心指标。
该论文提出了一种名为条件期望奖励(CER)的新方法,利用大语言模型自身作为隐式验证器,通过计算生成答案对参考答案的条件似然期望来提供软性奖励信号,从而克服了传统基于规则验证器在自由形式答案领域应用受限的问题,显著提升了大模型在数学及通用推理任务中的表现。
该论文介绍了一项致力于评估和提升波兰大语言模型 Bielik 推理能力的研究计划,涵盖了基准测试、评估方法构建、与其他模型的对比分析以及针对当前分析局限性的未来展望,旨在确保 Bielik 在竞争激烈的 AI 领域中保持竞争力。
本文提出了名为 DxEvolve 的自我演进诊断智能体,通过模拟临床医生的动态认知过程与交互式深度研究工作流,实现了可审计的持续学习,在 MIMIC-CDM 基准及外部独立队列中显著提升了诊断准确率并达到了与临床专家相当的水平。
本文提出了 EvoSchema 基准,通过引入涵盖十种列级和表级扰动的新颖模式演化分类法,系统评估并提升了文本转 SQL 模型在真实世界数据库模式动态变化下的鲁棒性。
本文提出了 PRISM-方法,通过分解正负交叉协方差矩阵的差异来提取判别性 steering 方向,并结合软重要性加权与 Value 表示扩展,在多个基准测试中显著提升了大语言模型的提示高亮性能,同时降低了流畅性成本并支持长上下文检索。