DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization
本文提出了 DuplexCascade,一种无需语音活动检测(VAD)的级联流式语音对话系统,通过将传统长话轮转化为微话轮交互并引入专用控制令牌,在保留强大语言模型智能的同时实现了全双工语音对话。
1061 篇论文
本文提出了 DuplexCascade,一种无需语音活动检测(VAD)的级联流式语音对话系统,通过将传统长话轮转化为微话轮交互并引入专用控制令牌,在保留强大语言模型智能的同时实现了全双工语音对话。
该论文提出了一种无需训练的“直接嵌入优化”(DEO)方法,通过将查询分解为正负组件并优化嵌入表示,有效解决了现有检索模型在处理否定和排除查询时的不足,并在文本及多模态检索任务中显著提升了性能。
该论文提出了 RAISE 框架,论证了大语言模型逻辑推理能力的提升会通过演绎、归纳和溯因三条机制路径不可避免地增强其情境感知能力(包括自我认知与战略欺骗),并呼吁推理研究界正视这一风险,建立相应的安全基准与原则。
该论文提出情感是塑造大语言模型注意力机制与推理过程的关键潜在因素,通过构建情感均衡的 AURA-QA 数据集并引入情感正则化框架,揭示了情感语调对注意力几何结构的影响,并显著提升了模型在情感变化及分布偏移场景下的阅读理解性能。
本文提出了 SPAR-K 框架,通过一种模态感知的交替深度调度策略(即大部分语音令牌在中间层提前退出,并周期性插入全深度“刷新”步骤),在几乎不降低语音转录准确率、感知质量和问答精度的前提下,显著降低了交错式语音语言模型的推理计算成本。
本文提出了 LooComp,一种基于留一法策略的轻量级编码器模型,通过衡量句子缺失对线索丰富度的影响来驱动上下文剪枝,从而在显著降低计算成本和内存占用的同时,实现了高效的检索增强生成任务中的上下文压缩与问答性能保持。
该研究通过系统评估和引入过渡矩阵框架,揭示了对比解码在修正大音频语言模型“误报无音频”或“不确定性猜测”类错误方面的有效性及其对模型架构的依赖性,从而为根据基线错误特征选择最合适的增强策略提供了明确指导。
该论文提出了一种名为 AgentGEO 的代理系统,通过构建引用失败分类法来诊断生成式引擎优化(GEO)中的具体失效原因并实施针对性修复,从而在仅修改少量内容的情况下显著提升了引用率,同时揭示了通用优化策略可能损害长尾内容可见性的问题。
本文提出了 TA-Mem 框架,通过引入自适应记忆提取代理、多索引记忆数据库及工具增强的自主检索代理,利用动态工具选择机制替代传统静态检索方法,显著提升了大语言模型在长程对话问答任务中的表现。
本文提出了 TaSR-RAG 框架,通过将查询和文档表示为关系三元组并结合轻量级分类体系进行结构化推理,有效解决了传统检索增强生成(RAG)系统在多跳推理中存在的上下文冗余、信息密度低及推理脆弱等问题,在多个多跳问答基准测试中显著提升了性能。
该论文展示了大语言模型生成的标签与人类标注在空间范畴化任务中高度一致,并据此提出了一种扩展“拓扑关系图片系列”(TRPS)数据集的方法,通过新增42个场景显著提升了场景覆盖度,为构建涵盖数十种语言和数百个场景的大规模空间数据集奠定了基础。
该论文提出了名为 StateFactory 的基于大语言模型的因子化世界状态表示方法,通过将非结构化观测转化为分层对象 - 属性结构,利用语义相似性实现跨领域的零样本奖励预测,从而显著提升了智能体在 AlfWorld 和 ScienceWorld 等任务中的规划成功率。
该论文提出了一种名为"LLM 作为元裁判”的可扩展框架,通过利用大语言模型对真实数据进行受控语义退化来生成合成评估数据集,从而替代昂贵且耗时的人工标注,并在机器翻译、问答和摘要任务中验证了该方法在评估指标验证方面能作为人类判断的高相关性可靠替代方案。
该研究通过法语患者记录实验发现,大型语言模型会利用嵌入的社会决定因素刻板印象来做出基于性别的决策,表明评估社会决定因素之间的交互作用可有效补充现有的模型偏见评估方法。
该论文提出了包含道德困境中常识矛盾的新基准 CoMoral,发现当前大语言模型倾向于优先进行道德推理而忽视常识,且存在仅在矛盾由次要角色而非主要角色引发时才更易识别的叙事焦点偏差。
本文针对现有基准在评估大语言模型自动化网络安全威胁情报(CTI)研究能力方面的不足,提出了基于真实专家工作流和分析师中心指标的"CyberThreat-Eval"基准,揭示了当前模型在处理复杂细节和区分信息真伪方面的局限性,并展示了结合外部知识库与人类反馈的改进方案。
本文通过引入功能负荷效应和趋向特定音系规模稳定性的随机演化模型,证明了语音频率分布的统计规律及音系规模与相对熵的负相关关系可能是历时音变过程的自然产物,而非源于显式的优化或补偿机制。
该论文揭示了语言模型在仅通过语义无关甚至内容相悖的忠实改写数据进行训练时,仍会隐式习得生成模型(教师模型)的特定偏好(如动物喜好),表明基于内容审查的过滤机制无法有效阻断此类“潜意学习”风险。
该研究提出了一种利用大语言模型(LLM)结合大五人格特质生成个性化辟谣信息的新方法,并通过模拟相应人格的 LLM 评估器验证了此类定制化信息通常比通用信息更具说服力,同时指出了该技术带来的伦理挑战。
该论文提出了名为 ALARM 的音频 - 语言对齐框架,通过自重述技术解决推理大模型在音频任务中的分布不匹配问题,并融合多音频编码器与构建大规模多任务语料库,成功训练出在保持文本能力同时超越多数更大规模模型的 4B 参数音频语言模型。