Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models
本文揭示了全双工端到端语音模型(如 SALM-Duplex 和 Moshi)的隐藏状态存在严重的说话人隐私泄露问题,并提出基于 Stream-Voice-Anon 的两种流式匿名化方案,其中特征域替换方案(Anon-W2F)将等错误率提升了 3.5 倍以上,而波形级方案(Anon-W2W)则在保持亚秒级延迟的同时保留了 78-93% 的语义相似度。
4988 篇论文
本文揭示了全双工端到端语音模型(如 SALM-Duplex 和 Moshi)的隐藏状态存在严重的说话人隐私泄露问题,并提出基于 Stream-Voice-Anon 的两种流式匿名化方案,其中特征域替换方案(Anon-W2F)将等错误率提升了 3.5 倍以上,而波形级方案(Anon-W2W)则在保持亚秒级延迟的同时保留了 78-93% 的语义相似度。
本文介绍了 TildeOpen LLM,这是一个通过结合数据过采样与课程学习策略,在有限计算资源下实现了 34 种欧洲语言(特别是波罗的海、芬兰 - 乌戈尔及斯拉夫语族)公平且高质量表示的 300 亿参数开源基础模型。
该论文提出了多模态温度与间隔调度(MM-TS)方法,通过根据长尾数据分布动态调整对比学习中的温度参数,并将温度调度与最大间隔框架相结合,在多个图像 - 语言和视频 - 语言数据集上实现了新的最先进性能。
本文指出当前表格基础模型(如 TabPFN)的回归基准过度依赖均方误差等点估计指标,忽略了概率预测的评估,因此主张引入连续 ranked 概率分数(CRPS)等严格评分规则来评估分布回归,并强调需通过微调或提示技术来适配不同的评分规则以优化模型的归纳偏置。
该研究针对异构热成像与可见光传感器在无人机检测中的融合难题,提出了注册感知引导图像融合(RGIF)与可靠性门控模态注意力融合(RGMAF)两种策略,通过在 MMFW-UAV 数据集上的实验验证,显著提升了多模态环境下的检测精度与召回率。
本文通过探索替代欧氏距离的多种度量指标来量化异步联邦学习中的梯度陈旧性,并将其集成到聚合过程中,实验结果表明特定指标能在异构客户端和非独立同分布数据设置下显著提升模型的收敛速度、性能及训练稳定性。
本文提出了 SplitAgent,一种通过上下文感知的动态脱敏、差分隐私和零知识验证等机制,在保障企业敏感数据隐私的同时实现与云端 AI 代理高效协作的新型分布式架构。
该论文针对现有语音情感识别方法过度简化情感模糊性的问题,提出了一种将模糊情感识别重构为分布推理任务的框架,通过引入对齐人类感知分布的目标和结构化思维链监督,显著提升了大型音频语言模型在 IEMOCAP 和 CREMA-D 数据集上的情感预测能力。
该论文通过注意力头层面的机制可解释性分析,揭示了续写触发型越狱攻击的本质是模型内在续写倾向与安全对齐防御之间的竞争,并阐明了不同架构中安全关键注意力头的功能差异,为理解及提升大语言模型安全性提供了新的理论视角。
该研究利用 MICCAI 2024 发布的 UWF4DR 数据集,通过基准测试多种深度学习模型(包括 CNN、ViT 和基础模型)在频域与空域的表现,并结合特征级融合与 Grad-CAM 可解释性分析,验证了超广角成像结合先进深度学习技术在糖尿病视网膜病变及黄斑水肿检测中的卓越性能。
本文提出了“纤维化策略优化”(FiberPO)框架,通过推导聚合策略截断目标(APC-Obj)和构建纤维束门控(FBG)代数结构,首次将信任区域理论与可组合的代数层级相结合,实现了从词元到轨迹乃至多领域层级的统一多尺度稳定性控制。
本文介绍了 FinToolBench,这是首个面向真实世界的可执行基准,旨在通过耦合 760 个金融工具与 295 个复杂查询,并引入涵盖时效性、意图类型及监管对齐的多维评估框架,填补现有金融大模型智能体在工具使用评估方面的空白。
该论文针对金融语言模型中偏见检测计算成本高昂的问题,通过大规模实证研究揭示了不同模型间偏见揭示输入的一致性模式,并提出了一种利用跨模型引导显著降低检测成本的新方法。
本文提出了 SAIL 框架,通过结合蒙特卡洛树搜索、自动化轨迹档案检索、视觉语言模型评分及步级反馈机制,将机器人模仿学习重构为可随测试时计算量扩展的迭代优化问题,从而在复杂任务中显著提升了泛化能力与成功率。
本文提出了 SCL-GNN 框架,通过利用希尔伯特 - 施密特独立性准则(HSIC)量化并抑制节点特征与标签间的虚假相关性,结合双层优化策略,显著提升了图神经网络在分布内及分布外场景下的泛化能力。
该研究通过 RIKER 方法在 1720 亿 tokens 的超大规模评估中发现,尽管模型选择是影响幻觉率的最关键因素,但所有模型在长上下文(尤其是 200K 时)中仍会出现显著的事实编造现象,且温度设置需在准确性与生成稳定性之间进行权衡,而硬件平台对结果无显著影响。
本文提出了 AdaCultureSafe 框架,通过构建包含细粒度文化描述与验证查询的大规模数据集,揭示了大语言模型中文化安全性与文化知识掌握度之间缺乏显著相关性,并进一步提出了一种将文化知识深度融入生成过程的方法,从而显著提升了模型的文化安全性。
本文提出了一种名为 TA-RNN-Medical-Hybrid 的时间感知与可解释混合深度学习框架,通过整合显式连续时间编码、SNOMED 疾病表示及分层注意力机制,在 MIMIC-III 数据集上实现了对 ICU 患者死亡风险的高精度预测与符合医学知识的有效解释。
该研究通过结构化扰动评估了大语言模型在 EPSRC 资助提案评审中的能力,发现分章节分析架构在检测率和评分可靠性上表现最佳,但现有模型仍存在高变异性且更倾向于合规性检查而非整体评估,因此目前仅适合作为辅助评审工具。
本文提出了名为 BladeChain 的基于区块链的系统,通过整合多方共识、自动调度、AI 模型溯源及加密证据绑定,解决了航空发动机叶片维护记录碎片化与易篡改问题,实现了全生命周期不可篡改的可追溯审计。