SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling
本文提出了名为 SUBARU 的框架,通过在助听设备中联合采用亚奈奎斯特采样率和低比特分辨率模数转换,并结合宽带重建方法,在显著降低功耗的同时实现了嘈杂环境下的高效多模态语音增强。
3813 篇论文
本文提出了名为 SUBARU 的框架,通过在助听设备中联合采用亚奈奎斯特采样率和低比特分辨率模数转换,并结合宽带重建方法,在显著降低功耗的同时实现了嘈杂环境下的高效多模态语音增强。
该论文提出了一种名为 LD-RPS 的零样本统一图像恢复方法,通过利用预训练潜在扩散模型结合多模态理解先验与轻量级对齐模块,采用循环后验采样策略,有效解决了现有方法在泛化性和闭集约束方面的局限。
该论文通过理论推导与实验验证,揭示了在含噪数据下训练物理信息神经网络(PINN)时,若要使经验风险低于噪声方差,网络规模必须满足特定的下界约束,从而证明了单纯增加噪声样本数量无法降低误差。
本文提出了一种名为 MCULoRA 的鲁棒不完整多模态低秩适应框架,通过模态组合感知低秩适应(MCLA)模块解耦共享信息与模态特性,并利用动态参数微调(DPFT)模块基于表征空间可分性优化训练比例,从而有效解决了多模态情感识别中因模态缺失导致的梯度冲突问题并显著提升了预测性能。
该论文揭示了多模态大语言模型(MLLM)作为验证器时普遍存在的“同意偏差”问题,并提出了一种名为自我 grounded 验证(SGV)的两步生成方法,通过先独立生成行为先验再评估轨迹,显著提升了验证准确性及智能体在网页导航、计算机操作和机器人等领域的任务完成表现。
本文提出了一种名为 Mamba Snake 的新型深度蛇形框架,通过引入状态空间建模、Mamba 演化模块及双分类协同机制,有效解决了统一医学图像分割中多尺度结构异质性与器官间关系建模的难题,并在五个临床数据集上实现了优于现有最先进方法的平均 3% 的 Dice 提升。
本文提出了 InsightX Agent,一种基于大型多模态模型(LMM)的智能体框架,通过协调稀疏变形多尺度检测器(SDMSD)与证据 grounding 反思(EGR)工具,实现了兼具高检测精度、可解释性及自我评估能力的可靠 X 射线无损检测分析。
本文提出了一种基于 Vision Transformer 的深度学习框架,利用主成分分析扩展少量标注数据并融合多源遥感影像,以在缺乏精确地面真值的情况下提升灾后受灾区域分割的平滑度与可靠性,从而增强台湾太空总署的紧急增值产品(EVAP)效能。
这篇论文作为首份全面综述,系统梳理了流匹配(Flow Matching)的理论基础及其在生物序列建模、分子生成与设计和蛋白质生成等生命科学领域的最新应用进展,并总结了相关数据集、工具及未来发展方向。
该论文针对现有大语言模型用户模拟器在多轮对话中难以保持目标导向行为的问题,提出了包含用户目标状态追踪(UGST)的三阶段开发框架及相应评估指标,显著提升了模拟器在 MultiWOZ 和τ-Bench 基准测试中的目标对齐能力。
本文提出了 CauKer 算法,通过结合高斯过程核组合与结构因果模型生成具有因果一致性的合成时间序列数据,实现了时间序列基础模型的高效预训练,并揭示了其在数据规模与模型容量上呈现的清晰缩放规律。
本文提出了 GraphProp 方法,通过分两阶段训练(先利用图不变量预测构建结构基础模型,再将其作为位置编码融合节点属性),有效解决了图基础模型在跨域结构泛化上的不足,显著提升了其在图分类等任务中的表现,特别是在处理无节点属性图时的优势。
本文提出了 Video-EM,一种无需训练的事件中心式情节记忆框架,通过利用大语言模型作为主动代理来构建、精炼并验证连贯的事件时间线,从而有效解决现有视频大模型在处理长视频时因上下文限制和孤立帧选择导致的叙事断裂与冗余问题。
本文提出了 UniCast,一种通过实例条件提示和动态模态路由机制,在冻结的时间序列基础模型上实现参数高效的多模态融合与实例自适应预测的统一框架。
本文提出了名为 ECHO 的新型基础模型,通过融合频带分割架构与频率位置编码,实现了对任意采样率和可变长度机器信号(如声学、振动及工业传感器数据)的高效建模,并在异常检测与故障分类任务中取得了领先性能。
该论文提出了一种融合熵驱动课程学习与多任务学习的统一框架,通过基于 Lempel-Ziv 压缩的轨迹可预测性量化实现由简入繁的训练,并联合优化位置、距离及方向预测,从而在 HuMob 挑战赛中实现了状态最先进的人体移动预测性能与显著加速的收敛速度。
本文提出了一种结合基于学习的控制器与安全控制器的混合方法,通过利用归一化流模型构建环境先验来实时监测分布外状态,从而在确保地下洞穴环境中飞行安全的同时,实现了快速自主导航。
本文提出了 OTESGN 模型,通过结合句法图感知注意力与基于最优传输的语义注意力机制,有效解决了传统方法在捕捉非线性关联和抗噪方面的不足,从而在多个基准数据集上实现了方面级情感分析的最优性能。
该研究提出了一种基于外部视觉观察和计算机视觉技术(如 YOLO 目标检测与车道监测)的新型驾驶员行为分类系统,旨在无需车载通信即可实时识别分心或受 impaired 驾驶等不安全行为,从而提升自动驾驶环境下的道路安全。
本文提出了一种基于生成式人工智能的模块化多模态框架,利用公开图像和住宅信息合成逼真的建筑参数数据,从而解决建筑能耗研究中数据获取成本高、隐私受限等问题,并支持从单体建筑到区域尺度的能源模拟研究。