SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving
SoundWeaver 是首个无需训练且与模型无关的文本转音频扩散服务系统,它通过语义相似缓存音频进行热启动,在保持或提升感知质量的同时将延迟降低了 1.8 至 3.0 倍。
2047 篇论文
SoundWeaver 是首个无需训练且与模型无关的文本转音频扩散服务系统,它通过语义相似缓存音频进行热启动,在保持或提升感知质量的同时将延迟降低了 1.8 至 3.0 倍。
该论文提出了一种对比张量预训练(CTP)框架,通过将传统的成对余弦相似度扩展为多模态相似性张量并引入张量损失,实现了视觉、文本和点云等多模态数据在统一嵌入空间中的联合对齐,从而显著提升了自动驾驶场景下的端到端性能。
本文提出了 VLM-SubtleBench 基准,旨在通过涵盖工业、医疗和航拍等多领域及十种细微差异类型的配对图像与问题,评估视觉语言模型在细微对比推理方面与人类水平的差距,并揭示了现有模型在复杂场景下的系统性不足。
本文提出了一种结构感知与进度感知扩散(SPAD)方法,通过语义集中扩散、边界集中扩散及进度感知调度器,构建从粗粒度形态语义到细粒度边界轮廓的渐进式学习范式,以有效解决医学图像分割中粗结构稳定但细边界模糊噪声大的难题。
该论文提出将图像分割作为联盟形成博弈的可视化诊断测试平台,通过量化机制设计参数对均衡结构的影响,揭示了从凝聚到碎片化再到失效的演化过程。
本文提出了 MINT 框架,通过将空间转录组监督信号融入预训练病理基础模型,在避免灾难性遗忘的同时实现了基因表达预测与通用病理任务性能的显著提升。
本文提出了 E²OAL,一种无需独立检测器的统一开放集主动学习框架,它通过利用标签引导聚类挖掘未知类潜在结构并结合狄利克雷校准辅助头,有效提升了已知类判别能力与查询精度,在多个基准测试中显著优于现有最先进方法。
本文提出了一种概念引导的贝叶斯框架,通过结合大语言模型生成的多样化判别性概念、行列式点过程以及自适应软截断似然机制,有效解决了现有零样本图像识别方法中提示工程依赖启发式设计及泛化能力不足的问题,从而显著提升了分类性能。
本文提出了一种基于直接变换策略的流式视频压缩框架,通过嵌入几何变换的级联 Mamba 模块和基于差分卷积的局部细化前馈网络来高效捕捉时空依赖,并结合条件熵模型,在低比特率下实现了优于现有方法的感知质量与时间一致性。
该论文提出了一种基于解混的丰度融合学习框架,通过奇异值分解解耦空谱信息并结合粗到细的可变形聚合与动态门控融合模块,有效解决了未配准高光谱图像超分辨率中的配准误差问题并提升了重建性能。
本文提出了 RLPR 框架,通过双流网络提取跨模态通用结构特征,并创新性地采用两阶段非对称跨模态对齐策略,有效解决了雷达与 LiDAR 间特征差异大及配对数据稀缺的难题,实现了在多种雷达类型和恶劣天气下的高精度零样本泛化定位。
本文提出了 IMSE 方法,通过仅微调预训练视觉 Transformer 线性层的奇异值(即谱专家)并引入基于专家输入对齐的多样性最大化损失以解决特征坍塌问题,结合域感知谱码检索机制,在显著减少可训练参数量的同时实现了测试时适应及持续测试时适应任务中的最先进性能。
本文提出了一种结合 2D 位置编码的混合视觉 Transformer 编码器与覆盖注意力解码器的数学公式识别方法,通过利用 ViT 的 [CLS] 令牌作为解码器初始嵌入,在 IM2LATEX-100K 数据集上取得了 89.94 的 BLEU 分数并超越了现有最先进水平。
该研究通过对比分析表明,虽然直接利用视觉语言模型从学生手绘自动机图生成描述存在错误,但经人工修正后的描述能显著提升大语言模型生成准确 TikZ 代码的质量,从而为计算机科学教育中的自动评分和反馈提供了可行路径。
本文提出了一种名为的无地图视觉定位框架,该框架利用前馈3D重建网络的在线推理能力,通过直接对RGB图像进行在线3D重建及两阶段尺度恢复与姿态优化,在无需离线预处理或存储场景表征的情况下,实现了与最先进方法相当的高精度定位,并在稀疏场景下展现出显著更优的鲁棒性。
VisualAD 提出了一种基于视觉 Transformer 的纯视觉零样本异常检测框架,通过引入可学习的正常与异常令牌及空间感知模块,在无需文本编码器的情况下实现了跨工业与医疗领域的领先性能。
本文提出了 SGG-R³ 框架,通过结合任务特定的思维链引导监督微调与基于组序列策略优化的强化学习,利用关系增强策略和双粒度奖励机制,有效解决了场景图生成中的稀疏性、长尾分布及偏差问题,实现了端到端的无偏场景图生成。
该论文提出了名为 EcoG-Bench 的双语基准测试,旨在评估多模态大模型在结合语音与手势进行指代消解时的时空对齐能力,并揭示了当前模型因多模态接口限制而在该任务上表现远低于人类的显著差距。
该论文提出了一种基于多视图优化的设备无关手术工具跟踪框架,通过融合多种传感模态并构建动态场景图,有效解决了增强现实手术导航中因遮挡导致的视线受阻问题,显著提升了跟踪的鲁棒性与可视化一致性。
本文提出了 AutoReg3D,一种将 LiDAR 3D 目标检测重构为序列生成任务的自回归检测器,它通过近至远的生成顺序摒弃了传统锚框和非极大值抑制(NMS),在保持竞争力的同时为引入大语言模型等现代序列建模技术开辟了新的路径。