UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation
本文提出了 UniTalking,一种基于多模态 Transformer 块和预训练视频先验的统一端到端扩散框架,旨在生成高保真、唇形同步且支持个性化语音克隆的说话人像视频,其性能在多项指标上超越了现有开源方法。
9812 篇论文
本文提出了 UniTalking,一种基于多模态 Transformer 块和预训练视频先验的统一端到端扩散框架,旨在生成高保真、唇形同步且支持个性化语音克隆的说话人像视频,其性能在多项指标上超越了现有开源方法。
本文提出了首个用于在线音视频实例分割的 SeaVIS 框架,通过因果交叉注意力融合模块实现高效流式处理,并利用音频引导对比学习策略有效区分发声与静默状态,从而在 AVISeg 数据集上超越了现有最先进模型。
本文提出了名为 LinkVLA 的新架构,通过统一语言与动作的离散码本、引入动作理解辅助任务以及采用高效的两阶段粗到细生成策略,有效解决了现有视觉 - 语言 - 动作模型中指令与动作对齐不佳及推理效率低下的问题,从而显著提升了自动驾驶的指令遵循能力与整体性能。
该论文通过构建受控基准测试,揭示了全局 Token 混合机制在 MRI 恢复任务中的效用具有任务依赖性:在物理约束较强的重建和超分辨率任务中,轻量级局部门控 CNN 已具备竞争力,而仅在存在显著空间异方差噪声的去噪任务中,全局 Token 混合模型才展现出显著优势。
本文提出了名为 Deepfake Forensics Adapter (DFA) 的新型双流网络框架,该框架通过冻结预训练 CLIP 模型参数并集成全局特征适配器、局部异常流及交互融合分类器,在无需微调基础模型的情况下显著提升了深度伪造检测的泛化能力,并在 DFDC 等基准测试中取得了最先进的性能表现。
本文提出了 VidDoS,这是首个针对视频大语言模型的通用拒绝服务攻击框架,它通过掩码教师强制和拒绝惩罚等机制生成与实例无关的触发器,导致模型推理延迟增加 15 倍以上并引发严重的安全隐患。
该论文提出了受人类模糊痕迹理论启发的 MM-Mem 架构,通过构建分层多模态记忆并结合语义信息瓶颈优化策略,实现了从精细感知痕迹到高层语义图式的渐进式蒸馏,从而有效解决了长时程视频理解中的上下文限制与记忆效率难题。
本文提出了 UltraStar 模型,通过将超声心动图探头导航从路径回归重构为基于锚点的全局定位,利用语义感知的星形图结构有效建模历史关键帧,从而在含噪探索轨迹中实现更鲁棒且可扩展的精准导航。
本文提出了 WildCross,这是一个包含超过 47.6 万帧序列 RGB 图像、半稠密深度与法线标注及精确 6DoF 位姿的大规模跨模态基准数据集,旨在解决现有数据集在结构化城市环境中占主导而缺乏非结构化自然环境数据的问题,从而推动机器人跨模态场景定位与度量深度估计技术的发展。
本文提出了 SCATR 模型,通过引入“二次分配”和“轨迹查询丢弃”两种架构无关的训练策略,有效缓解了基于 LiDAR 的跟踪 - 注意力框架中的新实例抑制问题,从而在 nuScenes 基准上实现了最先进的性能并显著缩小了其与检测 - 跟踪方法的差距。
本文提出了一种名为 ATA 的训练免框架,通过互补的注意力引导与动作引导策略,在不依赖额外数据标注或重新训练的情况下,将隐式推理引入视觉 - 语言 - 动作(VLA)模型,从而在提升任务成功率与鲁棒性的同时保持了高效的推理性能。
该论文提出了 Radiometrically Consistent Gaussian Surfels (RadioGS) 框架,通过引入辐射度一致性约束解决高斯泼溅在反渲染中难以分离材质与复杂全局光照(特别是间接光照)的问题,实现了在保持高效渲染的同时显著提升重光照能力和反渲染精度。
本文提出了首个基于真实个人相册的基准测试 PhotoBench,旨在推动照片检索从单纯的视觉匹配转向基于多源信息融合的个性化意图驱动推理,并揭示了现有统一嵌入模型与智能体系统在应对此类复杂任务时的关键局限。
该论文提出了一种基于率失真理论的框架,通过提取表征准确性与鲁棒性权衡的几何特征(斜率与曲率),揭示了人类视觉系统比现代深度网络具有更平滑灵活的泛化特性,并表明该几何视角能有效超越传统精度指标来评估不同系统的泛化行为。
该论文提出了一种受下游任务启发的水下图像增强(DTI-UIE)框架,通过构建任务驱动的数据集、设计双分支网络及任务感知损失函数,有效解决了现有方法忽视高频细节的问题,显著提升了水下图像在语义分割、目标检测等下游任务中的识别性能。
该论文提出了一种基于神经算子的连续张量函数表示(NO-CTR),通过引入连续非线性模-n 算子替代传统离散线性运算,实现了对复杂真实世界数据更精确的连续表征,并在多维数据补全任务中展现出优越性能。
本文提出了 FireRed-OCR 框架,通过构建“几何 + 语义”数据工厂和采用包含多任务预对齐、专用微调及格式约束 GRPO 的三阶段渐进式训练策略,将通用视觉语言模型(基于 Qwen3-VL)转化为具备像素级精度的结构化文档解析专家,在 OmniDocBench v1.5 上取得了超越现有强基线的 SOTA 性能。
本文提出了 Tiny-DroNeRF,这是一种专为资源受限的亚 30 克微型无人机设计的轻量化神经辐射场模型,它通过优化 Instant-NGP 架构使其能在超低功耗 MCU 上运行,并结合联邦学习方案在多台无人机间协同训练,从而在显著降低内存占用的同时实现了复杂环境下的密集 3D 场景重建。
本文提出了一种仅利用事件相机数据、通过提取螺旋桨转速并融合至 RPM 感知卡尔曼滤波框架中的无人机轨迹预测方法,在无需 RGB 图像或训练数据的情况下实现了优于现有方法的短中期轨迹预测精度。
本文提出了一种无需训练且抗噪性强的新型三维场连接(3D FoJ)表示法,通过优化三维楔形连接作为结构先验,在低信噪比条件下有效提升了 CT、冷冻电镜及激光雷达点云等多种三维成像逆问题的去噪与重建质量,并优于现有的经典与深度学习方法。