Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

本文提出了 Stereo-Talker,一种新颖的单样本音频驱动 3D 人类视频合成系统,它通过融合大语言模型先验来生成高保真动作序列,并利用先验引导的混合专家机制优化扩散模型,从而实现了具备精确口型同步、丰富肢体表达、时间一致性及连续视角控制的高质量 3D 说话人视频生成。

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

本文提出了受认知科学选择性视觉注意力启发的 TextCrafter 框架,通过引入“文本绝缘与注意力”机制及基于强化学习的优化策略,在无需增加参数且资源消耗更低的情况下,显著提升了复杂视觉文本生成的质量,并发布了包含 2000 个复杂提示的 CVTG-2K 基准数据集以验证其优越性。

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

本文提出了 KARMMA 框架,这是一种无需模态对齐即可在训练和推理中处理缺失模态的多模态知识蒸馏方法,它通过从多模态教师模型向轻量级学生模型蒸馏知识,显著提升了第一人称视角动作识别在模态缺失场景下的鲁棒性,同时降低了计算资源消耗。

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

本文提出了 FermatSyn,一种结合 SAM2 先验编码器、分层残差下采样模块及双向费马螺旋扫描 Mamba 架构的多模态医学图像合成方法,通过注入解剖学先验知识并构建近似各向同性的感受野,有效解决了全局解剖一致性与局部细节保真度难以兼顾的问题,在多项基准测试及下游分割任务中展现出优越性能。

Feng Yuan2026-03-02⚡ eess