Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

本文提出了受认知科学选择性视觉注意力启发的 TextCrafter 框架,通过引入“文本绝缘与注意力”机制及基于强化学习的优化策略,在无需增加参数且资源消耗更低的情况下,显著提升了复杂视觉文本生成的质量,并发布了包含 2000 个复杂提示的 CVTG-2K 基准数据集以验证其优越性。

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

本文提出了 KARMMA 框架,这是一种无需模态对齐即可在训练和推理中处理缺失模态的多模态知识蒸馏方法,它通过从多模态教师模型向轻量级学生模型蒸馏知识,显著提升了第一人称视角动作识别在模态缺失场景下的鲁棒性,同时降低了计算资源消耗。

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

本文提出了 FermatSyn,一种结合 SAM2 先验编码器、分层残差下采样模块及双向费马螺旋扫描 Mamba 架构的多模态医学图像合成方法,通过注入解剖学先验知识并构建近似各向同性的感受野,有效解决了全局解剖一致性与局部细节保真度难以兼顾的问题,在多项基准测试及下游分割任务中展现出优越性能。

Feng Yuan2026-03-02⚡ eess

Knowledge-Guided Machine Learning: Illustrating the use of Explainable Boosting Machines to Identify Overshooting Tops in Satellite Imagery

本文展示了如何利用知识引导的机器学习方法,通过从卫星图像中提取标量特征并训练可解释的增强机器(EBM)模型,结合人类专家策略来识别卫星图像中的 overshooting tops,从而在气象高 stakes 应用中实现可解释且可靠的机器学习。

Nathan Mitchell, Lander Ver Hoef, Imme Ebert-Uphoff + 4 more2026-03-02🤖 cs.LG