Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

本文提出了一种结合自注意力编码与坐标保持融合的两阶段组件感知框架,通过自注意力自编码器、坐标保持门控融合模块及空间自适应细化修正器,在多种面部与非面部数据集上显著超越了现有生成模型,实现了高保真、语义准确且空间对齐的草图到图像生成。

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

本文提出了对角蒸馏(Diagonal Distillation)方法,通过采用“前期多步、后期少步”的非对称生成策略并结合隐式光流建模,有效解决了现有视频蒸馏技术在长序列生成中运动连贯性差、误差累积及延迟过高的问题,实现了在保持高质量的同时将 5 秒视频生成速度提升 277.3 倍至 31 FPS。

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

本文提出了 SurgFed 框架,通过语言引导的通道选择(LCS)和语言引导的超聚合(LHA)机制,有效解决了机器人辅助微创手术中因组织多样性和任务多样性导致的联邦学习适应性与聚合难题,显著提升了跨手术类型场景下的分割与深度估计性能。

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

该研究通过分析两项大型肺癌筛查队列的纵向低剂量 CT 数据,证实了胸膜肺纤维弹性增生(PPFE)的影像学进展与全因死亡率及呼吸系统不良临床结局的独立关联,表明定量评估 PPFE 进展可作为筛查人群中识别高危个体的潜在影像学生物标志物。

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph JacobWed, 11 Ma🧬 q-bio

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

本文提出了 GeoSolver 框架,通过构建基于熵引导蒙特卡洛树搜索的大规模细粒度过程监督数据集 Geo-PRM-2M 及相应的过程奖励模型 GeoPRM,结合过程感知的树结构 GRPO 强化学习算法,有效解决了遥感视觉语言模型在复杂推理中的视觉忠实性瓶颈,实现了具有状态最先进性能的测试时推理扩展。

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

该论文提出了 GeoAlignCLIP 框架,通过多粒度语义对齐与模态内一致性学习,并辅以新构建的 RSFG-100k 细粒度遥感数据集,有效解决了现有遥感视觉 - 语言模型在细粒度细节捕捉上的不足,显著提升了复杂任务中的对齐精度与性能。

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

该论文提出了全景语言建模(PLM)范式,通过引入包含恶劣场景的大规模全景 VQA 数据集(PanoVQA)及一种无需重训练即可适配现有模型的即插即用稀疏注意力模块,实现了超越传统针孔图像拼接的全景整体空间与上下文推理能力。

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer StiefelhagenWed, 11 Ma💻 cs