cs.CV 篇论文 | Gist.Science

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

本文提出了 DTPSR 框架，通过构建包含解耦全局与局部、低频与高频描述的大规模数据集 DisText-SR，并利用空间层级与频率语义双重解耦的文本先验及多分支引导策略，显著提升了基于扩散模型的图像超分辨率在语义可控性、细节还原度及泛化能力方面的表现。

Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

本文针对移动智能体在线强化学习中的泛化难题，提出了包含三种挑战模式的基准测试"AndroidWorld-Generalization"及一套集成 GRPO 算法的开源训练系统，实验表明该方法虽能显著提升模型在未见任务实例上的零样本泛化能力，但在未见模板和应用上的泛化效果仍有限，并初步验证了测试时少样本适应的潜力。

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

本文提出了 Data Agent，一种将数据选择建模为训练感知序贯决策问题的端到端动态优化框架，它通过自适应平衡损失难度与置信度不确定性的复合奖励机制，在无需人工设计指标的情况下实现了跨任务、跨架构的训练加速与性能保持。

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

本文提出了 RPG-SAM 框架，通过引入可靠性加权原型挖掘解决支持图像的区域异质性，并利用几何自适应选择处理查询响应异质性，从而在无需训练的情况下实现了单样本息肉分割的显著性能提升。

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

DogWeave 提出了一种基于模型的框架，通过扩散增强的法线场优化和结构风格引导的条件补全技术，仅从单张 RGB 图像即可重建出几何精确且纹理逼真的高保真 3D 犬类模型，有效解决了单目动物重建中因自遮挡和细节缺失导致的几何失真与纹理不一致问题。

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

Med-Evo 是一种首创的医疗多模态大语言模型自进化框架，它通过特征驱动的伪标签生成和软硬奖励机制，利用无标签测试数据实现无需额外标注的模型性能提升。

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

本文提出了 SLNet，一种基于非参数自适应点嵌入（NAPE）和几何调制单元（GMU）的超轻量级 3D 点云识别网络，在显著降低参数量和计算成本的同时，在 ModelNet40、ScanObjectNN 及 S3DIS 等多个基准测试中实现了与现有主流模型相媲美甚至更优的性能。

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

Image Generation Models: A Technical History

本文全面综述了过去十年图像生成领域的技术演进，系统梳理了从变分自编码器、生成对抗网络到扩散模型等主流架构的原理、优化与局限，并进一步探讨了视频生成、模型鲁棒性及负责任部署等关键议题。

Rouzbeh Shirvani2026-03-10💬 cs.CL

SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing

SIGMAE 提出了一种光谱指数引导的掩码自编码器预训练框架，通过引入语义显著性引导的动态令牌掩码策略，有效解决了多光谱遥感图像中背景复杂、目标模糊及缺乏语义指导的难题，从而在多种下游任务中实现了优于现有地理空间基础模型的性能。

Xiaokang Zhang, Bo Li, Chufeng Zhou, Weikang Yu, Lefei Zhang2026-03-10💻 cs

Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection

该论文针对单目 3D 目标检测中跨模态知识蒸馏因模态差异导致的负迁移问题，提出了名为 MonoSTL 的选择性学习方法，通过统一架构对齐及引入深度不确定性的特征与关系选择性蒸馏模块，有效实现了从 LiDAR 到图像网络的正向深度信息迁移，从而在多个基准数据集上显著提升了检测精度并达到最优性能。

Rui Ding, Meng Yang, Nanning Zheng2026-03-10💻 cs

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing

该论文提出了名为 ThingiPrint 的新数据集，并展示了一种利用 CAD 模型进行对比微调的无重训练分类方法，有效解决了工业增材制造中 3D 打印物体在无需重新训练模型的情况下实现自动分类的难题。

Fanis Mathioulakis, Gorjan Radevski, Silke GC Cleuren, Michel Janssens, Brecht Das, Koen Schauwaert, Tinne Tuytelaars2026-03-10💻 cs

FedEU: Evidential Uncertainty-Driven Federated Fine-Tuning of Vision Foundation Models for Remote Sensing Image Segmentation

本文提出了 FedEU 框架，通过引入证据不确定性建模和客户端特定特征嵌入，在联邦学习环境下实现了对遥感图像分割基础模型的高效微调，有效解决了数据异构带来的更新不确定性问题并提升了聚合可靠性。

Xiaokang Zhang, Xuran Xiong, Jianzhong Huang, Lefei Zhang2026-03-10💻 cs

cs.CV

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

Generalization in Online Reinforcement Learning for Mobile Agents

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Image Generation Models: A Technical History

SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing

Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing

FedEU: Evidential Uncertainty-Driven Federated Fine-Tuning of Vision Foundation Models for Remote Sensing Image Segmentation

EVLF: Early Vision-Language Fusion for Generative Dataset Distillation

Multi-Modal Decouple and Recouple Network for Robust 3D Object Detection

RobustSCI: Beyond Reconstruction to Restoration for Snapshot Compressive Imaging under Real-World Degradations

RayD3D: Distilling Depth Knowledge Along the Ray for Robust Multi-View 3D Object Detection

DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

AMR-CCR: Anchored Modular Retrieval for Continual Chinese Character Recognition

High-Fidelity Medical Shape Generation via Skeletal Latent Diffusion

A Unified View of Drifting and Score-Based Models