Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

本文揭示了基于强化学习的视觉推理模型通过将冗余视觉表征转化为紧凑的跨域文本表征来实现泛化,并据此提出了 RALI 算法,利用对比学习直接对齐图像与这些文本表征,从而在无需加载大语言模型或执行推理过程的情况下,以极低的参数量和推理时间实现了与推理模型相当的泛化性能。

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

本文提出了一种名为 CASR-Net 的深度学习网络,通过结合多通道预处理、基于 Self-ONN 解码器的 UNet 分割架构以及轮廓细化模块,显著提升了 X 射线冠状动脉造影图像中狭窄血管的分割精度与连续性,为冠心病的早期诊断提供了有力的自动化工具。

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

本文提出了 UniDrive-WM,一种基于统一视觉语言模型的世界模型,通过在一个架构中联合执行驾驶场景理解、轨迹规划及轨迹条件未来图像生成,利用生成预测作为监督信号来相互增强各模块性能,从而在 Bench2Drive 基准测试中显著提升了自动驾驶的规划精度并降低了碰撞率。

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs