Memory-Efficient Fine-Tuning Diffusion Transformers via Dynamic Patch Sampling and Block Skipping

该论文提出了名为 DiT-BlockSkip 的内存高效微调框架,通过结合基于时间步的动态补丁采样和基于交叉注意力掩码的块跳过机制,在显著降低显存占用以支持端侧部署的同时,保持了扩散 Transformer 在个性化图像生成任务中的高质量表现。

Sunghyun Park, Jeongho Kim, Hyoungwoo Park, Debasmit Das, Sungrack Yun, Munawar Hayat, Jaegul Choo, Fatih Porikli, Seokeon Choi2026-03-24🤖 cs.AI

PiLoT: Neural Pixel-to-3D Registration for UAV-based Ego and Target Geo-localization

本文提出了名为 PiLoT 的统一框架,通过直接注册实时视频流与地理参考 3D 地图,利用双线程引擎、大规模合成数据集及联合神经引导随机梯度优化器,实现了在 GNSS 拒止环境下 UAV 自定位与目标定位的高精度、低延迟及零样本泛化能力。

Xiaoya Cheng, Long Wang, Yan Liu, Xinyi Liu, Hanlin Tan, Yu Liu, Maojun Zhang, Shen Yan2026-03-24💻 cs

ME-IQA: Memory-Enhanced Image Quality Assessment via Re-Ranking

本文提出了 ME-IQA,一种通过构建记忆库检索语义与感知邻居、利用推理摘要将视觉语言模型重构为概率比较器并结合瑟斯顿模型进行重排序的即插即用测试时框架,旨在解决推理诱导模型在图像质量评估中的离散坍塌问题并提升预测灵敏度。

Kanglong Fan, Tianhe Wu, Wen Wen, Jianzhao Liu, Le Yang, Yabin Zhang, Yiting Liao, Junlin Li, Li Zhang2026-03-24💻 cs

Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models

该论文揭示了多模态大语言模型因单一文本生成目标导致内部视觉表征退化的问题,并提出了预测正则化(PRe)方法,通过强制中间层特征预测初始视觉特征来恢复视觉保真度,从而显著提升模型的视觉语言性能。

Enguang Wang, Qiang Wang, Yuanchen Wu, Ke Yan, Xinbin Yuan, Shouhong Ding, Xialei Liu, Ming-Ming Cheng2026-03-24🤖 cs.LG