LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

LucidNFT 提出了一种基于流匹配的生成式真实世界超分辨率多奖励强化学习框架,通过引入抗退化的语义一致性评估器(LucidConsistency)、解耦的优势归一化策略以及大规模真实退化数据集(LucidLR),有效解决了现有方法中语义幻觉、多奖励优化导致的优势坍缩及退化覆盖不足等关键问题,实现了感知质量与低分辨率锚定忠实度之间的更优平衡。

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

该论文提出了一种名为“骨骼到图像编码”(S2I)的新方法,通过将骨骼序列转换为类图像格式,成功利用大规模预训练视觉模型进行自监督骨骼表征学习,有效解决了骨骼数据格式差异大及多模态动作识别中引入额外分支的难题,并在多个基准数据集上验证了其优越的泛化能力。

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

该论文针对开放词汇目标检测模型在极端低比特量化下性能严重下降的问题,提出了一种结合分阶段优化与文本中心关系知识蒸馏的“课程关系量化感知训练”(CR-QAT)框架,通过逐步量化和关系结构迁移有效缓解了误差累积并保持了细粒度对齐,在 LVIS 和 COCO 零-shot 基准上显著优于现有方法。

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

本文提出了 PROBE,一种无需学习的 LiDAR 三维地点识别描述子,它通过将鸟瞰图(BEV)单元建模为伯努利随机变量并利用极坐标雅可比行列式解析地边缘化连续平移,实现了跨传感器泛化且无需针对特定数据集进行调优,在多个数据集上取得了优于现有手工描述子的性能。

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

本文针对现有无人机多目标跟踪基准缺乏复杂动态场景的问题,提出了包含 42 个序列和超 170 万标注框的 DynUAV 基准,该基准通过引入剧烈自运动、尺度变化及运动模糊等挑战,揭示了当前最先进跟踪器的局限性并推动了真实场景下的研究进展。

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs