cs.CV 篇论文 | Gist.Science

本文提出了 ME-IQA，一种通过构建记忆库检索语义与感知邻居、利用推理摘要将视觉语言模型重构为概率比较器并结合瑟斯顿模型进行重排序的即插即用测试时框架，旨在解决推理诱导模型在图像质量评估中的离散坍塌问题并提升预测灵敏度。

本文提出了 Co-VLN 框架，通过让在共享环境中并发导航的智能体交换结构化感知记忆以共享视野，有效克服了视觉语言导航中的部分可观测性限制，并在 R2R 基准测试中显著提升了不同范式下的导航性能。

该论文提出了一种名为 Clifford-M 的轻量级骨干网络，通过引入稀疏几何交互替代传统的显式频域分解模块，在仅使用 0.85M 参数的情况下实现了优于大型 CNN 基线的眼底图像多标签分类性能，证明了无需复杂频率工程即可高效捕捉多尺度结构特征。

该论文揭示了多模态大语言模型因单一文本生成目标导致内部视觉表征退化的问题，并提出了预测正则化（PRe）方法，通过强制中间层特征预测初始视觉特征来恢复视觉保真度，从而显著提升模型的视觉语言性能。

该论文提出了一种名为 EDC 的高效且基于差异条件的光学-SAR 语义分割框架，通过引入携带令牌的多流编码器、差异条件混合融合机制以及教师引导的蒸馏辅助云去除分支，在显著降低计算复杂度和参数量的同时，有效解决了云遮挡下的跨模态噪声传播问题，实现了精度与效率的双重提升。

本文提出了 PlanaReLoc，一种基于 3D 平面原语和区域结构匹配的轻量级相机重定位方法，它通过深度学习匹配器在统一嵌入空间中关联查询图像与地图的平面特征，从而在无需纹理地图、位姿先验或逐场景训练的情况下，实现结构化环境中鲁棒的 6 自由度相机位姿估计。

本文提出了 EruDiff 方法，通过扩散知识分布匹配（DK-DM）和仅负向强化学习（NO-RL）策略重构扩散模型中的知识结构，从而显著提升了模型在科学常识及世界知识等隐式提示下的文本到图像生成能力。

本文提出了首个统一的多域 RAW 图像翻译框架 MERIT，通过引入传感器感知噪声建模损失和条件多尺度大核注意力模块，结合新发布的 MDRAW 数据集，实现了在单一模型下跨任意相机域的高效 RAW 图像转换，显著提升了图像质量并降低了训练成本。

Dodgersort 是一种结合 CLIP 预排序、神经排序头及不确定性感知主动学习的人机协同成对排序框架，通过智能筛选关键比较对，在显著减少人工标注成本的同时提升了医疗、历史及美学等视觉排序任务中的排序可靠性与信息效率。

本文介绍了 GOLDMARK，这是一个基于 TCGA 和 MSKCC 队列构建的标准化基准框架，旨在通过提供结构化中间数据、预训练模型及统一评估指标，解决计算病理学在临床级部署中缺乏标准化和可复现性的问题，并验证了其在特定形态 - 基因组关联任务中的稳健性能。