Order Is Not Layout: Order-to-Space Bias in Image Generation
该论文揭示了现代图像生成模型中存在的“顺序到空间偏差”(OTS)现象,即实体提及顺序会错误地决定空间布局,并通过提出 OTS-Bench 基准测试证实了该偏差的普遍性及其数据驱动本质,同时展示了通过针对性微调或早期干预策略可有效缓解该问题。
6182 篇论文
该论文揭示了现代图像生成模型中存在的“顺序到空间偏差”(OTS)现象,即实体提及顺序会错误地决定空间布局,并通过提出 OTS-Bench 基准测试证实了该偏差的普遍性及其数据驱动本质,同时展示了通过针对性微调或早期干预策略可有效缓解该问题。
本文提出了一种名为 LGNet 的新型玻璃分割架构,通过融合冻结的 DINOv3 通用视觉特征与监督训练的 Swin 任务特定特征,并借助残差 Squeeze-and-Excitation 通道缩减和 Mask2Former 解码器,在多个数据集上实现了优于现有最先进方法的精度与推理速度。
本文提出了名为 QD-PCQA 的无参考点云质量评估框架,通过引入秩加权条件对齐和质感引导特征增强策略,有效解决了现有无监督域适应方法在感知质量排序敏感性和特征对齐方面的不足,从而显著提升了点云质量评估的泛化能力。
本文提出了 PROSPECT,一种通过融合 CUT3R 流式 3D 空间编码与 SigLIP 语义特征、并利用潜在预测表示学习来增强环境动态建模能力的统一流式视觉语言导航智能体,其在 VLN-CE 基准测试及真实机器人部署中均展现了最先进的性能与长程鲁棒性。
本文提出了 DAGE,一种通过低分辨率流构建全局一致性、高分辨率流保留细节特征,并利用轻量级适配器融合的双流 Transformer 架构,从而在保持高效推理的同时实现了高分辨率视频几何估计与多视图重建的 State-of-the-Art 性能。
本文提出了基于隐式神经表示(INR)的 WSI-INR 框架,通过构建从空间坐标直接映射到组织语义的连续函数并引入多分辨率哈希网格编码,有效解决了传统补丁法破坏空间连续性的问题,实现了在保持跨分辨率鲁棒性的同时显著提升了对高度异质性病理病灶的分割性能。
本文提出了知识增强的细粒度推理代理(KFRA),通过构建包含开放词汇检测、判别性区域定位及多模态证据整合的三阶段闭环推理机制,实现了在开放集条件下具备可解释性和事实依据的细粒度视觉理解,并在自建的 FGExpertBench 基准测试中显著超越了现有模型。
本文提出了 DriveMVS 框架,通过利用稀疏但精确的 LiDAR 观测作为几何提示来锚定绝对尺度,并结合多视图与多时域信息的深度融合,实现了自动驾驶场景下兼具高精度、时空一致性及跨域泛化能力的度量深度估计。
本文提出了一种面向复杂背景小目标检测的多级特征增强与全局关系建模框架,通过引入残差 Haar 小波下采样、全局关系建模、跨尺度混合注意力机制及中心辅助损失函数,有效解决了特征退化与定位不准问题,在 RGBT-Tiny 基准测试中显著优于现有最先进方法。
本文提出了无需训练的 TAP 框架,通过利用单层模型探测为每个 token 自适应选择最优预测器,在几乎不增加开销的前提下显著加速了扩散模型的推理过程,同时保持了生成质量。
针对长期测试时适应中因累积误差导致模型崩溃的问题,该论文提出了一种自适应选择性重置(ASR)方案,通过动态决定重置时机与范围、引入重要性感知正则化以恢复关键知识,并结合在线调整机制,有效解决了周期性全重置带来的次优适应与知识丢失问题。
该论文提出了一种名为 STAR 的创新自回归预训练方法,通过在每个图像前插入分隔符来显著扩展 Vision Mamba 的输入序列长度,从而在 ImageNet-1k 上实现了 83.5% 的优异准确率。
本文提出了一种基于 YOLOv10 的轻量级水下目标检测框架,通过集成多阶段自适应增强模块、双池化序列注意力机制以及 FGIoU 损失函数,在 RUOD 和 DUO 数据集上显著提升了检测精度并保持了模型的高效性。
本文针对数据集蒸馏中软标签存储开销过大的问题,提出了一种基于矢量量化自编码器的软标签压缩方法,在 ImageNet-1K 等基准测试中实现了比现有基线高 30-40 倍的压缩率,同时保留了超过 90% 的原始性能。
本文提出了一种名为结构感知提示适应(SPA)的即插即用方法,通过利用语义相关概念在嵌入空间中的局部结构一致性,在训练阶段约束结构并推理阶段引导对齐,从而有效提升了开放词汇组合零样本学习(OV-CZSL)中从已知到未知属性及对象的泛化能力。
该论文提出了“懒惰注意力定位”现象,揭示了多模态冷启动未能提升视觉关注度的问题,并据此设计了无需重训练的干预方法及名为 AVAR 的冷启动框架,使 Qwen2.5-VL-7B 在多个多模态推理基准上平均提升了 7.0%。
本文提出了名为 FoundPS 的通用全色锐化基础模型,通过模态交错 Transformer、潜在扩散桥接机制及无限维像素 - 潜在交互设计,解决了现有方法泛化性差的问题,并构建了大规模基准 PSBench,在多种卫星和场景下实现了卓越且稳健的融合性能。
针对现有全功能图像复原模型中语义特征与退化模式存在虚假关联及退化模式估计偏差的问题,本文提出了一种因果去混淆小波解耦提示网络(CWP-Net),通过编码器与解码器的小波注意力模块解耦特征,并利用小波提示块生成替代变量以消除偏差,从而在统一模型中实现了更优的通用图像复原效果。
DeepScan 是一种无需训练的框架,通过模仿人类自底向上的视觉证据定位与推理机制,结合分层扫描、重聚焦和证据增强推理,显著提升了大视觉语言模型在细粒度视觉理解任务中的准确性与可解释性。
该论文针对现有红外与可见光图像融合方法难以契合人类视觉偏好的问题,构建了首个包含多维主观评分的大规模人类反馈数据集,并据此提出一种结合奖励模型与组相对策略优化(GRPO)的反馈强化框架,显著提升了融合图像的人眼感知质量。