SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection
本文提出了一种名为 SPAN 的新方法,通过空间点对齐和 3D-2D 投影对齐机制,结合分层任务学习策略,解决了单目 3D 目标检测中因解耦预测导致的几何不一致问题,从而显著提升了检测性能。
1401 篇论文
本文提出了一种名为 SPAN 的新方法,通过空间点对齐和 3D-2D 投影对齐机制,结合分层任务学习策略,解决了单目 3D 目标检测中因解耦预测导致的几何不一致问题,从而显著提升了检测性能。
本文针对医学图像中多轮推理分割的新任务,构建了大规模数据集 MR-MedSeg 并提出了具备纠错机制的 MediRound 模型,有效解决了传统方法无法支持多轮实体级推理的问题。
本文提出了一种名为自适应多样性缓存(ADC)的免训练、即插即用模块,通过构建类别特定缓存并动态分配容量以增强稀有类别特征,有效缓解了基于视觉语言模型的人机交互检测中的长尾偏差问题。
本文提出了名为 V-Attack 的新型攻击方法,通过利用 Transformer 注意力机制中解耦且富含局部语义信息的“值特征”(Value Features)替代传统纠缠的 patch 特征,并引入自值增强与文本引导操纵模块,实现了对大型视觉语言模型(LVLMs)图像语义的精准可控对抗攻击,显著提升了攻击成功率。
该论文针对视觉 - 语言 - 动作(VLA)模型在未知架构和跨模型场景下缺乏通用对抗攻击的问题,提出了名为 UPA-RFAS 的统一框架,通过结合特征空间优化、鲁棒性增强训练及特定于 VLA 的注意力劫持与语义错位损失,成功生成了能够跨模型、跨任务及跨视角物理转移的通用对抗补丁。
本文提出了名为 AFRO 的自监督框架,通过在不依赖动作或重建监督的情况下,利用生成扩散过程联合建模正向与逆向动力学,成功解决了现有 3D 视觉预训练方法在机器人操作任务中因缺乏状态 - 动作动态建模而表现不佳的问题,显著提升了多任务下的操作成功率并展现出良好的可扩展性。
该论文提出了首个音频 - 视觉世界模型(AVWM)框架,通过构建包含双耳音频与视觉轨迹的 AVW-4k 数据集,并设计 AV-CDiT 多模态扩散 Transformer 模型,实现了在精确动作控制下对视听动态的高保真模拟,显著提升了智能体在连续视听导航任务中的表现。
本文通过深入分析 VGGT 和中全局注意力模块的作用机制,提出了一种无需训练的加速方案,通过将早期层转换为帧注意力并结合 K/V 子采样策略,在显著提升多视图推理速度(最高达 10 倍)的同时保持了原有的精度与鲁棒性。
该论文针对卫星遥感图像中船舶检测面临的尺度差异大和长宽比高等挑战,提出了一种名为 LiM-YOLO 的轻量化检测器,通过统计船舶尺度分布将检测头从传统的 P3-P5 层级调整为 P2-P4 层级以满足奈奎斯特采样条件,并引入组归一化线性投影模块以解决小批量训练下的梯度不稳定问题,从而在显著减少参数量的同时实现了优于现有方法的检测精度。
该论文提出了 ADHint 方法,通过引入样本难度先验来动态调整提示比例,并结合一致性梯度调制与基于难度的优势估计,有效解决了现有基于提示的强化学习方法中探索与模仿失衡及训练不稳定的问题,从而显著提升了模型的推理能力与泛化性能。
该论文提出了方向性文本反转(DTI)方法,通过将嵌入向量幅度固定并仅在单位超球面上优化方向,有效解决了传统文本反转中因嵌入范数膨胀导致的提示词失准问题,从而在提升文本忠实度的同时实现了概念间的平滑语义插值。
该论文针对扩散模型强化学习中的偏好模式崩溃问题,提出了 DivGenBench 基准测试并设计了方向解耦对齐(D²-Align)框架,通过方向性修正奖励信号在保持生成多样性的同时实现了更优的人类偏好对齐。
该论文针对面部伪造检测中的泛化难题,提出了一种名为 SeLop 的低秩正交子空间干预方法,通过识别并剔除导致虚假相关的低秩特征子空间,迫使模型聚焦于真实的伪造痕迹,从而在极少参数量下实现了卓越的跨域泛化性能。
该论文提出利用生成器架构中通用的最终组件“污染”真实图像以训练检测器,并通过构建基于该组件的生成器分类体系,实现了在未见生成模型上高达 98.83% 平均准确率的泛化检测能力。
本文提出了 CLEAR-Mamba 框架,通过引入基于超网络的自适应条件层(HaC)和基于证据不确定性学习的不确定性感知预测方案(RaP),并结合构建的大规模多模态眼底血管造影数据集,显著提升了眼科血管造影图像分类的跨域适应性、准确性及预测可靠性。
该论文提出了包含训练与测试集的 RegionDial-Bench 基准,并设计了通过强制引用边界框及全局 - 局部一致性奖励来强化多轮视觉推理的 RegionReasoner 框架,显著提升了检测与分割任务中的推理准确性、空间定位精度及语义一致性。
该论文提出了 WebAccessVL,一种结合违规检测信息的视觉语言模型,通过监督式图像条件程序合成任务,在保持网页原始视觉设计的同时,自动修复 HTML 代码以显著降低 WCAG2 无障碍违规数量。
该论文提出了一种无需训练的测试时校正(TTC)方法,通过利用初始帧作为稳定参考锚点来校准自回归蒸馏模型在长视频生成过程中的随机状态,从而有效解决了误差累积问题,在几乎不增加开销的情况下实现了长达 30 秒的高质量视频生成。
该论文针对现有单目法线估计方法存在的 3D 几何错位问题,提出了一种名为 RoSE 的新范式,通过将法线估计重构为对几何信息更敏感的“阴影序列估计”,利用图像到视频生成模型预测阴影序列并求解最小二乘问题,从而在真实世界基准测试中实现了最先进的性能。
该论文提出了一种面向神经形态视觉的持续学习框架,通过整合经验回放、可学习神经元参数及自适应脉冲调度机制,在满足能量约束的同时有效缓解了灾难性遗忘,并在帧基与事件基数据集上分别实现了精度提升与能耗降低的双重优化。