Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning
本文提出了名为 AFRO 的自监督框架,通过在不依赖动作或重建监督的情况下,利用生成扩散过程联合建模正向与逆向动力学,成功解决了现有 3D 视觉预训练方法在机器人操作任务中因缺乏状态 - 动作动态建模而表现不佳的问题,显著提升了多任务下的操作成功率并展现出良好的可扩展性。
1863 篇论文
本文提出了名为 AFRO 的自监督框架,通过在不依赖动作或重建监督的情况下,利用生成扩散过程联合建模正向与逆向动力学,成功解决了现有 3D 视觉预训练方法在机器人操作任务中因缺乏状态 - 动作动态建模而表现不佳的问题,显著提升了多任务下的操作成功率并展现出良好的可扩展性。
该论文提出了首个音频 - 视觉世界模型(AVWM)框架,通过构建包含双耳音频与视觉轨迹的 AVW-4k 数据集,并设计 AV-CDiT 多模态扩散 Transformer 模型,实现了在精确动作控制下对视听动态的高保真模拟,显著提升了智能体在连续视听导航任务中的表现。
本文通过深入分析 VGGT 和中全局注意力模块的作用机制,提出了一种无需训练的加速方案,通过将早期层转换为帧注意力并结合 K/V 子采样策略,在显著提升多视图推理速度(最高达 10 倍)的同时保持了原有的精度与鲁棒性。
该论文针对卫星遥感图像中船舶检测面临的尺度差异大和长宽比高等挑战,提出了一种名为 LiM-YOLO 的轻量化检测器,通过统计船舶尺度分布将检测头从传统的 P3-P5 层级调整为 P2-P4 层级以满足奈奎斯特采样条件,并引入组归一化线性投影模块以解决小批量训练下的梯度不稳定问题,从而在显著减少参数量的同时实现了优于现有方法的检测精度。
该论文提出了 ADHint 方法,通过引入样本难度先验来动态调整提示比例,并结合一致性梯度调制与基于难度的优势估计,有效解决了现有基于提示的强化学习方法中探索与模仿失衡及训练不稳定的问题,从而显著提升了模型的推理能力与泛化性能。
该论文提出了方向性文本反转(DTI)方法,通过将嵌入向量幅度固定并仅在单位超球面上优化方向,有效解决了传统文本反转中因嵌入范数膨胀导致的提示词失准问题,从而在提升文本忠实度的同时实现了概念间的平滑语义插值。
该论文针对扩散模型强化学习中的偏好模式崩溃问题,提出了 DivGenBench 基准测试并设计了方向解耦对齐(D²-Align)框架,通过方向性修正奖励信号在保持生成多样性的同时实现了更优的人类偏好对齐。
该论文针对面部伪造检测中的泛化难题,提出了一种名为 SeLop 的低秩正交子空间干预方法,通过识别并剔除导致虚假相关的低秩特征子空间,迫使模型聚焦于真实的伪造痕迹,从而在极少参数量下实现了卓越的跨域泛化性能。
该论文提出利用生成器架构中通用的最终组件“污染”真实图像以训练检测器,并通过构建基于该组件的生成器分类体系,实现了在未见生成模型上高达 98.83% 平均准确率的泛化检测能力。
本文提出了 CLEAR-Mamba 框架,通过引入基于超网络的自适应条件层(HaC)和基于证据不确定性学习的不确定性感知预测方案(RaP),并结合构建的大规模多模态眼底血管造影数据集,显著提升了眼科血管造影图像分类的跨域适应性、准确性及预测可靠性。
该论文提出了包含训练与测试集的 RegionDial-Bench 基准,并设计了通过强制引用边界框及全局 - 局部一致性奖励来强化多轮视觉推理的 RegionReasoner 框架,显著提升了检测与分割任务中的推理准确性、空间定位精度及语义一致性。
该论文提出了 WebAccessVL,一种结合违规检测信息的视觉语言模型,通过监督式图像条件程序合成任务,在保持网页原始视觉设计的同时,自动修复 HTML 代码以显著降低 WCAG2 无障碍违规数量。
该论文提出了一种无需训练的测试时校正(TTC)方法,通过利用初始帧作为稳定参考锚点来校准自回归蒸馏模型在长视频生成过程中的随机状态,从而有效解决了误差累积问题,在几乎不增加开销的情况下实现了长达 30 秒的高质量视频生成。
该论文针对现有单目法线估计方法存在的 3D 几何错位问题,提出了一种名为 RoSE 的新范式,通过将法线估计重构为对几何信息更敏感的“阴影序列估计”,利用图像到视频生成模型预测阴影序列并求解最小二乘问题,从而在真实世界基准测试中实现了最先进的性能。
该论文提出了一种面向神经形态视觉的持续学习框架,通过整合经验回放、可学习神经元参数及自适应脉冲调度机制,在满足能量约束的同时有效缓解了灾难性遗忘,并在帧基与事件基数据集上分别实现了精度提升与能耗降低的双重优化。
该论文从信息论角度分析了多模态学习中的模态竞争问题,提出了一种通过最大化特征与标签间总相关性(TCMax)来缓解竞争并捕捉模态交互的无超参数分类方法,其实验表现优于现有的联合与单模态学习方案。
受非平衡热力学启发的扩散模型虽性能卓越但推理延迟高,而现有蒸馏技术因丢弃中间步骤导致结构信息丢失和离散化误差,为此本文提出了 B-DENSE 框架,通过多分支轨迹对齐机制,让学生模型在扩展通道中同时映射教师轨迹的所有离散中间步骤,从而在训练早期实现密集监督并显著提升生成质量。
本文提出了名为 CoPeDiT 的通用潜在扩散模型,通过引入具备完整性感知能力的自编码器(CoPeVAE)和专用的 3D 扩散 Transformer 架构(MDiT3D),无需依赖外部手动指示即可自主推断缺失状态,从而实现了在多种缺失模式下具有高保真度和语义一致性的统一 3D MRI 合成。
ChimeraLoRA 提出了一种将类共享 LoRA 与多图像特定 LoRA 相结合的新方法,通过语义增强训练和基于狄利克雷分布的混合生成策略,在数据稀缺场景下合成既具多样性又富含细节的图像,从而显著提升下游分类任务的准确性。
本文提出了 OrthoAI 框架,通过结合稀疏监督的 3D 牙齿分割、基于本体约束的可行性推理以及多标准治疗评估,实现了在清矫正畸中从几何感知到临床推理的证据驱动型自动化决策支持。