Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation
本文提出了名为 FEP-Nav 的生物启发框架,通过结合自上而下的解码器与自适应归一化机制,在无需梯度更新的情况下实时最小化变分自由能,从而显著提升了机器人在噪声和感官突变环境下的视觉导航鲁棒性。
3575 篇论文
本文提出了名为 FEP-Nav 的生物启发框架,通过结合自上而下的解码器与自适应归一化机制,在无需梯度更新的情况下实时最小化变分自由能,从而显著提升了机器人在噪声和感官突变环境下的视觉导航鲁棒性。
本文提出了 InstructHumans 框架,通过引入一种能平衡编辑效果与源角色一致性的改进版编辑分数蒸馏采样(SDS-E)方法,实现了基于指令的动画化 3D 人体纹理的高质量编辑。
本文提出了 EasyAnimate,这是一个基于扩散 Transformer 的高性能视频生成框架,通过引入混合窗口注意力机制、奖励反向传播微调、基于 Token 长度的训练策略以及多模态大语言模型文本编码器,在显著提升训练与推理效率的同时实现了视频生成质量与人类偏好对齐的突破,并在 VBench 榜单及人工评估中取得了最先进水平。
该论文提出了一种名为 MAD-Avatar 的新方法,通过结合 3D 感知的人体运动模糊物理模型与 3D 人体运动模型,直接从模糊的多视角视频中联合优化重建出清晰的可动画 3D 高斯人体Avatar。
本文提出了 Track Anything Behind Everything (TABE),这是一种无需预训练类别标签、仅需首帧可见掩码即可实现零样本遮挡视频物体分割的新方法,其通过将遮挡分割建模为基于预训练视频扩散模型的生成式外推,并在测试时进行微调以专门追踪特定物体。
该论文提出了一种无需重训练的模型无关可学习稀疏性框架,通过设计覆盖整个扩散过程的端到端优化目标及时间步梯度检查点技术,在显著降低显存占用的同时,实现了对 SDXL 和 FLUX 等先进扩散模型高达 20% 的参数剪枝且几乎不影响生成质量。
本文提出了一种名为 FGA 的平坦度引导测试时适应框架,通过利用锐度感知提示微调获取的平坦极小值几何线索来指导测试样本选择,从而在不进行昂贵参数更新的情况下,有效统一了视觉语言模型的训练与测试过程并显著提升了跨域性能。
本文提出了一种将 3D 世界建模与策略学习无缝融合的 3D 动力学感知操作框架,通过引入三个自监督学习任务赋予策略模型 3D 预见能力,从而在不牺牲推理速度的前提下显著提升了涉及深度运动的机器人操作性能。
本文提出了 MedFuncta,这是一个针对大规模医学数据集的统一神经场训练框架,它通过共享元学习神经场和 1D 潜在向量实现跨实例泛化,并引入了改进的 SIREN 激活频率调度与稀疏监督策略以提升效率,同时发布了包含超过 50 万个潜在向量的首个大规模医学神经场数据集 MedNF。
本文提出了一种名为 RapidPoseTriangulation 的新算法,能够在毫秒级时间内实现多视角、多人的全身姿态三角测量,具备出色的泛化能力并支持面部及手指等细节的精准捕捉。
本文提出了一种名为 Noise2Ghost 的自监督深度学习鬼成像重建方法,该方法无需清洁参考数据即可在低信噪比条件下实现卓越的图像重建质量,特别适用于微纳尺度 X 射线荧光成像等对剂量敏感的生物及电池样本的在体与原位研究。
本文提出了 LMPOcc 框架,通过设计高效的当前 - 先验融合模块与模型无关的先验格式,实现了局部 3D 语义 occupancy 预测与全局 occupancy 建图的协同学习,在提升复杂场景下预测精度的同时支持大规模 crowdsourcing 建图及开放词汇 3D 地图构建。
本文提出了 PhysLLM 框架,通过文本原型引导策略、双域平稳算法及任务特定提示机制,将大语言模型与 rPPG 领域知识深度融合,有效解决了光照变化和运动伪影等挑战,在远程生理信号感知任务中实现了最先进的精度与鲁棒性。
ReactDance 是一种基于扩散框架的舞蹈生成方法,通过引入分层有限标量量化(HFSQ)实现精细的空间控制,并利用分块局部上下文(BLC)策略高效生成具有长期时间一致性的高质量长序列反应式舞蹈。
本文提出了 RESAR-BEV,一种基于可解释性渐进残差自回归学习的相机 - 雷达融合框架,通过 Drive-Transformer 与 Modifier-Transformer 的级联架构实现从粗到细的 BEV 语义分割,在 nuScenes 数据集上以 54.0% 的 mIoU 和 14.6 FPS 的实时性能实现了最先进的感知效果。
本文提出了 DHECA-SuperGaze 方法,通过结合超分辨率技术与双路头眼交叉注意力机制,并修正了 Gaze360 数据集的标注错误,显著提升了非受控环境下视线估计的精度与泛化能力。
本文提出了 OSPO(面向对象的自改进偏好优化)框架,通过构建无需外部依赖的对象级偏好数据并结合注意力掩码与加权损失函数,有效解决了多模态大模型在文本生成图像时细粒度对齐困难及物体幻觉问题,显著提升了生成质量。
本文提出了一种名为 EDITOR 的可解释性提示词反演方法,通过结合预训练图像描述模型、潜在空间逆向工程及嵌入转文本技术,在图像相似度、文本对齐度及可解释性等方面超越了现有方法,并展示了其在跨概念合成、概念操控及无监督分割等任务中的应用潜力。
本文提出了 HypeVPR,一种利用双曲空间固有层级特性来组织特征聚合的框架,旨在通过统一全景与视角图像的层级表示,高效解决视角到全景的视觉地点识别问题,并在保持匹配鲁棒性的同时显著提升检索速度并降低存储需求。
法国国家地理与林业信息研究所(IGN)推出了名为 FLAIR-HUB 的大规模多模态数据集,该数据集整合了六种对齐的遥感数据模态并覆盖法国 2528 平方公里区域,旨在通过大规模标注支持高精度的土地覆盖与作物类型制图研究。