TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization
TrianguLang 提出了一种无需相机标定的前馈 3D 定位框架,通过引入利用预测几何信息来抑制几何不一致匹配的“几何感知语义注意力(GASA)”机制,在 ScanNet++ 等五个基准测试中实现了最先进的文本引导分割与定位性能,同时显著降低了用户交互成本并支持实时推理。
2145 篇论文
TrianguLang 提出了一种无需相机标定的前馈 3D 定位框架,通过引入利用预测几何信息来抑制几何不一致匹配的“几何感知语义注意力(GASA)”机制,在 ScanNet++ 等五个基准测试中实现了最先进的文本引导分割与定位性能,同时显著降低了用户交互成本并支持实时推理。
本文提出了一种自适应 MLP 剪枝(AMP)方法,通过引入无标签信息熵准则评估神经元重要性并结合二分搜索算法自适应调整剪枝比例,在无需微调的情况下将大型视觉 Transformer(如 CLIP 和 DINOv2)的参数和计算量减少约 40% 且几乎不损失性能。
本文提出了 SAMoE-VLA,一种通过利用鸟瞰图特征而非 Token 嵌入来动态选择专家、并引入条件跨模态因果注意力机制以增强时空一致性的场景自适应视觉 - 语言 - 动作模型,从而在自动驾驶任务中实现了优于现有方法且参数更少的最先进性能。
本文提出了 FoleyFlow,一种通过掩码建模训练实现音视频语义与节奏对齐,并利用动态条件流框架基于视频特征生成协调音频的新方法,其在基准测试中显著超越了现有成果。
本文提出了无需训练的 UniGround 方法,通过两阶段的拓扑与语义推理机制,在 ScanRefer 和 EmbodiedScan 等基准测试中实现了无需 3D 监督的零样本开放世界 3D 视觉定位,并展现出对未见场景和分布外数据的强泛化能力。
本文提出了 FLED-GS 框架,通过交替进行去模糊与噪声感知 3D 高斯泼溅重建,并引入中间亮度锚点防止噪声放大,实现了在低光照、含噪且运动模糊的 3D 场景中比现有方法快 21 倍训练和 11 倍渲染的高效恢复。
本文提出了一种名为 VesselFusion 的扩散模型,通过结合由粗到细的表示和基于投票的聚合策略,从 3D CT 图像中提取出比传统方法更准确且自然的血管中心线。
本文介绍了 MV-Fashion 数据集,这是一个包含 3273 个序列、7250 万帧的大规模多视角视频数据集,通过提供真实服装动态、像素级语义标注、3D 点云以及“穿着状态与平铺图像”的配对数据,旨在解决现有数据在虚拟试衣和尺码估计等时尚特定任务中的局限性并建立基准。
本文提出了 Edged USLAM,一种结合边缘感知前端与轻量级深度先验的混合视觉惯性系统,旨在通过利用事件相机的高动态范围和时序优势,解决传统 SLAM 在快速运动、低光照及光照突变场景下的失效问题,从而在复杂航拍任务中实现比纯事件或纯学习方法更稳健的定位与建图。
该论文针对电磁领域多模态大语言模型面临的数据稀缺、基准缺失及低信噪比鲁棒性不足三大挑战,提出了包含 EM-100k 数据集、EM-Bench 评测基准以及旨在提升低信噪比环境下性能的 MERLIN 训练框架的完整解决方案,并在实验中验证了其卓越性能。
该论文提出了 ALOOD 方法,通过将 LiDAR 物体特征与视觉 - 语言模型(VLM)的语言表示进行对齐,将未知类别(OOD)物体的检测转化为零样本分类任务,从而有效解决了自动驾驶中 LiDAR 检测器对未知物体过度自信的安全风险。
本文提出了 Fusion-Poly,一种基于时空融合的多模态 3D 多目标跟踪框架,通过有效利用异步 LiDAR 与相机观测数据并引入频率感知匹配与轨迹估计模块,在 nuScenes 数据集上实现了 76.5% AMOTA 的当前最优性能。
该论文提出了多模态温度与间隔调度(MM-TS)方法,通过根据长尾数据分布动态调整对比学习中的温度参数,并将温度调度与最大间隔框架相结合,在多个图像 - 语言和视频 - 语言数据集上实现了新的最先进性能。
该研究针对异构热成像与可见光传感器在无人机检测中的融合难题,提出了注册感知引导图像融合(RGIF)与可靠性门控模态注意力融合(RGMAF)两种策略,通过在 MMFW-UAV 数据集上的实验验证,显著提升了多模态环境下的检测精度与召回率。
本文提出了 Video2LoRA,这是一种基于参考视频的轻量级通用框架,通过为每个语义输入预测个性化 LoRA 权重并集成到冻结的扩散骨干网络中,实现了无需额外训练即可高效生成语义对齐且风格多样的视频。
本文提出了 SAVE 方法,通过引入专用语音分支和软 ALBEF 早期对齐机制,有效解决了现有视频 - 文本检索模型中语音内容表征不足及视听融合次优的问题,并在多个基准测试中超越了当前最先进的方法。
SRNeRV 提出了一种基于尺度自相似性的递归框架,通过解耦并共享尺度不变通道混合模块,在显著降低参数冗余的同时提升了神经视频表示的率失真性能。
本文提出了 GarmentPainter,一种高效且无需严格空间对齐的框架,它利用 UV 位置图作为 3D 结构引导并结合角色参考图像,通过扩散模型在 UV 空间中合成高保真且 3D 一致的服装纹理。
该研究利用 MICCAI 2024 发布的 UWF4DR 数据集,通过基准测试多种深度学习模型(包括 CNN、ViT 和基础模型)在频域与空域的表现,并结合特征级融合与 Grad-CAM 可解释性分析,验证了超广角成像结合先进深度学习技术在糖尿病视网膜病变及黄斑水肿检测中的卓越性能。
该论文提出了名为 SiMO 的单模态可操作多模态协同感知框架,通过长度自适应多模态融合(LAMMA)和“预训练 - 对齐 - 融合 - 去相关”训练策略,解决了现有方法在关键传感器(如 LiDAR)缺失时因特征语义不匹配和模态竞争导致的性能下降问题,实现了在模态故障下仍能保持最优的协同感知能力。