ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis
该论文提出了 ARSGaussian 方法,通过引入 LiDAR 点云约束、畸变校正坐标变换及几何一致性损失,有效解决了航空遥感场景下 3D 高斯泼溅技术面临的浮点与过度生长问题,并发布了配套的 AIR-LONGYAN 数据集以推动高精度新视角合成研究。
1863 篇论文
该论文提出了 ARSGaussian 方法,通过引入 LiDAR 点云约束、畸变校正坐标变换及几何一致性损失,有效解决了航空遥感场景下 3D 高斯泼溅技术面临的浮点与过度生长问题,并发布了配套的 AIR-LONGYAN 数据集以推动高精度新视角合成研究。
该论文提出了一种基于可操作 3D 关系对象图的移动机器人探索系统,通过编码多样化的物体关系并实现主动交互,有效克服了现有方法在大规模移动探索空间中的局限性,并在泛化性和性能上超越了仅依赖视觉语言模型的方法。
该论文提出了一种名为 iMarkers 的创新型隐形基准标记,旨在解决传统可见标记破坏环境美观的问题,通过专为机器人和 AR 设备设计的硬件与开源算法,实现了在保持视觉隐蔽性的同时具备高灵活性、鲁棒性及广泛适用性的导航与识别功能。
本文提出了 LayoutDreamer 框架,该框架利用 3D 高斯泼溅技术,通过文本引导的有向场景图、自适应布局调整及物理能量约束,实现了高质量且符合物理规律的文本到 3D 组合场景生成,并在 T3Bench 多物体生成指标上取得了最先进水平。
这篇综述论文系统回顾了 200 多篇关于 Wi-Fi 感知泛化性的文献,构建了涵盖从实验设置到模型部署的完整分类体系,深入分析了域适应、元学习等关键技术,总结了相关数据集,并提出了未来研究方向及数据集共享平台,旨在为提升 Wi-Fi 感知系统的泛化能力提供全面指南。
本文提出了识别协同场景文本编辑(RS-STE)方法,通过构建统一框架将文本识别与编辑深度融合,利用多模态并行解码器和无监督循环自监督微调策略,在简化架构的同时实现了优于现有方法的场景文本编辑效果,并提升了下游识别任务性能。
本文提出了一种基于去噪扩散概率模型(DDPM)与师生协同训练框架的半监督生物医学图像分割新方法,通过无监督预训练生成语义掩码并结合多轮伪标签迭代策略,在标注数据有限的情况下显著提升了分割性能并超越了现有最先进技术。
该论文针对现有局部 AI 生成图像检测数据集缺乏场景级编辑覆盖的局限,提出了包含 15 万张图像的大规模场景感知数据集 BR-Gen,并设计了基于噪声指纹引导的特征放大机制 NFA-ViT,通过增强异常特征与正常特征的交互显著提升了局部伪造检测的鲁棒性与泛化能力。
该论文针对现有单源遥感目标检测在复杂环境下的局限性,提出了包含近百万标注实例的多分辨率、多极化、多场景、多源光学-SAR 融合数据集 M4-SAR,并配套开发了统一评测工具包及新型端到端融合检测框架 E2E-OSDet,显著提升了复杂场景下的检测精度。
本文提出了 MARRS 框架,通过结合独立编码身体与手部单元的 UD-VAE、基于随机掩码的 Action-Conditioned Fusion 以及促进单元间交互的 Adaptive Unit Modulation,利用连续表示和扩散模型实现了高质量的细粒度人类动作反应合成。
本文作为首篇针对移动服务机器人的系统性综述,深入探讨了基础模型如何通过语言控制、多模态融合及不确定性推理等机制解决核心挑战,并分析了其在家庭、医疗等场景的应用、伦理影响及未来研究方向。
本文提出了基于扩散变换器(DiT)的 EasyText 框架,通过字符定位编码与位置编码插值技术,结合大规模多语言合成数据集,实现了高质量、可控且布局感知的多语言文本渲染。
本文提出了名为 SpikeSMOKE 的架构,通过引入受生物突触过滤机制启发的跨尺度门控编码(CSGC)和轻量级残差块,成功将低功耗的脉冲神经网络应用于单目 3D 目标检测,在 KITTI 等数据集上显著提升了检测精度并大幅降低了能耗与计算量。
本文提出了名为 FieldLVLM 的新框架,通过结合物理特征提取的领域感知语言生成策略与数据压缩的多模态模型微调,显著提升了大型视觉语言模型对流场等科学领域数据的理解能力。
本文提出了一种名为 MGCR-Net 的多模态图条件视觉 - 语言重建网络,通过利用多模态大语言模型生成文本数据并结合图注意力机制构建语义图条件重建模块,实现了遥感变化检测任务中视觉与文本特征的细粒度对齐与深层语义交互,从而在多个公开数据集上取得了优于主流方法的性能。
该论文提出了一种名为 SFDA-PFT 的轻量级无源域自适应方法,通过在潜在空间中利用预训练的特征翻译器将源域风格映射到仅含中性表情的目标域数据,从而在无需源数据或图像合成的隐私敏感场景下实现了高效的面部表情识别。
本文提出了 EgoCross 基准,旨在通过涵盖手术、工业、极限运动和动物视角等四个高影响力跨域场景的评测,揭示现有多模态大语言模型在 egocentric 视频问答任务中面对域偏移时的泛化局限性,并为构建更鲁棒的领域自适应视频理解系统奠定基础。
本文提出了YOPO,一种单阶段、基于查询的极简检测Transformer框架,仅需单目RGB图像和类别级标签即可实现端到端的9自由度多物体姿态估计,并在多个基准测试中刷新了仅用RGB数据的性能纪录。
CoRe-GS 提出了一种面向任务驱动的粗到精高斯溅射框架,通过仅对感兴趣区域进行选择性优化并引入颜色过滤机制去除异常点,在显著降低计算成本的同时提升了特定场景点的重建质量与分割效率,从而满足机器人实时操作需求。
本文提出了 VocSegMRI 框架,通过融合视频、音频和音位信息并利用交叉注意力机制与对比学习,显著提升了实时磁共振成像(rtMRI)中声道分割的精度与鲁棒性,在 USC-75 数据集上取得了优于现有方法的性能。