Foundation Models in Remote Sensing: Evolving from Unimodality to Multimodality
本文全面调研了遥感领域的基础模型,从单模态到多模态的演进视角系统梳理了现有工作,并通过教程式指导回答了基础模型的定义、必要性及实践方法,旨在帮助研究人员快速掌握并应用这些技术。
8786 篇论文
本文全面调研了遥感领域的基础模型,从单模态到多模态的演进视角系统梳理了现有工作,并通过教程式指导回答了基础模型的定义、必要性及实践方法,旨在帮助研究人员快速掌握并应用这些技术。
本文提出了 MLRecon 框架,利用视觉基础模型和粗到细的位姿优化策略,实现了仅凭单目 RGB-D 相机即可进行抗漂移、高精度的无标记自由手 3D 超声重建,显著提升了资源受限临床环境下的成像可及性。
该论文提出了一种名为 GeodesicNVS 的新颖视图合成方法,通过结合数据到数据的流匹配框架与基于预训练扩散模型概率密度的测地线约束,实现了比传统扩散模型更具几何一致性和视图连贯性的生成效果。
本文介绍了车牌识别系统的技术背景及其在马来西亚交通管理、电子收费、执法监控及跨领域应用中的重要作用。
本文提出了 RaUF 框架,通过建模毫米波雷达的物理各向异性特性来学习细粒度空间不确定性,并引入双向域注意力机制以抑制杂波和虚假回波,从而在恶劣天气下实现高可靠性且不确定性校准良好的空间感知。
本文提出了一种名为 CAFE 的内容感知频率编码方法,通过结合并行线性层与哈达玛积来显式合成更广泛的频率基,并进一步扩展为融合切比雪夫特征的 CAFE+,从而有效克服隐式神经表示中的频谱偏差问题,显著提升了高频率细节的捕捉能力与整体性能。
本文提出了 VL-Anomaly 框架,通过引入预训练视觉 - 语言模型的语义先验及多源推理策略,有效解决了现有道路异常分割方法在背景区域误报率高及未知障碍物漏检的问题,从而显著提升了自动驾驶系统在复杂环境下的感知安全性。
本文针对机器人自动化装配中复杂场景下的卡扣检测难题,提出了一种结合专用传感器与基于自注意力机制的多尺度特征融合网络(SMR-Net),通过注意力嵌入特征提取、多尺度并行处理及自适应重加权机制,显著提升了卡扣检测与定位的精度和鲁棒性。
本文提出了工具增强的推理框架 TAR-FAS,通过构建包含多轮工具使用轨迹的 ToolFAS-16K 数据集并引入多样化的工具组相对策略优化(DT-GRPO)训练机制,使多模态大模型能够从直觉观察过渡到利用外部视觉工具进行细粒度调查,从而在跨域人脸活体检测任务中实现了最先进的性能与可解释性。
该论文提出了 MM-DeepResearch,一种通过引入基于超图的多模态问答数据生成方法(Hyper-Search)、基于工具专家分解与树搜索的轨迹优化策略(DR-TTS)以及支持离线强化学习的多工具搜索引擎,来有效解决多模态深度研究智能体在数据稀缺、轨迹缺乏及训练成本高昂方面挑战的基线模型。
本文提出了 ELF-VLA 框架,通过引入显式失败诊断反馈来指导策略修正,有效解决了自动驾驶 VLA 模型在强化学习中因奖励稀疏导致的长尾场景性能瓶颈,并在 NAVSIM 基准测试中取得了最先进的整体表现。
本文提出了 LLaDA-o,一种基于混合扩散框架的灵活长度自适应全模态扩散模型,它通过解耦文本理解与视觉生成并共享高效注意力骨干,在多模态理解与生成任务中实现了最先进的性能。
本文提出了 SHIELD8-UAV,这是一种面向低功耗无人机声学检测的串行 8 位硬件加速器,它通过结合精度感知量化、结构化剪枝及共享多精度数据通路,在无需大规模并行架构的情况下实现了低延迟、低能耗的边缘实时推理。
本文提出了 A3Point 框架,通过语义混淆先验潜在学习和语义偏移区域定位技术,在有效利用多样化增强数据的同时缓解语义偏移问题,从而显著提升了 LiDAR 语义分割网络在恶劣天气下的鲁棒性并刷新了多项基准测试的纪录。
本文提出了名为 MCMR 的大规模基准,旨在评估多模态大语言模型在自然语言查询下针对多条件、细粒度跨模态检索的能力,并通过涵盖五大产品领域的实验揭示了模态不对称性及基于 MLLM 的重排序机制在提升细粒度匹配中的关键作用。
本文提出了首个涵盖四个维度、十二项指标及三项量化任务的图形设计美学评估基准 AesEval-Bench,通过系统评估各类视觉语言模型的表现并构建基于人类引导的大规模训练数据集,建立了图形设计美学质量评估的系统性框架。
本文提出了 V-SONAR,一种通过将视觉编码器表示对齐到 SONAR 文本空间而构建的统一视觉 - 语言嵌入模型,并基于此开发了 V-LCM,该模型在多语言视频描述和问答任务中不仅达到了现有最先进水平,更在 61 种语言上显著超越了它们。
本文提出了差分隐私医学图像表示几何(DP-RGMI)框架,通过量化表征空间的几何变形与任务头利用率,揭示了差分隐私在医学影像中导致性能下降的内在机制,即隐私保护主要引发表征利用率的显著差距而非简单的特征均匀坍缩。
本文提出了名为 StrokeDiff 的扩散模型框架,通过平滑正则化技术解决了仅凭少量手绘样本(470 个)训练生成可控且多样化油画笔触的数据稀缺难题,并成功将其集成到完整的笔触生成与合成管线中以提升创作表现力。
本文提出了"Egocentric Co-Pilot",这是一种运行于智能眼镜上的 Web 原生神经符号框架,它通过结合大语言模型、时序思维链推理及云边协同架构,实现了基于第一人称视角的实时辅助问答与决策支持,显著提升了视障人士及认知负荷用户的任务完成度与满意度。