Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno

发布于 2026-03-10

📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 Prithvi-EO-2.0 的超级人工智能模型，它是专门用来“看懂”地球卫星图像的。你可以把它想象成一位拥有全球视野的“地球超级管家”。

为了让你更容易理解，我们可以用几个生活中的比喻来拆解这篇论文的核心内容：

1. 它是什么？（从“单眼”到“全知”的进化）

以前的卫星图像分析模型（比如它的上一代 Prithvi-EO-1.0），就像是一个只看过美国风景的摄影师。他虽然很专业，但没见过世界其他地方，而且他看照片时，往往只盯着某一瞬间，不知道季节变化或地点的具体信息。

Prithvi-EO-2.0 则完全不同：

全球视野：它吃掉了 NASA 存档的 420 万张 全球卫星照片（来自 Landsat 和 Sentinel 卫星），分辨率是 30 米（大概是一个篮球场的长度）。
时间旅行者：它不仅看照片，还看时间。它能理解同一块土地在春天、夏天、秋天和冬天的变化（比如庄稼怎么长，森林怎么绿）。
地理学家：它知道照片是在哪里拍的（经纬度），这让它能区分热带雨林和沙漠的不同规律。

2. 它是怎么学习的？（“蒙眼猜图”的游戏）

这个模型是怎么变聪明的呢？它玩了一种叫**“掩码自动编码器”（MAE）的游戏，这就像“看图填空”**：

想象你给模型看一张卫星图，然后故意把图的一部分（比如 75%）涂黑遮住。
模型的任务是：根据剩下的部分，猜出被遮住的地方是什么（是森林？是城市？还是水？）。
通过反复玩这个游戏，模型学会了地球表面的各种“规律”和“纹理”。
Prithvi-EO-2.0 的升级点：以前的模型只猜“是什么”，现在的模型在猜的时候，还会结合“这是哪一年、什么季节、在地球哪个角落”来猜，所以猜得更准。

3. 它有多厉害？（考试与实战）

研究人员把这位“超级管家”拉去参加了一场名为 GEO-Bench 的“地球科学奥林匹克竞赛”。

考试成绩：它比上一代模型提高了 8% 的成绩，并且打败了其他 6 个著名的竞争对手。
实战能力：它不仅能做考试题，还能处理各种复杂的现实任务：
- 救灾：洪水来了，它能迅速画出哪里被淹了；森林着火了，它能判断烧得有多严重。
- 农业：它能识别美国或欧洲的农田里种的是玉米还是大豆，甚至能估算森林里的木材总量（生物量）。
- 生态：它能帮助科学家计算植物通过光合作用吸收了多少二氧化碳。

4. 为什么它这么重要？（“少样本”的超能力）

以前，要让 AI 学会识别某种灾害（比如滑坡），通常需要成千上万张标注好的人工图片，这就像请老师手把手教学生，非常耗时耗力。

Prithvi-EO-2.0 因为已经在“全球大课堂”里自学了 420 万张图，所以它举一反三的能力极强：

少样本学习：如果只给它看 1% 的新数据（比如只有 50 张滑坡照片），它就能学得比那些从头开始学的模型好得多。这就像是一个博学的专家，只需要看几眼新情况，就能迅速上手，而不需要重新培训。

5. 它是如何被使用的？（开源与工具）

最棒的是，这个模型是完全免费开源的。

作者们不仅发布了模型，还把它装进了一个叫 TerraTorch 的“工具箱”里。
这就像他们不仅把“超级管家”送给了大家，还附赠了一本傻瓜式操作手册和专用工具，让任何想研究地球的人（无论是科学家、政府官员还是环保组织）都能轻松使用它来解决实际问题。

总结

Prithvi-EO-2.0 就像是一位读过万卷书、行过万里路、且拥有时间旅行能力的地球专家。它通过观察全球几十年的卫星变化，学会了理解地球的呼吸和脉搏。现在，它被免费开放给全人类，帮助我们要更好地应对洪水、火灾、粮食安全和气候变化等挑战。

这篇论文不仅展示了一个强大的 AI 模型，更展示了科学界如何通过合作、开放和透明（Trusted Open Science），共同推动技术进步，让技术真正服务于地球和人类。

Each language version is independently generated for its own context, not a direct translation.

Prithvi-EO-2.0：面向地球观测的多时相基础模型技术总结

本文介绍了 Prithvi-EO-2.0，这是由 IBM、NASA 及多家学术机构联合开发的新一代地理空间基础模型（Geospatial Foundation Model, GFM）。作为其前身 Prithvi-EO-1.0 的升级版，该模型旨在解决现有地球观测（EO）基础模型在多时相建模、广泛验证以及实际应用落地方面的局限性。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

尽管地理空间基础模型（GFMs）在减少人工标注数据需求方面展现出巨大潜力，但现有的模型仍存在三个主要局限：

缺乏多时相建模能力：大多数 GFMs 仅处理单时相数据或仅关注极小区域的长时序点数据，无法有效捕捉全球尺度的季节变化和长期趋势。
验证不足：缺乏针对不同任务类型和分辨率的深入验证及清晰的比较协议，导致用户难以评估模型是否适用于特定场景。
应用门槛高：将先进的 GFMs 适配到具体应用（如灾害响应、作物监测）通常需要深厚的 AI 专业知识，且缺乏标准化的微调工具和指南。

2. 方法论 (Methodology)

A. 数据集构建与采样策略

数据源：基于 NASA 的 HLS (Harmonized Landsat and Sentinel-2) 数据档案，覆盖全球，空间分辨率为 30 米。
规模：训练集包含 420 万 个全球时间序列样本，时间跨度为 2014 年至 2023 年（10 年）。
采样策略：
- 多样性：根据土地利用/覆盖（LULC）类别和生态区（Ecoregions）进行分层采样，确保覆盖森林、城市、农田等多样生态系统。
- 时序设计：构建包含 4 个时间戳 的序列，时间间隔为 1-6 个月，以捕捉季节性模式和长期变化，同时避免连续图像过于相似。
- 质量控制：剔除云量过高（>20%）或缺失值过多的样本，并对海洋和沙漠等均匀区域进行欠采样以平衡训练分布。

B. 模型架构

核心架构：基于 Masked Autoencoder (MAE) 和 Vision Transformer (ViT)。
3D 嵌入：将原有的 2D 补丁（Patch）嵌入和位置编码升级为 3D 版本，以支持时空输入（时间 $T$ × 高度 $H$ × 宽度 $W$ ）。
元数据融合：
- 显式引入地理位置（经纬度）和时间（年份、年积日）元数据。
- 使用可学习的权重将元数据嵌入作为偏置（Bias）添加到 Token 中，而非作为额外输入，使模型能学习元数据对特征表示的影响。
- 设计了Drop 机制，在预训练期间随机丢弃元数据，增强模型在缺乏元数据时的鲁棒性。
模型规模：开发了 3 亿参数 (ViT-L) 和 6 亿参数 (ViT-H) 两个版本。

C. 训练与微调

预训练：在 JUWELS 超级计算机上使用 256x256 像素的 4 时相图像块进行自监督训练（重建被遮挡的像素）。
微调工具：集成到 TerraTorch 工具包中，简化了针对不同下游任务的定制和微调流程。
评估协议：
- 基准测试：使用 GEO-Bench 框架，涵盖 6 个分类和 6 个语义分割数据集。
- 下游任务：与领域专家（SME）合作，在灾害响应、土地覆盖/作物制图和生态系统动态三大领域进行验证。

3. 关键贡献 (Key Contributions)

首个大规模多时相全球基础模型：在 420 万样本、10 年跨度的全球 HLS 数据上训练，显式建模了时空维度。
性能显著提升：在 GEO-Bench 基准测试中，Prithvi-EO-2.0 相比前代模型（Prithvi-EO-1.0）平均性能提升 8%，并优于其他 6 种主流 GFMs（如 DOFA, DeCUR, ScaleMAE 等）。
跨分辨率与跨领域泛化：模型仅在 30m 分辨率数据上预训练，但在 0.1m 到 15m 分辨率的下游任务中均表现出色，证明了其强大的泛化能力。
开放科学与社区赋能：
- 模型开源（Hugging Face, IBM TerraTorch）。
- 代码和数据加载器开源（GitHub）。
- 遵循“可信开放科学（Trusted Open Science）”原则，强调端到端用户的早期参与。

4. 实验结果 (Results)

A. 基准测试 (GEO-Bench)

综合表现：Prithvi-EO-2.0-600M-TL（带时空嵌入）在所有 12 个数据集上取得了最佳综合性能。
消融实验：
- 更大的数据集（从 25 万到 420 万样本）带来了约 3% 的性能提升。
- 增加参数量（300M vs 600M）显著提升了性能。
- 引入时空元数据（TL）的模型在所有任务中均优于无元数据版本，证明了时空嵌入的有效性。

B. 下游任务表现

灾害响应：
- 洪水与野火制图：在 Sen1Floods11 和野火疤痕数据集上，Prithvi-EO-2.0 的水体/疤痕类别 IoU 比前代模型提升了 3.5-5.6 个百分点。
- 滑坡检测 (Landslide4Sense)：在少样本学习场景下（仅使用 1% 的训练数据），Prithvi-EO-2.0 的表现远优于传统的 U-Net 和 U-Net++，证明了其从大规模预训练中获得的强泛化能力。
土地覆盖与作物制图：
- 美国作物分割：mIoU 达到 50.7%，显著优于 U-Net。
- 欧洲土地覆盖分类 (Sen4Map)：在仅使用 6.25% 数据的情况下，仍优于从头训练的 ViViT 基线模型。
- PASTIS 长序列分割：能够处理长达 61 帧的序列，表现优于缺乏时序建模的模型（如 DOFA, Satlas）。
生态系统动态：
- 地上生物量 (AGB)：仅使用多光谱数据，性能接近结合 SAR 数据的多模态基线模型。
- 总初级生产力 (GPP)：在 37 个全球通量塔站点上，Prithvi-EO-2.0-600M-TL 的 $R^2$ 达到 0.88（2018 年测试），显著优于随机森林和 XGBoost 模型，且无需人工植被指数作为输入。

5. 意义与影响 (Significance)

技术突破：证明了在大规模、多时相、全球尺度的自监督预训练可以显著提升地球观测模型在复杂任务中的表现，特别是解决了数据稀缺（Few-shot）和长时序建模的难题。
实际应用价值：通过 TerraTorch 工具包和 SME 的深度参与，降低了 AI 在灾害响应、农业监测和气候变化研究中的应用门槛。
科学范式：该项目展示了跨机构（NASA, IBM, 大学等）合作开发可信、开放、可复现的 AI 模型的潜力，为未来地球观测 AI 的发展树立了标杆。

总结：Prithvi-EO-2.0 不仅是一个性能更强的模型，更是一个经过严格验证、易于使用且面向全球应用的地理空间基础模型，标志着地球观测 AI 从单点任务向通用时空智能迈出了重要一步。

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications