Any2Any: Unified Arbitrary Modality Translation for Remote Sensing

本文提出了 Any2Any 框架,通过构建共享潜在表示和轻量级适配器实现统一的任意遥感模态翻译,并发布了首个百万级多模态数据集 RST-1M,在 14 项任务中显著超越了传统成对翻译方法并展现出强大的零样本泛化能力。

Haoyang Chen, Jing Zhang, Hebaixu Wang, Shiqin Wang, Pohsun Huang, Jiayuan Li, Haonan Guo, Di Wang, Zheng Wang, Bo Du

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Any2Any 的新系统,它的目标是解决遥感图像(也就是从卫星或飞机上拍地球的照片)中一个非常头疼的问题:如何把一种类型的照片“翻译”成另一种类型,而且不管是什么类型都能通吃。

为了让你更容易理解,我们可以把这篇论文的核心内容想象成**“万能翻译官”**的故事。

1. 背景:地球观察员的“语言障碍”

想象一下,你是一位地球观察员,手里有好几种不同功能的“相机”:

  • RGB 相机:像人眼一样,拍出来的就是彩色的普通照片(白天看得清,晚上或阴天就瞎了)。
  • SAR 相机:像雷达,能穿透云层和黑夜,拍出来的照片是黑白的,而且看起来像噪点很多(但全天候都能工作)。
  • NIR(近红外)PAN(全色)MS(多光谱):这些是各种“超级眼睛”,能看到人眼看不到的热量、植被健康状况等。

问题出在哪?
在现实中,我们很难同时拥有同一块土地的这五种照片。有时候只有 SAR(因为阴天),有时候只有 RGB(因为天气好)。
以前的做法是:如果你想把 SAR 变成 RGB,就训练一个专门的“翻译员”;想从 NIR 变到 MS,再训练另一个“翻译员”。

  • 缺点:如果有 5 种相机,两两组合就需要训练 $5 \times 4 = 20$ 个翻译员!而且,如果突然来了第 6 种相机,或者你想把 SAR 直接变 MS(以前没练过),这些翻译员就完全不会了。这就像你为了去不同国家,必须背 20 本不同的字典,太笨重了。

2. 核心突破:Any2Any 的“万能大脑”

这篇论文提出了 Any2Any,它不再训练一堆专门的翻译员,而是训练了一个**“万能翻译大脑”**。

比喻一:通用的“思维空间” (Shared Latent Space)

想象所有的照片(无论是 SAR 的噪点图,还是 RGB 的彩色图)其实都在描述同一个**“地理真相”**(比如这里是一座山,那里是一条河)。

  • 旧方法:试图直接建立 SAR 和 RGB 之间的直线联系(像走独木桥),一旦桥断了(遇到新组合),路就没了。
  • Any2Any 方法:它先把所有照片都扔进一个**“通用思维空间”**(Latent Space)。在这个空间里,不管你是 SAR 还是 RGB,只要描述的是“山”,它们就长得一样。
    • 这就好比:不管你是说中文、英文还是法文,只要你想表达“苹果”,在“思维空间”里就是一个红色的圆形水果。
    • Any2Any 先把输入的照片“翻译”成这个通用思维语言,然后再从这个通用语言“翻译”成你想要的目标照片。

比喻二:乐高积木与微调插件 (Residual Adapters)

虽然有了通用大脑,但不同相机的“脾气”不一样(比如 SAR 的噪点风格,RGB 的色彩风格)。

  • 解决方案:Any2Any 给每种目标相机都配了一个**“轻量级微调插件”**(Residual Adapter)。
  • 生活类比:想象你有一个通用的乐高底座(共享大脑),如果你要拼一辆红色的法拉利,就加上红色的插件;如果要拼蓝色的卡车,就加上蓝色的插件。
  • 好处:不需要重新造整个大脑,只需要换个插件,就能适应新的任务。这让系统既强大又灵活。

3. 数据基石:RST-1M 数据集

要训练这个“万能大脑”,需要海量的教材。以前的教材太少了,而且都是零散的(只有 SAR 和 RGB 配对,没有 SAR 和 MS 配对)。

  • RST-1M:作者们收集并整理了一个百万级的超级数据集,包含了 120 万张配对好的照片,涵盖了上述 5 种相机。
  • 作用:这就像给翻译官提供了一本**“地球百科全书”**。因为数据量够大且连接紧密(比如 SAR 连 RGB,RGB 连 MS),大脑可以通过“间接学习”学会从未直接见过的组合(比如 SAR 直接变 MS)。

4. 成果:不仅快,还能“举一反三”

论文做了很多实验,结果非常惊人:

  1. 全面超越:在 14 种不同的翻译任务中,Any2Any 的表现都比以前那些专门训练的“单科翻译员”要好(图片更清晰、更准确)。
  2. 零样本能力 (Zero-shot):这是最酷的地方。虽然训练时可能没教过"SAR 直接变 MS",但因为大脑学会了通用的地理规律,它能自动猜出怎么变,而且猜得很准。
    • 类比:就像你学会了中文和英文,虽然没人教过你“中文直接变法语”,但因为你理解了“苹果”这个概念,你就能猜出法语里大概怎么表达。

总结

Any2Any 就像是遥感领域的**“巴别塔”
它不再让每种相机语言各自为战,而是建立了一个
通用的理解层**。

  • 以前:你需要 N2N^2 个翻译员,又贵又慢,还学不会新语言。
  • 现在:你只需要 1 个万能大脑 + 几个小插件,就能实现任意相机之间的自由转换,甚至能处理以前没见过的组合。

这对于未来的地球监测、灾害救援(比如云遮住了,用雷达图变出可见光图)有着巨大的应用价值,让地球观察变得更加连续和全天候。