Xray-Visual Models: Scaling Vision models on Industry Scale Data

本文提出了 Xray-Visual,这是一种基于 Facebook 和 Instagram 海量数据训练的统一视觉模型,通过创新的三阶段训练流程、高效架构设计以及大语言模型文本编码器的集成,在图像与视频理解、跨模态检索等任务上实现了兼具高精度、强鲁棒性与计算效率的业界领先性能。

Shlok Mishra, Tsung-Yu Lin, Linda Wang, Hongli Xu, Yimin Liu, Michael Hsu, Chaitanya Ahuja, Hao Yuan, Jianpeng Cheng, Hong-You Chen, Haoyuan Xu, Chao Li, Abhijeet Awasthi, Jihye Moon, Don Husa, Michael Ge, Sumedha Singla, Arkabandhu Chowdhury, Phong Dingh, Satya Narayan Shukla, Yonghuan Yang, David Jacobs, Qi Guo, Jun Xiao, Xiangjun Fan, Aashu Singh

发布于 2026-02-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Xray-Visual 的超级“视觉大脑”。你可以把它想象成 Meta(Facebook 和 Instagram 的母公司)为了教电脑“看懂”世界,而打造的一个超级学霸

为了让你更容易理解,我们把这篇论文的核心内容拆解成几个生动的故事:

1. 它的“食谱”:从垃圾堆里淘金 (数据清洗)

以前的电脑视觉模型,就像是在吃“快餐”,数据虽然多但质量参差不齐(比如图片里全是乱码、广告链接或者毫无意义的表情符号)。

Xray-Visual 的团队做了一件很酷的事:他们从 Facebook 和 Instagram 上收集了超过 1000 亿张图片和视频。这就像是从一个巨大的、混乱的垃圾填埋场里,开始筛选宝藏。

  • 清洗过程:他们派出了“清洁工”(算法),把垃圾(URL 链接、乱码、无关标签)全部扔掉,只留下真正有营养的“食材”(图片内容和有意义的文字描述)。
  • 营养均衡:他们发现,如果只给模型看“猫”和“狗”的图片,它学不会看“大象”。所以,他们特意调整了“食谱”,确保稀有概念(长尾数据)也能被充分“喂养”,让模型变得博学多才。
  • 最终成果:他们最终提炼出了150 亿张高质量图片 - 文字对,和100 亿个视频 - 标签对。这相当于给模型喂了人类历史上最丰富、最纯净的“视觉大餐”。

2. 它的“训练法”:三步走的成长计划 (训练流程)

这个模型不是生下来就什么都懂的,它经历了三个阶段的“特训”:

  • 第一阶段:蒙眼猜图 (MAE)
    想象一下,老师把一张图片的大部分涂黑,只留几个小方块,让学生(模型)根据剩下的部分猜整张图是什么。这强迫模型去理解图片的结构和逻辑,而不是死记硬背。这是它的“基础体能训练”。
  • 第二阶段:看图说话 (标签分类)
    接下来,老师给它看图片,让它给图片贴上正确的标签(比如“这是跑步”、“这是海滩”)。这时候,它开始学习把视觉和语言联系起来。
  • 第三阶段:配对游戏 (CLIP 对比学习)
    最后,它玩一个巨大的“找朋友”游戏。屏幕上有一堆图片和一堆文字,它必须把正确的图片和文字配对。如果配错了,就扣分。通过这种游戏,它学会了图片文字之间深层的语义联系。

特别亮点:在这个阶段,他们不再使用普通的“翻译官”(传统文本编码器),而是请来了LLM(大语言模型,如 LLaMA) 当翻译。这就像是从让一个只会说简单句子的翻译,换成了一个精通文学、能理解复杂语境的文学教授。这让模型在理解复杂描述时,变得极其敏锐。

3. 它的“超能力”:既快又准,还能举一反三 (架构与效率)

  • 聪明的“断舍离” (EViT)
    通常,处理高清图片需要计算成千上万个像素点,非常慢。Xray-Visual 像是一个精明的管家,它一眼就能看出哪些像素是“废话”(比如大片的蓝天背景),直接忽略它们,只关注“重点”(比如人脸或物体)。
    • 比喻:别人看 1000 个单词的长文,它只读 250 个核心词,但理解得一样好。这让它的速度提升了 4 倍,但准确率却更高。
  • 全能选手
    以前的模型,有的擅长看图,有的擅长看视频。Xray-Visual 是一个模型搞定所有。它既能在静态图片上拿满分,也能在动态视频里理解动作(比如“人在跳舞”还是“人在摔倒”)。

4. 它的“实战表现”:不仅考试满分,还能应付现实世界 (结果)

  • 学术考试 (Benchmark)
    在标准的考试(如 ImageNet 图片分类、Kinetics 视频理解)中,它轻松拿到了全球第一的成绩。
  • 现实世界 (Real World)
    这才是最厉害的地方。很多模型在“考试”中是满分,但到了现实世界(比如 Facebook 的信息流、广告匹配)就“水土不服”了。
    • 比喻:就像有些学生只会做试卷,一上战场就懵了。Xray-Visual 因为是在真实的社交媒体海量数据上训练的,它极其适应现实世界的混乱和变化
    • 结果:在 Meta 内部的真实测试中(比如根据你看的视频推荐广告,或者搜索图片),它的表现比之前的冠军模型强了 10% 以上。这意味着你能刷到更精准的广告,搜到更想要的视频。

总结

Xray-Visual 就像是一个读过万卷书、行过万里路、且拥有超级大脑的视觉专家

  1. 它吃了最纯净、最丰富的数据大餐。
  2. 它学会了高效思考(忽略废话,抓住重点)。
  3. 它请来了语言大师做搭档,真正读懂了图文背后的含义。
  4. 它不仅在考试中拿第一,在真实生活中更是表现卓越,让 Meta 的推荐和搜索变得更聪明、更懂你。

这篇论文的核心思想就是:数据质量 + 聪明的架构 + 大语言模型的加持 = 真正的通用视觉智能。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →