Xray-Visual Models: Scaling Vision models on Industry Scale Data

이 논문은 페이스북과 인스타그램의 산업 규모 데이터를 활용하여 이미지와 비디오 이해를 위한 차세대 범용 비전 모델인 'Xray-Visual'을 제안하고, 이를 통해 다양한 벤치마크에서 최첨단 성능과 높은 효율성을 입증했습니다.

Shlok Mishra, Tsung-Yu Lin, Linda Wang, Hongli Xu, Yimin Liu, Michael Hsu, Chaitanya Ahuja, Hao Yuan, Jianpeng Cheng, Hong-You Chen, Haoyuan Xu, Chao Li, Abhijeet Awasthi, Jihye Moon, Don Husa, Michael Ge, Sumedha Singla, Arkabandhu Chowdhury, Phong Dingh, Satya Narayan Shukla, Yonghuan Yang, David Jacobs, Qi Guo, Jun Xiao, Xiangjun Fan, Aashu Singh

게시일 2026-02-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

메타 AI 의 'Xray-Visual': 거대한 눈과 뇌를 가진 새로운 인공지능

이 논문은 메타 (Meta) 가 만든 **'Xray-Visual'**이라는 새로운 인공지능 모델을 소개합니다. 이 모델은 단순히 사진을 보는 것을 넘어, 수백억 개의 페이스북과 인스타그램 게시물을 학습하여 사진과 영상을 동시에 이해하는 '초능력'을 갖게 되었습니다.

복잡한 기술 용어 대신, 일상적인 비유를 통해 이 모델이 어떻게 작동하고 왜 특별한지 설명해 드리겠습니다.


1. 거대한 도서관과 요리사 (데이터의 규모)

일반적인 인공지능은 교과서 (공식 데이터) 만으로 배웁니다. 하지만 Xray-Visual 은 전 세계 사람들이 올린 1,000 억 개가 넘는 사진과 영상을 학습했습니다.

  • 비유: 기존 모델이 '정제된 요리 교재'만 보고 요리법을 배운다면, Xray-Visual 은 전 세계의 **거대한 시장 (페이스북/인스타그램)**에 가서 수백만 명의 사람들이 실제로 만든 요리를 직접 보고, 맛보고, 설명을 들으며 배운 것입니다.
  • 데이터 정제: 하지만 시장에는 쓰레기도 많고, 설명이 엉망인 요리도 있습니다. 그래서 연구팀은 **'최고의 요리사 (데이터 큐레이션 팀)'**를 투입했습니다. 이 팀은 불필요한 잡음 (이모지, URL 등) 을 걷어내고, 희귀한 재료 (드문 주제) 도 골고루 섞어 **가장 맛있는 레시피 (고품질 데이터)**만 남겼습니다.

2. 3 단계 훈련 과정 (학교 교육 시스템)

이 모델은 한 번에 모든 것을 배우지 않습니다. 마치 학생이 성장하듯 3 단계로 훈련됩니다.

  1. 1 단계: 눈 감고 그림 그리기 (MAE)
    • 모델에게 사진의 일부를 가리고, 나머지 부분만 보고 가려진 부분을 상상해서 채우게 합니다.
    • 비유: 퍼즐 조각 중 일부만 주고, 나머지 조각이 어떻게 생겼을지 추측하는 게임입니다. 이를 통해 사물의 기본 구조를 익힙니다.
  2. 2 단계: 태그 맞추기 (해시태그 분류)
    • 이제 사진에 맞는 해시태그를 맞춰보게 합니다. "이건 '강아지'야, '바다'야?"라고 묻는 것입니다.
    • 비유: 그림을 보고 제목을 짓는 연습을 통해 사물의 이름을 정확히 익힙니다.
  3. 3 단계: 사진과 설명 연결하기 (CLIP 학습)
    • 마지막으로 사진과 그 사진에 대한 **세부적인 설명 (캡션)**을 짝짓게 합니다.
    • 비유: 사진과 그 사진에 대한 '이야기'를 완벽하게 연결하는 훈련입니다. 이때 **LLM(대형 언어 모델)**이라는 '유능한 번역가'를 고용해서 설명을 더 풍부하고 정확하게 이해하도록 돕습니다.

3. 효율적인 뇌 (EViT 기술)

기존의 거대 모델들은 사진을 볼 때 모든 픽셀을 꼼꼼히 분석하려다 컴퓨터가 너무 느려지거나 비싸게 작동했습니다.

  • 비유: Xray-Visual 은 **'스마트한 눈 (EViT)'**을 가졌습니다. 사진의 모든 부분을 똑같이 보는 게 아니라, 중요한 부분 (눈, 코, 입 등) 에만 집중하고 중요하지 않은 배경 (하늘, 벽 등) 은 빠르게 넘깁니다.
  • 효과: 같은 성능을 내면서도 계산량을 4 분의 1 로 줄여서 훨씬 빠르고 저렴하게 작동합니다. 마치 고해상도 영화를 볼 때 중요한 장면만 선명하게 보고, 배경은 흐리게 처리해서 데이터 부하를 줄이는 것과 같습니다.

4. 실전에서의 강점 (교과서 vs 현실)

기존의 최고 성능 모델들은 시험지 (학술적 벤치마크) 에서는 잘 풀지만, **실제 세상 (현실 데이터)**에서는 엉뚱한 답을 내놓는 경우가 많았습니다.

  • 비유: 시험지에서는 '고양이'를 100% 맞히지만, 실제 인스타그램에 올라온 어두운 조명 속의 고양이 사진이나 필터가 낀 사진을 보면 "이건 뭐지?"라고 당황합니다.
  • Xray-Visual 의 특징: 수조 개의 실제 소셜 미디어 데이터를 학습했기 때문에, 조명이 어둡거나, 필터가 걸리거나, 낯선 상황에서도 "아, 이건 고양이네!"라고 정확히 알아봅니다. 특히 광고와 영상을 매칭하거나 검색할 때 기존 모델보다 훨씬 뛰어난 성능을 보여줍니다.

5. 요약: 왜 이것이 중요한가요?

  • 더 많이, 더 잘 배웠습니다: 1,000 억 개의 데이터를 학습하여 세상 모든 것을 이해합니다.
  • 더 똑똑하게 배웠습니다: 3 단계 훈련과 AI 번역가 (LLM) 를 통해 사진과 언어를 완벽하게 연결합니다.
  • 더 효율적입니다: 불필요한 계산을 줄여서 빠르고 저렴하게 작동합니다.
  • 실전에 강합니다: 시험지뿐만 아니라, 실제 세상 (소셜 미디어) 에서도 가장 잘 작동합니다.

결론적으로, Xray-Visual 은 **거대한 데이터를 먹고 자라, 현실 세계의 복잡한 시각 정보를 가장 빠르고 정확하게 이해하는 '초지능 눈'**이라고 할 수 있습니다. 이는 메타의 추천 시스템, 광고 매칭, 콘텐츠 검색 등 우리 일상의 많은 부분을 더 스마트하게 만들어 줄 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →