UGround: Towards Unified Visual Grounding with Unrolled Transformers

UGround 는 강화 학습 기반의 확률적 스킵 연결 (SSC) 과 마스크를 프롬프트로 활용하는 MasP 기법을 통해 고정된 최종 은닉층 의존성과 공간적 단서 부재 문제를 해결하고, 속성 관점에서 지시어 분할부터 추론 분할, 단일/다중 타겟, 긍정/부정 쿼리에 이르기까지 통합된 비주얼 가딩 패러다임을 제시합니다.

Rui Qian, Xin Yin, Chuanhang Deng, Zhiyuan Peng, Jian Xiong, Wei Zhai, Dejing Dou

게시일 2026-02-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식의 문제점: "전화 게임"과 "나침반 없는 지도"

기존의 AI 모델들은 그림을 보고 말을 이해할 때, 두 가지 큰 문제를 겪고 있었습니다.

  • 문제 1: "전화 게임"의 왜곡 (Fixed Last Layer)

    • 비유: imagine 하세요. 한 사람이 "빨간 사과"라고 말하고, 그 소리가 40 명의 사람 (AI 의 40 개 층) 을 거쳐서 마지막 사람 (마지막 층) 에게 전달되는 상황을 상상해 보세요.
    • 현실: 소리가 사람마다 전달될 때마다 조금씩 왜곡됩니다. 40 번을 거치면 마지막 사람은 원래 말과 완전히 다른 소리를 듣게 되죠.
    • 기존 AI: AI 는 이 '40 번 전달된 왜곡된 소리 (마지막 층의 정보)'만 믿고 그림을 그립니다. 중간에 "아, 여기가 빨간 사과야!"라고 수정해 줄 기회가 전혀 없었습니다.
  • 문제 2: "나침반 없는 지도" ( 토큰)

    • 비유: AI 가 "저기 빨간 사과 그려줘"라고 할 때, 기존 방식은 "빨간 사과"라는 단어 자체만 그림 그리는 기계 (SAM) 에게 건넸습니다.
    • 현실: "빨간 사과"라는 단어는 어디에 있는지 좌표 (x, y) 를 알려주지 않습니다. 마치 "저기 빨간 사과 있어"라고 말만 하고 손가락으로 가리키지 않는 것과 같습니다. 그림 그리는 기계는 "어디에 그려야 하지?"라고 헤매게 됩니다.

2. UGround 의 해결책: "중간 지점 활용"과 "손가락 가리키기"

UGround 는 이 두 가지 문제를 해결하기 위해 두 가지 똑똑한 방법을 고안했습니다.

① "전화 게임"을 뚫고 중간에 끼어들기 (Unrolled Transformers & Stochastic Skip Connection)

  • 비유: 이제 40 명 줄을 서 있는 사람들 중, 가장 잘 들리는 중간 10 번째, 20 번째, 30 번째 사람에게도 직접 말을 걸어보세요.
  • UGround 의 방법: AI 는 마지막 층 (40 층) 만 믿지 않고, 중간 층들 사이를 자유롭게 오가며 가장 정확한 정보를 가진 층을 골라냅니다.
    • 마치 "전화 게임"을 하다가, 중간에 있는 친구에게 "이거 원래 '빨간 사과'야!"라고 바로 알려주는 것과 같습니다.
    • 이렇게 하면 정보가 왜곡되기 전에 바로 수정할 수 있어 훨씬 정확한 결과를 얻을 수 있습니다.

② "손가락 가리키기" (Mask as Prompt)

  • 비유: 이제 "빨간 사과"라는 단어만 주는 게 아니라, **"사과가 있는 곳"을 미리 대략적으로 표시한 지도 (히트맵)**를 함께 줍니다.
  • UGround 의 방법: AI 는 단어와 그림을 비교해서 "아, 이 부분이 사과와 가장 비슷하구나!"라는 **열기 지도 (Similarity Map)**를 만듭니다. 그리고 이 지도를 그림 그리는 기계에게 "이곳에 초점을 맞춰서 그려줘"라고 명확한 지시를 줍니다.
    • 단순히 "사과"라고 말하는 대신, "여기 (지도의 이 부분) 에 사과가 있어"라고 손가락으로 가리키는 효과를 냅니다.

3. 이 기술이 얼마나 대단한가요? (하나의 시스템으로 모든 것 해결)

기존에는 AI 모델이 하나씩 달랐습니다.

  • "단순한 사과 찾기"를 하는 모델,
  • "왜 사과가 빨간지 이유를 설명하며 찾기"를 하는 모델,
  • "사과가 없으면 '없다'고 거절하는 모델"이 따로 있었습니다.

하지만 UGround하나의 시스템으로 이 모든 것을 다 해냅니다.

  • 단일/복합: 사과 하나를 찾든, 사과와 배를 동시에 찾든 다 가능합니다.
  • 이유 설명: "왜 그 새가 먹이를 잡았을까?" 같은 복잡한 질문에도 답하며 위치를 찾습니다.
  • 거부 능력: "이미지에 없는 '보라색 코끼리'를 찾아줘"라고 하면, "없어요"라고 정중히 거절하고 "대신 검은 개가 있어요"라고 제안할 수도 있습니다.

4. 결론: 왜 이것이 중요한가요?

이 연구는 AI 가 그림을 볼 때, 단순히 마지막 단계의 결과만 믿지 않고, 과정 전체를 유연하게 활용하며 정확한 위치를 손가락으로 가리키듯 명확하게 지시할 수 있게 했습니다.

마치 숙련된 안내원이 되어, 복잡한 미로 (이미지) 속에서 사용자가 원하는 물체를 **가장 빠른 길 (중간 층)**로 안내하고, **정확한 위치 (손가락 가리키기)**를 알려주는 것과 같습니다. 덕분에 AI 는 더 똑똑하고, 더 정확하게, 그리고 더 안전하게 그림을 이해할 수 있게 되었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →