Tokenizing Semantic Segmentation with RLE

이 논문은 언어 모델링을 활용하여 RLE(런 길이 부호화) 토큰 시퀀스로 이미지 및 비디오의 세그멘테이션 마스크를 생성하는 통합 접근법을 제시하며, 토큰화 전략을 통해 비디오 확장성을 높이고 팬옵틱 세그멘테이션도 지원함을 보여줍니다.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"컴퓨터가 이미지를 보고 무엇을 그리는지 (분할) 를 어떻게 더 똑똑하게 배울 수 있을까?"**라는 질문에 대한 새로운 답을 제시합니다.

기존의 컴퓨터 비전 모델은 이미지를 마치 고정된 크기의 캔버스처럼 다루며, 각 픽셀에 숫자를 할당하는 방식으로 작동했습니다. 하지만 이 방식은 물체의 개수나 모양이 매번 달라지는 상황 (예: 물고기 한 마리, 열 마리, 혹은 한 마리도 없는 경우) 에는 비효율적이었습니다.

이 논문은 **"이미지 분할을 마치 '문장'을 만드는 것처럼 토큰 (단어) 의 나열로 바꾸자"**는 아이디어를 제안합니다.

🎨 핵심 비유: "점토 공예"에서 "레고 조립"으로

기존 방식은 점토 공예와 비슷합니다.

  • 기존 방식: 거대한 점토 덩어리 (이미지) 를 전체를 다 덮어서 조각내듯 만듭니다. 모양이 복잡해지면 점토 조각이 너무 많아지고, 불필요한 부분까지 다 다듬어야 합니다.

이 논문의 방식은 레고 조립과 같습니다.

  • 새로운 방식 (토큰화): 이미지의 모양을 "시작 지점"과 "길이"라는 작은 레고 블록 (토큰) 들의 나열로 표현합니다.
    • 예: "여기서부터 5 칸을 빨간색으로 칠해" → "여기서부터 3 칸을 파란색으로 칠해"
    • 이렇게 하면 불필요한 백색 공간 (배경) 은 말하지 않아도 되므로, 데이터가 훨씬 짧아지고 효율적이 됩니다.

🚀 이 논문이 해결한 3 가지 주요 문제

1. "긴 문장"을 "짧은 요약"으로 (RLE 와 압축)

이미지의 모양을 설명하려면 보통 수천 개의 토큰이 필요할 수 있습니다. 하지만 이 논문은 **RLE(런 길이 부호화)**라는 기술을 써서, "100 칸을 연속해서 칠해"라고 한 번에 말하게 했습니다.

  • 비유: "A, A, A, A, A..."라고 100 번 반복해서 말하는 대신, **"A 를 100 번"**이라고 한 마디로 요약하는 것과 같습니다. 이렇게 하면 컴퓨터가 기억해야 할 정보량이 급격히 줄어듭니다.

2. "정지된 사진"에서 "움직이는 영상"으로 (비디오 처리)

이전 연구들은 정지된 사진만 다뤘지만, 이 논문은 **영상 (비디오)**도 다룰 수 있게 확장했습니다.

  • 문제: 영상은 프레임이 계속 변하므로, 매 프레임마다 모양을 다시 설명하면 토큰이 너무 길어집니다.
  • 해결: **TAC(Time-As-Class)**라는 기술을 썼습니다.
    • 비유: 각 프레임의 모양을 따로따로 설명하는 대신, "시간의 흐름에 따라 변하는 모양" 자체를 하나의 새로운 단어로 정의했습니다. 마치 "아침에 컵이 있고, 오후에 컵이 사라졌다"는 것을 하나의 이야기 흐름으로 이해하는 것처럼요.

3. "무엇인가"와 "어디에"를 구분하기 (인스턴스 분할)

단순히 "사람"이라고만 말하는 게 아니라, "사람 A"와 "사람 B"를 구분해서 설명할 수도 있게 했습니다.

  • 비유: "사람"이라는 단어 뒤에 번호를 붙여서 "사람 #1, 사람 #2"라고 구분하는 방식입니다. 이렇게 하면 여러 물체가 겹쳐 있더라도 각각을 정확히 찾아낼 수 있습니다.

📊 결과: 얼마나 잘할까요?

연구진은 이 방식을 **얼음 조각 (River Ice)**과 **세포 (iPSC)**를 분석하는 데이터셋에 적용해 보았습니다.

  • 결과: 최신의 거대 모델들과 비교해도 비슷하거나 더 좋은 성능을 보여주었습니다.
  • 한계: 아직 컴퓨터의 메모리 (GPU) 가 부족해서 아주 고해상도의 복잡한 이미지 (예: 도시 전체의 지도) 를 다룰 때는 완벽하지는 않았습니다. 하지만 "작은 메모리에서도 잘 작동하는 효율적인 방법"을 증명했습니다.

💡 결론: 왜 이 연구가 중요할까요?

이 논문은 **"컴퓨터 비전도 언어 모델 (LLM) 처럼 생각하면 더 똑똑해질 수 있다"**는 것을 보여줍니다.

  • 이미지를 픽셀의 집합이 아니라, 의미 있는 단어들의 나열로 바라봄으로써, 컴퓨터는 더 적은 계산량으로도 더 복잡한 세상을 이해할 수 있게 됩니다.
  • 이는 향후 의료 영상 분석, 자율주행, 로봇 제어 등 다양한 분야에서 더 빠르고 정확한 AI 를 만드는 데 큰 발판이 될 것입니다.

한 줄 요약:

"이미지를 거대한 그림으로 보지 말고, 작은 레고 블록 (토큰) 으로 된 설명서로 바꿔서 컴퓨터가 더 쉽고 빠르게 이해하게 만들었습니다."