ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

이 논문은 학습 가능한 토큰 사전과 이를 활용한 교차 어텐션 메커니즘을 도입하여 선형 복잡도에서 전역 의존성을 모델링함으로써 이미지 복원 성능을 극대화하는 새로운 트랜스포머 아키텍처인 ATD 를 제안합니다.

Leheng Zhang, Wei Long, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu

게시일 2026-03-04
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"이미지 복원 (Image Restoration)"**이라는 어려운 문제를 해결하기 위해 개발된 새로운 인공지능 모델, **ATD(Adaptive Token Dictionary)**에 대한 이야기입니다.

쉽게 말해, **"흐리거나 깨진 사진을 다시 선명하게 만드는 기술"**을 더 빠르고 똑똑하게 만든 연구입니다.

이 복잡한 기술을 일상적인 비유로 설명해 드리겠습니다.


1. 문제 상황: "창문 밖만 보는 경찰관"

기존의 최신 AI 모델들 (Transformer) 은 사진을 복원할 때 **'자기 자신 (Self-Attention)'**을 많이 봅니다.
하지만 이 모델들은 계산량이 너무 많아, **작은 창문 (Local Window)**을 통해 주변만 볼 수 있었습니다.

  • 비유: imagine you are a police officer trying to solve a crime in a huge city. You are only allowed to look out of a small window in your office. You can see the people right next to your building, but you can't see the person who committed the crime on the other side of the city, even if they look exactly like the suspect you saw earlier.
  • 한국의 비유: 마치 **작은 창문 (Local Window)**을 통해 주변 10 미터만 볼 수 있는 경찰관과 같습니다. 비록 멀리 떨어진 곳에 똑같은 옷을 입은 용의자가 있더라도, 창문 밖은 볼 수 없기 때문에 그 정보를 활용할 수 없습니다. 그래서 복잡한 구조 (예: 도시의 빌딩, 만화 속 선) 를 복원할 때 흐릿해지거나 잘못 그리는 문제가 생깁니다.

2. ATD 의 해결책: "전체 도시를 훑어보는 똑똑한 지도"

이 연구팀은 **"창문 밖을 보지 않아도, 전 세계의 정보를 활용할 수 있는 방법"**을 고안해냈습니다. 바로 ATD입니다.

핵심 아이디어 1: "외부 사전 (Token Dictionary)"을 만듭니다

기존 방식은 사진 속 정보만 썩어먹으며 고민했지만, ATD 는 **학습 과정에서 '이미지의 기본 구조'를 담은 외부 사전 (Dictionary)**을 만들어냅니다.

  • 비유: 이 사전은 **"이미지의 알파벳"**이나 **"건축 자재의 샘플북"**과 같습니다.
    • "벽돌은 이런 모양이야", "나무 질감은 저렇게 생겼어", "만화 선은 이런 패턴이야"라는 정보를 미리 학습해 둔 거대한 책자입니다.
    • AI 는 흐린 사진을 볼 때, 이 책자를 펼쳐서 "아, 이 부분은 '벽돌' 패턴이랑 비슷하네!"라고 바로 찾아냅니다.

핵심 아이디어 2: "유사한 친구들끼리 모으기 (Category-based Attention)"

이제 AI 는 사진을 작은 창문으로 나누는 대신, 유사한 특징을 가진 부분끼리 모아서 처리합니다.

  • 비유: 학교에서 **학급 (Window)**을 나누는 대신, **동호회 (Category)**를 만드는 것과 같습니다.
    • 창문 방식: "1 반은 1 층, 2 반은 2 층"처럼 위치만 보고 모읍니다. (멀리 떨어져 있어도 같은 동호회일 수 있음)
    • ATD 방식: "축구 좋아하는 애들", "그림 좋아하는 애들"처럼 **관심사 (특징)**가 비슷한 애들끼리 모읍니다.
    • 효과: 멀리 떨어져 있어도 '축구'를 좋아하는 친구끼리 모여 정보를 공유할 수 있습니다. 그래서 사진의 한쪽 구석에 있는 선과 다른 구석에 있는 선이 연결되어 선명하게 복원됩니다.

핵심 아이디어 3: "맞춤형 요리사 (Category-aware FFN)"

모인 친구들 (유사한 특징) 에게는 각자 맞는 정보를 제공합니다.

  • 비유: 요리사가 손님이 "이건 매운 걸 좋아해, 이건 싱거운 걸 좋아해"라고 말하면, 그에 맞춰 요리를 다르게 해주는 것처럼, AI 도 이미지의 특징에 맞춰 정보를 더 정교하게 섞어줍니다.

3. 왜 이것이 대단한가요?

  1. 전체적인 시야 (Global View) + 빠른 속도:

    • 기존 방식은 "전체 도시를 다 보려면 너무 느려서 창문만 볼 수밖에 없었다"면, ATD 는 **"전체 도시를 보면서도 속도는 빠르다"**는 기적을 이뤘습니다.
    • 비유: 전체 도시를 한눈에 보는 드론을 쓰되, 필요한 정보만 빠르게 필터링해서 처리하는 방식입니다.
  2. 압도적인 성능:

    • 실험 결과, ATD 는 기존 최고의 모델들 (SwinIR, HAT, MambaIR 등) 보다 더 선명하고 디테일한 사진을 만들어냈습니다.
    • 특히 **만화 (Manga)**나 **복잡한 도시 풍경 (Urban)**처럼 선이 많고 구조가 복잡한 이미지를 복원할 때 빛을 발했습니다.
  3. 다양한 작업 가능:

    • 단순히 사진 크기를 키우는 것 (초해상도) 뿐만 아니라, **노이즈 제거 (Denoising)**나 JPEG 압축 손상 복구 같은 다른 작업에서도 최고의 성능을 냈습니다.

4. 요약

이 논문은 **"작은 창문만 통해 세상을 보던 AI 에게, '외부 사전'이라는 거대한 지도를 주고, '유사한 것끼리 모으는 동호회'를 만들어 전 세계 정보를 빠르게 공유하게 했다"**는 내용입니다.

그 결과, 흐릿하고 깨진 사진이 선명하고 생생한 고화질 이미지로 다시 태어날 수 있게 되었습니다. 이는 앞으로 우리가 스마트폰이나 카메라로 찍은 모든 사진을 더 완벽하게 복원할 수 있는 길을 열어준 중요한 연구입니다.