Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

이 논문은 고해상도 비전 작업에서 기존 소프트맥스 어텐션의 이차적 계산 비용 문제를 해결하기 위해, 토큰 간 다중 홉 상호작용을 누적하는 무한 자기어텐션 (InfSA) 과 선형 시간 복잡도를 갖는 Linear-InfSA 를 제안하여 ImageNet-1K 에서 84.7% 의 정확도를 달성하면서도 4096x4096 해상도까지 메모리 없이 처리할 수 있는 효율적인 비전 트랜스포머 아키텍처를 소개합니다.

Giorgio Roffo, Luke Palmer

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌟 "무한한 주시 (Infinite Self-Attention)": AI 가 세상을 보는 새로운 눈

이 논문은 인공지능 (AI) 이 이미지를 볼 때, 기존 방식의 한계를 깨고 더 빠르고, 더 똑똑하며, 더 에너지 효율적인 새로운 방법을 제안합니다.

기존 AI 모델 (트랜스포머) 이 고해상도 사진을 볼 때 겪는 문제를 해결하기 위해, **"무한한 시선 (Infinite Self-Attention)"**이라는 개념을 도입했습니다.


1. 문제: "너무 많은 친구, 너무 느린 대화" 🐢

기존 AI 가 사진을 볼 때의 방식은 마치 거대한 파티 같습니다.

  • 상황: 사진 속 모든 작은 조각 (패치) 이 서로 대화합니다.
  • 문제: 사진이 작으면 (예: 224x224) 친구가 100 명 정도라 대화하기 쉽지만, 고해상도 사진 (예: 4K, 8K) 이 되면 친구가 수만 명, 수십만 명으로 늘어납니다.
  • 결과: 모든 친구가 서로에게 말을 걸려면 (모든 조합을 계산하려면) 시간과 전기가 폭발합니다. 마치 10 만 명이 한 방에 모여서 서로 모두와 악수하고 대화하길 기다리는 꼴이라, AI 는 고해상도 사진을 처리할 때 메모리가 터지거나 (OOM), 너무 느려집니다.

2. 해결책: "무한한 시선 (InfSA)"의 마법 🪄

이 논문은 "모든 친구가 서로 직접 대화할 필요는 없어. 대신 중요한 친구를 통해 간접적으로 연결되면 돼!"라고 말합니다.

🕸️ 비유: "소문 전파"와 "중앙 인물"

  • 기존 방식 (Softmax): 모든 사람이 서로에게 직접 소문을 퍼뜨립니다. (비효율적)
  • 새로운 방식 (InfSA):
    1. 그래프 확산 (Graph Diffusion): 사진 속 한 조각이 다른 조각에게 "이게 중요해!"라고 말하면, 그 조각은 다시 다른 조각에게 전파합니다.
    2. 무한한 경로 (Infinite Paths): 이 소문이 무한히 퍼져나가는 과정을 수학적으로 계산합니다. (실제로는 무한하지 않지만, 아주 긴 경로를 간접적으로 계산하는 것)
    3. 결과: 소문이 여러 번 돌아오면서, **진짜 중요한 사람 (사물의 핵심 부분)**이 자연스럽게 빛을 발하게 됩니다. 배경이나 잡동사니는 소문이 사라지듯 희미해집니다.

이 방식은 마케팅에서 '인기 있는 사람 (Katz, PageRank)'을 찾는 원리와 같습니다. 단순히 한 번의 대화로 중요도를 매기는 게 아니라, "누가 누구와 많이 연결되어 있고, 그 연결이 얼마나 깊게 이어지는가"를 봅니다.

3. 두 가지 버전: "완전판"과 "가벼운 판" 🚀

이 논문은 이 아이디어를 두 가지 형태로 구현했습니다.

A. 순수 무한 시선 (Pure InfSA) - "정교한 명화" 🎨

  • 특징: 모든 연결을 수학적으로 완벽하게 계산합니다.
  • 장점: AI 가 보는 것이 매우 선명해집니다. (예: 강아지 사진에서 '귀'와 '코'에 집중하고, 배경은 무시함)
  • 단점: 계산량이 여전히 많아서 고해상도에는 한계가 있습니다.

B. 선형 무한 시선 (Linear-InfSA) - "초고속 레이서" 🏎️💨

  • 특징: "정답을 다 계산할 필요 없어. **가장 중요한 방향 (주요 eigenvector)**만 쫓으면 돼!"라고 말합니다.
  • 비유: 10 만 명의 친구 중 가장 영향력 있는 '핵심 인물 1 명'만 찾아내면, 나머지 9 만 9,999 명과의 관계를 그 사람 하나를 통해 파악할 수 있다는 뜻입니다.
  • 성능:
    • 속도: 기존 방식보다 13 배 더 빠릅니다.
    • 전기: 전기를 13 배 더 아낍니다.
    • 용량: 기존 AI 가 처리하지 못했던 **거대 해상도 (9216x9216)**도 처리할 수 있습니다. (기존은 메모리가 터져서 실패했지만, 이 모델은 성공!)

4. 왜 이것이 중요한가요? 🌍

  1. 고해상도 사진/비디오 처리 가능: 이제 AI 는 4K, 8K, 심지어 그 이상의 초고해상도 이미지도 실시간으로 분석할 수 있게 되었습니다. (의료 영상, 위성 사진 등에 유용)
  2. 친환경 AI: 데이터 센터의 전력 소모를 획기적으로 줄여줍니다. AI 가 더 많이 쓰여도 지구는 더 따뜻해지지 않습니다.
  3. 이해 가능한 AI: 기존 AI 는 "왜 이 부분을 봤지?"를 설명하기 어려웠지만, 이 방식은 "이 부분이 다른 부분과 얼마나 깊게 연결되어 있어서 중요해"라고 논리적으로 설명할 수 있습니다.

5. 실험 결과: "작지만 강한" AI 💪

  • 이미지 인식 (ImageNet): 4 단계만 있는 아주 작은 모델로도, 기존 거대 모델보다 더 높은 점수를 받았습니다. (84.7% vs 81.5%)
  • 정확한 위치 파악: 사진 속 사물이 어디에 있는지 찾는 능력도 기존보다 훨씬 뛰어났습니다. (배경 잡음에 덜 흔들림)
  • 에너지 효율: 같은 작업을 할 때, 기존 모델이 11.63 줄 (J) 의 전기를 쓴다면, 이 모델은 0.87 줄만 썼습니다. (약 13 배 효율!)

📝 한 줄 요약

"이 논문은 AI 가 사진을 볼 때, '모두와 대화'하는 비효율적인 방식을 버리고, '중요한 연결고리를 따라 소문이 퍼지는' 방식으로 바꾸어, 더 빠르고, 더 똑똑하며, 전기를 아끼는 새로운 AI 의 시대를 열었습니다."

이 기술은 앞으로 고해상도 영상 분석, 실시간 객체 인식, 그리고 에너지 효율적인 AI 시스템의 핵심이 될 것입니다. 🚀