Graph Tokenization for Bridging Graphs and Transformers

이 논문은 가역적 그래프 직렬화와 BPE 를 결합하여 그래프 구조를 시퀀스로 변환하는 토크나이저를 제안함으로써, 구조적 수정 없이도 BERT 와 같은 트랜스포머를 그래프 벤치마크에 적용해 기존 그래프 신경망 및 전용 트랜스포머보다 우수한 성능을 달성했습니다.

Zeyuan Guo, Enmao Diao, Cheng Yang, Chuan Shi

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"그래프 (연결된 데이터) 를 어떻게 하면 컴퓨터가 가장 잘 이해하는 '문장'으로 바꿀 수 있을까?"**라는 질문에 대한 획기적인 답을 제시합니다.

제목은 **<그래프 토큰화: 그래프와 트랜스포머 (Transformer) 를 잇는 다리>**입니다.

이 복잡한 내용을 일상적인 언어와 비유로 쉽게 설명해 드릴게요.


1. 문제: 왜 그래프는 컴퓨터가 읽기 힘든가요?

컴퓨터가 가장 잘하는 일 중 하나는 **책 (텍스트)**을 읽는 것입니다.

  • 책 (텍스트): 글자가 줄줄이 이어져 있습니다. "A 가 B 를 만나고, B 가 C 를 만났다"처럼 순서가 명확합니다.
  • 그래프 (데이터): 페이스북 친구 관계, 분자 구조, 지하철 노선도처럼 복잡하게 얽혀 있는 연결입니다. "누가 누구를 만났는지"는 알 수 있지만, "어떤 순서로 읽어야 할지" 정해진 규칙이 없습니다.

기존의 최신 AI(트랜스포머) 는 "줄글"을 읽는 데 특화되어 있어서, 이런 "얽힌 연결"을 직접 읽으려 하면 매우 혼란스러워합니다.

2. 해결책: 그래프를 '문장'으로 바꾸는 마법 (그래프 토큰화)

이 연구팀은 그래프를 AI 가 읽을 수 있는 **문장 (시퀀스)**으로 바꾸는 새로운 방법을 개발했습니다. 이를 **그래프 토큰화 (Graph Tokenization)**라고 부릅니다.

이 과정은 크게 두 단계로 나뉩니다.

1 단계: 그래프를 '줄글'로 펴기 (Serialization)

얽혀 있는 그래프를 한 줄로 펴야 합니다. 이때 중요한 것은 원래 모양을 망치지 않고 펴야 한다는 점입니다.

  • 비유: 복잡한 미로 지도를 한 줄로 펴서 설명할 때, "여기서 왼쪽으로 가다가 오른쪽으로 꺾으면..."이라고 설명하는 것과 같습니다.
  • 이 연구의 특징: 단순히 무작위로 걷는 게 아니라, **가장 자주 나오는 길 (빈도수)**을 먼저 선택하도록 지도를 그립니다. 그래야 나중에 AI 가 "아, 이 부분은 자주 나오는 중요한 길구나라"고 쉽게 이해할 수 있습니다.

2 단계: 자주 나오는 단어를 하나로 합치기 (BPE)

한 줄로 펴진 글자가 너무 길면 컴퓨터가 읽기 힘듭니다. 그래서 자주 나오는 단어 묶음을 하나의 기호로 합칩니다.

  • 비유: 영어 단어 "The", "quick", "brown", "fox"가 자주 나오면, 이를 "The_quick_brown_fox"라는 하나의 새로운 단어로 만들어버리는 것입니다.
  • 효과: 문장이 짧아지고, 컴퓨터가 중요한 패턴을 더 빠르게 찾아낼 수 있습니다.

3. 핵심 아이디어: "자주 나오는 구조를 찾아내라"

이 연구의 가장 큰 장점은 통계를 이용했다는 점입니다.

  • 일반적인 방법은 그래프를 무작위로 줄글로 바꾸는데, 이렇게 하면 중요한 정보가 흩어집니다.
  • 이 연구팀은 "이 그래프에서 어떤 구조 (예: 분자에서 자주 나오는 원자 결합) 가 가장 많이 나오는지" 먼저 세어봅니다.
  • 그런 다음, 그 자주 나오는 구조가 문장 속에서 서로 붙어오도록 줄글을 만듭니다.
  • 그 결과, AI 가 "자주 나오는 중요한 구조"를 하나의 의미 있는 단어로 인식하게 됩니다.

4. 결과: 왜 이것이 대단한가요?

이 방법을 사용하면 기존에 쓰던 거대 AI 모델 (BERT, GPT 등) 을 그대로 가져와서 그래프 데이터도 처리할 수 있게 됩니다.

  • 기존 방식: 그래프 전용 AI 를 새로 만들어야 했고, 성능도 한계가 있었습니다.
  • 이 연구: 그래프를 '문장'으로 바꾼 뒤, 이미 잘 훈련된 거대 AI 에게 먹이면 됩니다.
  • 성과: 14 가지 다른 데이터 (약물 발견, 분자 구조, 소셜 네트워크 등) 에서 기존 최고의 AI 들보다 더 좋은 성적을 냈습니다.

5. 한 줄 요약

**"복잡하게 얽힌 그래프 데이터를, AI 가 가장 잘 읽는 '줄글'로 깔끔하게 정리하고, 자주 나오는 중요한 패턴을 '단어'로 압축해서, 기존에 쓰던 최고의 AI 모델들이 그래프도 완벽하게 이해하게 만든 방법"**입니다.

이 기술은 앞으로 새로운 약을 개발하거나, 복잡한 사회 현상을 분석할 때 AI 가 훨씬 더 똑똑하고 빠르게 일할 수 있는 길을 열어줍니다. 마치 복잡한 지하철 노선도를 한 줄의 지시문으로 바꿔, AI 가 "다음 역은 어디?"를 순식간에 찾아내게 한 것과 같습니다.