GENERator-v2: Reconciling Coarse Tokenization with Single-Nucleotide Resolution in Genomic Language Modeling

본 논문은 Factorized Nucleotide Supervision 과 gene-centric Genome Compression Pretraining 을 통해 효율적인 k-mer 토큰화와 정밀한 지도 학습을 조화시킴으로써 98k 염기쌍 컨텍스트에 걸쳐 확장 가능한 단일 뉴클레오타이드 해상도를 달성하는 자기회귀 유전체 기반 모델 계열인 GENERator-v2 를 소개합니다.

원저자: Li, Q., Zhan, Z., Feng, S., Zhu, Y., He, Y., Wu, W., Shi, Z., Wang, S., Hu, Z., Yang, Z., Li, J., Tang, J., Liu, H., Qin, T.

게시일 2026-05-04
📖 3 분 읽기☕ 가벼운 읽기

원저자: Li, Q., Zhan, Z., Feng, S., Zhu, Y., He, Y., Wu, W., Shi, Z., Wang, S., Hu, Z., Yang, Z., Li, J., Tang, J., Liu, H., Qin, T.

원본 논문은 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

살아있는 유기체의 전체 DNA 를 30 억 자의 거대한 책으로 상상해 보세요. 이 책은 A, C, G, T 라는 네 글자로 쓰여 있습니다. 과학자들은 이 책을 읽어 생명체가 어떻게 작동하는지 이해하고, 다음에 무엇이 올지 예측하거나, 심지어 그 일부를 다시 쓰기도 할 수 있도록 이 책을 읽을 수 있는 'AI 도서관 사서'(게놈 기반 모델이라고 함) 를 구축해 왔습니다.

그러나 거대한 문제가 하나 있습니다. 책이 너무 길다는 것입니다. 한 번에 전체를 읽으려 하면 AI 가 압도당합니다. 반면 작고 관리 가능한 조각으로 나누어 읽으려 하면 AI 는 전체 그림을 잃고 이야기의 먼 부분들이 어떻게 연결되는지 파악하지 못합니다.

'GENERator-v2'라는 논문은 컴퓨터 성능에 막대한 비용을 들이지 않고 이 퍼즐을 해결하는 새로운 방식으로 이러한 AI 도서관 사서를 구축하는 방법을 제시합니다. 그들이 어떻게 했는지 간단한 비유를 들어 설명해 보겠습니다.

1. '줌 (Zoom)' 문제: 숲과 나무를 모두 보기

이전에는 AI 모델이 두 가지 나쁜 선택지 중 하나를 골라야 했습니다.

  • 선택지 A (흐릿한 지도): 공간을 절약하기 위해 글자들을 '조각 (chunks)'으로 묶었습니다 (글자 대신 단어를 읽는 것처럼). 이를 통해 긴 이야기를 읽을 수는 있었지만, 구체적인 세부 사항을 볼 수 있는 능력을 잃었습니다. 마치 모든 단어가 단일 기호로 대체된 소설을 읽는 것과 같습니다. 전체적인 맥락은 파악되지만 철자는 놓치게 됩니다.
  • 선택지 B (현미경): 모든 글자를 하나씩 읽었습니다. 이는 완벽한 세부 정보를 제공했지만, 이야기가 너무 길어 AI 가 첫 장을 끝내기 전에 메모리가 고갈되었습니다.

해결책: 인자화된 뉴클레오타이드 감독 (Factorized Nucleotide Supervision, FNS)
저자들은 '인자화된 뉴클레오타이드 감독'이라는 트릭을 고안했습니다. 이를 지능형 번역기라고 생각하세요.

  • AI 는 흐름을 유지하기 위해 크고 효율적인 조각으로 이야기를 읽습니다 (온전한 단어를 읽는 것처럼).
  • 하지만 특정 글자에 대한 질문에 답해야 할 때는 수학적 '줌 렌즈'를 사용하여 실제로 모든 글자를 개별적으로 읽지 않고도 그 단일 글자의 확률을 즉시 계산합니다.
  • 결과: AI 는 큰 조각을 읽는 속도를 얻으면서도 현미경의 정밀도를 유지합니다. 속도를 위해 세부 사항을 희생하지 않습니다.

2. '노이즈' 문제: 신호 찾기

게놈 책은 대부분 '노이즈'로 이루어져 있습니다. 예를 들어 인간의 경우, DNA 의 대부분은 별다른 역할을 하지 않는 채우기 텍스트일 뿐입니다. 실제 중요한 '이야기'는 유전자와 조절 스위치 같은 작은 부분들뿐입니다.

  • 구식 접근법: AI 는 수백만 페이지의 빈 공간이나 무작위 잡동사니를 포함해 책 전체를 페이지별로 읽도록 강요받았습니다. 이는 시간을 낭비하고 모델을 혼란스럽게 했습니다.
  • 해결책: 게놈 압축 사전 학습 (Genome Compression Pretraining, GCP)
    저자들은 학습 식단을 변경했습니다. AI 에게 책 전체를 무작위로 공급하는 대신, '하이라이트 릴'을 만들었습니다. 학습 데이터를 유전자와 조절 스위치라는 '중요한 장'들에 집중시켰습니다.
  • 결과: AI 는 빈 페이지를 공부하는 시간을 낭비하지 않기 때문에 훨씬 더 빠르게 학습합니다. 생명에 실제로 중요한 패턴을 인식하는 법을 배우게 됩니다.

3. 최종 제품: 슈퍼 도서관 사서

이 두 가지 트릭을 결합하여 팀은 새로운 AI 모델 계열 (GENERator-v2) 을 구축했습니다. 이는 다음을 수행할 수 있습니다.

  • 긴 이야기 읽기: 98,000 자까지의 문맥을 처리할 수 있습니다 (DNA 에서는 매우 큰 규모입니다).
  • 정밀함: 여전히 모든 단일 글자의 정확한 의미를 이해합니다.
  • 효율성: 이전 모델보다 더 빠르게 실행되고 더 적은 컴퓨터 성능을 사용합니다.

핵심 요약
이 논문은 AI 가 학습하는 방식 ('감독') 을 생물학이 실제로 작동하는 방식 (중요한 부분에 집중하고 세부 사항을 지능적으로 처리) 과 정렬함으로써, 이전의 어떤 것보다 DNA 서열을 이해하고 생성하는 데 더 뛰어난 모델을 만들었다고 주장합니다. 그들은 다양한 작업에서 이를 테스트했으며, 더 효율적이면서도 기존 최우수 모델들을 일관되게 능가하거나 그 수준에 도달했습니다.

그들은 모델, 데이터, 도구를 누구나 사용할 수 있도록 공개했습니다. 이는 큰 문제를 해결하기 위해 더 큰 컴퓨터가 필요한 것이 아니라, 책을 읽는 더 지적인 방법이 필요하다는 것을 증명합니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →