Carbon: Decoding the Language of Life

원저자: Allal, L. B., Li, Q., Fiusco, M., Tunstall, L., Rasul, K., Beeching, E., Aubakirova, D., Patino, C., Frere, T., Lozhkov, A., Channing, G., Wolf, T., Bernardo, D. d., Werra, L. v.

게시일 2026-05-25

📖 3 분 읽기☕ 가벼운 읽기

보기: bioRxiv ↗PDF ↗

CC BY 4.0

원저자: Allal, L. B., Li, Q., Fiusco, M., Tunstall, L., Rasul, K., Beeching, E., Aubakirova, D., Patino, C., Frere, T., Lozhkov, A., Channing, G., Wolf, T., Bernardo, D. d., Werra, L. v.

원본 논문은 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

지구상의 모든 생명체를 만드는 지시는 A, C, G, T라는 네 글자의 알파벳으로 쓰여 있다고 상상해 보세요. 오랫동안 과학자들은 컴퓨터가 인간의 말이나 텍스트를 이해하도록 가르치는 것처럼, 컴퓨터가 이 '생명의 언어'를 읽고 이해하도록 시도해 왔습니다.

최근 '대규모 언어 모델'(LLM) 이라는 새로운 유형의 AI 가 인간의 언어를 이해하는 데 놀라울 정도로 탁월해졌습니다. 이 논문의 연구자들인 Carbon은 다음과 같은 큰 질문을 던졌습니다: 우리는 이 강력한 AI 도구들을 DNA 를 이해하는 데 사용할 수 있을까요?

그들이 직면한 과제는 다음과 같은 간단한 비유로 설명됩니다:

문제: 소설을 사전으로 번역하기

인간 언어는 단어로 구성됩니다. AI 가 책을 읽게 하려면 텍스트를 단어(토큰) 단위로 분해합니다. 하지만 DNA 는 단어로 이루어진 것이 아니라, 단일 문자의 연속적인 흐름입니다.

만약 A, C, G, T 같은 모든 단일 문자를 별도의 '단어'로 취급한다면, 이야기는 불가능할 정도로 길어집니다. 인간 게놈은 수백만 페이지의 도서관과 같습니다. AI 에게 한 글자씩 읽게 하면, 전체 이야기를 이해하기 전에 압도당해 메모리가 고갈됩니다.

반면, 문자를 덩어리(단어처럼) 로 묶으면 작지만 중요한 세부 사항을 놓칠 수 있습니다. DNA 에서는 단 하나의 문자만 바뀌어도 건강한 세포와 질병 사이의 차이가 날 수 있습니다. 따라서 AI 는 전체 게놈의 '큰 그림'과 개별 문자의 '세부 사항'을 동시에 파악해야 합니다.

해결책: Carbon

이 팀은 이 생물학적 퍼즐을 위해 특별히 설계된 새로운 AI 모델 계열인 Carbon을 구축했습니다. 인간 언어 모델을 정확히 복제하려 하기보다, 생물학에 맞게 레시피를 조정했습니다.

Carbon 을 DNA 책을 읽기 위해 특별한 트릭을 사용하는 지능형 사서라고 생각하세요:

특별한 사전 (토큰화): 한 글자씩 읽는 대신, Carbon 은 DNA 를 6 글자씩 그룹으로 읽습니다 ('6-mer'라고 함). 개별 문자가 아니라 "고양이가 앉았다"와 같은 작은 구절로 문장을 읽는다고 상상해 보세요. 이렇게 하면 중요한 변화를 파악할 만큼 충분한 세부 사항을 유지하면서도 이야기가 훨씬 짧아지고 처리하기 쉬워집니다.
긴 기억 (컨텍스트): Carbon 은 거대한 기억력을 갖췄습니다. 한 번에 최대 786,000 글자의 DNA 를 '마음'에 담을 수 있습니다. 이는 한 번에 백과사전 전체를 읽을 수 있는 것과 같아, 한 장의 유전자가 완전히 다른 장의 조절자와 어떻게 연결되는지 이해할 수 있게 해줍니다.
학습 방법: 그들은 AI 에게 무작위 DNA 를 단순히 공급하지 않았습니다. 데이터를 신중하게 선별하고 모델을 단계별로 가르쳤습니다. 먼저 언어의 기본 통계를 학습한 후, 시퀀스의 다음 부분을 예측하는 법을 배웠습니다.

결과: 빠르고 효율적

이 논문은 Carbon 이 놀라울 정도로 효율적이라고 주장합니다.

작지만 강력함: 더 작고 단순한 Carbon 모델 (30 억 개 파라미터) 은 '뇌력'이 절반도 안 되지만, 훨씬 더 크고 복잡한 경쟁 모델 (Evo2-7B) 과同等한 성능을 발휘합니다.
속도: 효율적인 설계 덕분에 Carbon 은 유사한 작업을 수행할 때 다른 모델보다 수십 배 빠르게 '생각'(추론) 할 수 있습니다.
향상된 장거리 이해: 더 큰 Carbon 모델 (80 억 개 파라미터) 은 DNA 의 먼 부분 간의 연결을 찾는 데 가장 큰 개선을 보였으며, 이는 유전자 조절 방식을 이해하는 데 필수적입니다.

핵심 교훈

이 논문의 주요 메시지는 단순히 빠른 AI 를 구축했다는 점이 아닙니다. 그들은 좋은 결과를 얻기 위해 DNA 를 인간 언어처럼 만들 필요가 없다는 것을 증명했습니다.

DNA 의 고유한 구조를 존중함으로써—즉, 문자를 그룹화하는 특정 방식을 사용하고 생물학적 현실에 맞게 학습을 맞춤화함으로써—그들은 강력하면서도 효율적인 모델을 만들었습니다. 그들은 그들의 '레시피'(코드, 데이터, 모델) 를 공개하여, 인간 텍스트에 작동하는 것을 단순히 복사하는 것이 아니라 생물학에 특화된 AI 를 설계하는 데 여전히 개선의 여지가 많음을 보여줄 것을 다른 이들에게 초대합니다.

문제: 소설을 사전으로 번역하기

해결책: Carbon

결과: 빠르고 효율적

핵심 교훈

기술 요약: 탄소 (Carbon) – 생명의 언어 해독

유사한 논문