Longevity Bench: Are SotA LLMs ready for aging research?

이 논문은 노화 연구에서 최첨단 대규모 언어 모델 (LLM) 의 유용성을 평가하기 위해 다양한 생물학적 데이터와 예측 과제를 포함하는 'Longevity Bench'를 제안하고, 이를 통해 모델들의 한계를 분석하고 노화 연구에서의 활용 방안을 제시합니다.

Zhavoronkov, A., Sidorenko, D., Naumov, V., Pushkov, S., Zagirova, D., Aladinskiy, V., Unutmaz, D., Aliper, A., Galkin, F.

게시일 2026-04-15
📖 3 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 정말로 노화를 이해하고 있을까?"**라는 아주 중요한 질문을 던지며 시작합니다.

마치 **"노인용 운전 면허 시험"**을 만들어서, 최신 AI 모델들이 실제로 운전 (노화 연구) 을 할 수 있는지, 아니면 그냥 운전 대시보드만 흉내 내고 있는지 확인해 본 실험 보고서라고 생각하시면 됩니다.

이 논문의 핵심 내용을 쉬운 비유와 함께 설명해 드릴게요.


1. 왜 이런 시험을 만들었나요? (배경)

최근 AI(챗GPT, 클로드 등) 가 과학 논문도 쓰고 코딩도 잘해서 과학자들의 조수 역할을 톡톡히 하고 있습니다. 하지만 과학자들은 **"AI 가 정말로 생명의 원리를 이해하는 건가, 아니면 그냥 책에서 본 내용을 외워서 대답하는 건가?"**를 걱정합니다.

특히 **노화 (Aging)**는 매우 복잡합니다. DNA, 혈액, 단백질, 유전자 등 수많은 데이터가 얽혀 있어서, AI 가 이걸 제대로 이해하지 못하면 엉뚱한 결론을 내릴 수 있습니다. 그래서 연구팀은 **"LongevityBench(수명 벤치마크)"**라는 시험지를 만들어 AI 들에게 치열한 시험을 보게 했습니다.

2. 시험지는 어떤 내용이었나요? (시험 문제)

이 시험지는 단순히 "노인이 누구야?"라고 묻는 게 아니라, 다양한 방식으로 AI 의 실력을 테스트했습니다.

  • 예측 문제: "이 사람의 혈액 검사 결과와 건강 기록을 보면, 10 년 뒤에도 살아있을까?" (binary classification)
  • 비교 문제: "A 와 B 중 누가 더 오래 살았을까?" (pairwise comparison)
  • 숫자 맞추기: "정확히 몇 년을 더 살았을까?" (regression)
  • 유전자 퍼즐: "이 사람의 유전자 발현 패턴을 보고 나이를 맞춰봐." (omics data)
  • 생성 문제: "이 유전자 목록을 보고, 나머지 숨겨진 유전자들을 맞춰봐." (generative)

이 문제는 혈액 검사, DNA 메틸화, 유전자 발현, 단백질 데이터 등 노화 연구에서 쓰이는 모든 종류의 데이터를 포함했습니다.

3. 시험 결과는 어땠나요? (결과)

15 개의 최신 AI 모델 (OpenAI, Google, Anthropic 등) 을 시험에 붙였는데, 결과는 매우 흥미롭고 다소 실망스러웠습니다.

  • 완벽한 영웅은 없다: 어떤 AI 가 한 문제에서는 1등을 했지만, 다른 문제에서는 하위권을 기록했습니다. 마치 **"수학은 천재인데 국어는 못 하는 학생"**처럼, 특정 데이터에는 강하지만 다른 데이터에는 약한 편입니다.
  • 가장 잘한 AI: 구글의 **'Gemini 3 Pro'**가 전체 평균 점수로 1등을 했습니다. 하지만 모든 문제를 다 잘 푼 건 아닙니다.
  • 가장 큰 약점 (형식에 속아넘어감): AI 들은 질문하는 방식 (포맷) 에 따라 정답률이 극적으로 달라졌습니다.
    • 예시: "누가 더 오래 살았을까?" (비교) 라고 물으면 엉뚱하게 맞추다가, "10 년 이상 살았을까?" (예/아니오) 라고 물으면 아주 잘 맞췄습니다.
    • 비유: 이는 AI 가 노화의 원리를 깊이 이해한 게 아니라, 문제의 '키워드'나 '문장 구조'를 보고 답을 유추하고 있다는 뜻입니다. 진짜 노화를 이해했다면 질문 방식이 바뀌어도 똑같이 잘 맞췄어야 합니다.
  • 숫자 맞추기 실패: "정확히 몇 년을 더 살았을까?"라고 물었을 때, AI 들은 실제 수명보다 너무 짧게 예측하는 경향이 있었습니다. 마치 "아픈 사람이 나오면 무조건 곧 죽을 거야"라고 과장해서 생각하는 것처럼, 위험 요소를 보고 수명을 과소평가했습니다.
  • 단백질 데이터는 난이도 최상: 유전자 데이터는 어느 정도 잘 맞추는데, 단백질 데이터는 AI 들이 거의 무작위로 찍는 수준이었습니다. 아직 AI 가 단백질 데이터를 충분히 공부하지 못했기 때문입니다.

4. 결론: AI 는 아직 '수석 연구원'이 될 수 없다

이 논문의 결론은 다음과 같습니다.

"현재의 AI 는 훌륭한 '참고서'나 '검색 엔진'은 될 수 있지만, 노화 연구를 혼자서 이끌어갈 '수석 과학자'가 되려면 아직 멀었다."

  • 신뢰할 수 있는 부분: 임상 기록을 바탕으로 "예/아니오"로 답하는 간단한 예측에는 꽤 잘합니다.
  • 주의해야 할 부분: 복잡한 데이터 (단백질, 유전자) 를 분석하거나, 정확한 수치를 예측할 때는 AI 의 말을 무조건 믿으면 안 됩니다. AI 가 질문 방식에 따라 흔들리고, 실제 원리보다는 패턴만 기억하고 있다는 것을 알아야 합니다.

5. 앞으로의 전망

연구팀은 이 시험지 (LongevityBench) 를 계속 발전시켜, AI 가 노화의 진짜 원리를 이해하도록 **훈련 (교육)**을 시킬 계획입니다. 마치 아이가 운전 면허 시험을 볼 때, 단순히 대시보드만 보는 게 아니라 실제 도로 상황을 이해하도록 가르치는 것처럼요.

한 줄 요약:

"AI 는 노화 연구의 훌륭한 도구가 될 수 있지만, 아직은 스스로 판단할 수 있는 지혜가 부족합니다. 과학자들은 AI 가 내놓은 답을 맹신하기보다, 항상 검증하며 사용해야 합니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →