Can LLMs Produce Original Astronomy Research in a Semester? A Graduate Class Experiment
이 논문은 2025 년 가을 학기 대학원 천문학 수업에서 LLM 을 활용한 연구 실험 결과를 보고하며, LLM 이 시간 절감에 일부 기여할 수 있으나 허위 인용, 복잡한 코드 생성 실패, 창의성 저해 등의 한계로 인해 아직 독립적인 과학적 연구 수행에는 부적합하다는 결론을 내립니다.
원저자:Ann Zabludoff, Chen-Yu Chuang, Parker Thomas Johnson, Yichen Liu, Brina Bianca Martinez, Neev Shah, Lucille Steffes, Gabriel Glen Weible
이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기
Each language version is independently generated for its own context, not a direct translation.
🌌 인공지능이 천문학 논문을 쓸 수 있을까? 2025 년 가을 학기 실험 보고서
이 글은 미국 애리조나 대학교 천문학 대학원생 7 명이 2025 년 가을 학기에 진행한 흥미로운 실험에 대한 보고서입니다. 그들은 "인공지능 (LLM) 이 우리가 모르는 새로운 천문학 주제를 연구해서, 진짜 학술지 논문을 쓸 수 있을까?"라는 의문을 가지고 실험을 했습니다.
이 실험의 결과를 마치 새로운 요리 레시피를 배우는 과정에 비유해서 쉽게 설명해 드릴게요.
1. 실험의 배경: "요리사 vs. AI 비서"
이 학생들은 모두 천문학 박사 과정 1 년생들이었습니다. 하지만 대부분이 '은하' 연구에 익숙하지 않은 초보자들이었습니다.
목표: 단순히 요약한 레포트가 아니라, 실제 학술지에 낼 수 있는 수준의 새로운 연구 논문을 한 학기 안에 써내는 것.
도구: ChatGPT, Claude, Gemini 등 최신 AI 모델들.
상황: 학생들은 AI 를 '비서'처럼 썼습니다. 자료 찾기, 코드 짜기, 논문 초안 작성 등을 AI 에게 맡겼습니다.
2. AI 의 활약: "신속한 식재료 정리꾼"
학생들은 AI 가 초반 단계에서 정말 유용하게 썼다고 말합니다.
비유: 만약 당신이 낯선 나라의 요리를 하려는데, 수백 권의 요리책을 일일이 읽어야 한다면 며칠이 걸릴까요? AI 는 그걸 1 초 만에 요약해 주었습니다.
성공 사례:
"은하의 금속 함량과 별의 질량 분포는 어떤 관계가 있을까?" 같은 복잡한 주제를 AI 가 빠르게 정리해 주었습니다.
코딩 실수 (오타) 를 찾아주거나, 간단한 그래프를 그리는 코드를 짜주는 데는 매우 능숙했습니다.
한 학생은 AI 가 과학적 그래프를 보고 "이 데이터는 물리 법칙에 위배되네?"라고 지적해 주기도 했습니다.
3. AI 의 실패: "거짓말쟁이 비서와 망가진 주방 도구"
하지만 AI 는 본격적인 요리 (연구) 를 진행할 때 심각한 문제를 일으켰습니다. 약 20% 의 확률로 엉뚱한 일을 했습니다.
가짜 레시피 (허위 인용):
AI 는 마치 진짜 책인 것처럼 존재하지 않는 논문이나 잘못된 링크를 가져다주었습니다.
예시: "NGC 346 성단에서 젊은 별들을 연구한 2025 년 제임스 웹 우주망원경 논문"이라고 소개했는데, 실제로 링크를 누르면 '은하 외곽의 화학 성분'에 대한 전혀 다른 글이 나왔습니다. 학생들은 모든 자료를 직접 확인해야만 했습니다.
망가진 주방 도구 (코드 오류):
AI 가 짜준 코드는 실행은 되지만, 물리적으로 말이 안 되는 결과를 내놓았습니다.
예시: 은하의 중력장을 계산할 때, 두 개의 서로 다른 논문을 섞어서 엉뚱한 수치를 넣었습니다. AI 는 "내가 맞다"며 고집을 부리기도 했습니다.
접근 불가 (데이터 다운로드 실패):
"이 데이터베이스에서 자료를 다운로드해 줘"라고 하면, AI 는 링크만 알려줄 뿐, 실제로 자료를 가져오거나 분석하는 코드는 제대로 짜지 못했습니다. 마치 "식재료 가게 위치는 알려주지만, 직접 사러 가지는 못하는 비서"와 같았습니다.
4. 학생들의 결론: "시간은 아꼈을까?"
결과적으로 학생들의 반응은 반반이었습니다.
절반은 "시간을 아꼈다"고 했습니다: "내가 은하 연구에 대해 아무것도 몰랐는데, AI 가 기초 지식을 빠르게 정리해 줘서 시작할 수 있었다."
나머지는 "시간을 낭비했다"고 했습니다: "AI 가 틀린 정보를 찾아내느라, 내가 직접 자료를 읽는 것보다 더 오래 걸렸다."
5. 핵심 교훈: "요리사는 여전히 인간이어야 한다"
이 실험을 통해 얻은 가장 중요한 교훈은 다음과 같습니다.
AI 는 '조수'일 뿐 '요리사'가 될 수 없다: AI 는 아이디어를 내고, 코드를 짜는 데는 도움이 되지만, **과학적 통찰력 (맛보기)**이나 정확한 데이터 검증은 인간이 직접 해야 합니다.
창의성의 위기: AI 가 모든 단계를 다 해준다면, 학생들은 "왜 이 연구를 해야 하지?"라는 질문 자체를 던지는 즐거움과 사고의 과정을 잃어버릴 수 있습니다.
미래의 방향: AI 개발자들은 "가짜 인용을 하지 않게 하고", "데이터베이스에 직접 접속할 수 있게" 고쳐야 합니다. 학생들은 앞으로 AI 를 쓸 때 **"무엇을 믿고, 무엇을 의심할지"**를 먼저 배워야 합니다.
📝 한 줄 요약
"AI 는 천문학 연구를 위한 '초고속 정보 정리꾼'과 '코드 조수'로는 훌륭하지만, '진실한 과학자'가 되려면 여전히 인간의 눈과 손이 필요하다."
이 실험은 AI 가 과학계를 어떻게 바꿀지, 그리고 우리가 어떻게 AI 와 함께 살아갈지 생각하게 만드는 중요한 신호탄이었습니다.
Each language version is independently generated for its own context, not a direct translation.
논문 요약: 한 학기 동안 LLM 을 활용한 천문학 원시 연구 수행 가능성에 대한 실험
1. 연구 배경 및 문제 제기 (Problem)
배경: 대규모 언어 모델 (LLM) 은 과학적 개념 학습, 문헌 종합, 연구의 타당성 검토에 유용할 수 있지만, 과학적 논문 인용 오류, 가짜 데이터 생성, 부정확한 코드 작성, 그리고 과학적 직관 (Scientific "taste") 부족 등의 한계를 가지고 있습니다.
문제: LLM 이 익숙하지 않은 분야에서 과학적 연구의 전 과정을 지원하여, 학기 내 (약 3-4 개월) 에 동료 검토가 가능한 수준의 원시 연구 (Original Research) 결과를 도출할 수 있는가?
목표: 2025 년 가을 학기 애리조나 대학교 대학원 천문학 및 천체물리학 과정 (ASTR 540) 에서 박사 과정 학생 7 명을 대상으로 LLM 을 활용하여 미해결 문제 (은하 관련) 에 대한 연구 논문을 작성하는 실험을 진행했습니다. 목표는 단순한 요약이 아닌, 실제 저널 투고 가능한 수준의 초안 작성이었습니다.
2. 연구 방법론 (Methodology)
대상: 1 년차 대학원생 7 명 (대부분 은하 형성/진화 분야가 아닌 다른 천문학 분야 전공자).
사용 도구: ChatGPT-5/5.2, Claude Sonnet/Opus 4/4.5, Gemini Flash/Pro 등 다양한 최신 LLM 모델.
프로세스:
주제 선정: LLM 을 활용하여 문헌을 종합하고, 미해결 문제를 식별하며 연구 질문을 구체화.
실험 설계: 데이터셋 식별, 분석 방법론 수립, 시뮬레이션/코드 작성 지원.
코드 및 데이터 처리: LLM 이 분석 스크립트 작성, 데이터 추출, 시각화 코드 생성 지원.
검증 (Verification): 학생들은 LLM 이 생성한 모든 결과 (문헌 인용, 코드, 데이터) 를 수동으로 검증했습니다.
모든 인용 문헌을 Google ADS 나 원문에서 직접 확인.
LLM 이 생성한 코드가 기대한 출력과 일치하는지 테스트.
여러 LLM 모델을 교차 검증 (Cross-check) 하거나, LLM 에게 자신의 논리 설명을 요구하여 오류를 탐지.
사용 시간: 학생당 총 5~10 시간 (복잡한 프로젝트의 경우 30 시간까지 소요).
3. 주요 성과 및 기여 (Key Contributions & Results)
가. 성공 요인 (Successes)
문헌 조사 가속화: 수주 걸릴 수 있는 문헌 조사를 단시간에 종합하여 연구 방향을 설정하는 데 큰 도움을 주었습니다.
코드 작성 및 디버깅: 소규모 작업 (그림 생성, 간단한 스크립트 작성) 과 문법 오류 수정에 효과적이었습니다.
새로운 통찰: 일부 학생은 LLM 이 복잡한 플롯을 분석하여 물리적으로 비현실적인 코드 오류 (예: 삼중성 시스템의 에너지 변화) 를 찾아낸 사례를 보고 놀라워했습니다.
연구 주제 구체화: 광범위한 질문을 구체적인 연구 프로젝트로 전환하는 과정에서 LLM 이 아이디어 브레인스토밍에 기여했습니다.
나. 실패 요인 및 한계 (Failures & Limitations)
허위 인용 및 링크 (약 20% 발생): LLM 은 종종 존재하지 않는 논문을 인용하거나, URL 은 정확하지만 내용 (제목, 요약) 이 실제 논문과 다른 "할루시네이션"을 일으켰습니다.
복잡한 코드 및 시뮬레이션 실패:
은하 역학 시뮬레이션, 복잡한 데이터 분석 파이프라인 작성 시 물리적으로 비현실적인 결과를 생성하거나, 문서화가 부족한 패키지의 코드를 제대로 작성하지 못했습니다.
API 및 데이터 접근 불가: VizieR, STARBURST99 등 천문학 전용 아카이브나 패키지에 직접 접속하여 데이터를 쿼리하거나 다운로드하는 능력이 부족했습니다.
확증 편향 및 단순화: LLM 은 잘못된 정보를 지적받으면 이를 수정하기보다 오히려 고집하거나 (Doubling down), 질문의 맥락을 무시하고 지나치게 단순화된 가정을 적용했습니다.
데이터 불일치: 데이터베이스의 내부 구조나 포맷 (예: MaNGA 데이터) 을 이해하지 못해 호환되지 않는 코드를 생성했습니다.
다. 학생들의 피드백 및 인식 변화
시간 효율성: 약 절반의 학생은 시간이 절약되었다고 답했으나, 나머지 절반은 검증에 소요된 시간 때문에 오히려 비효율적이었다고 평가했습니다.
창의성 우려: 많은 학생이 LLM 이 연구의 '다음 단계'를 예측하거나 제안하는 방식이 연구자의 자율성과 비판적 사고를 저해할 수 있다고 우려했습니다.
미래 사용 계획: 학생들은 LLM 을 '마지막 수단'이나 '보조 도구' (코드 디버깅, 문헌 초기 탐색) 로만 제한적으로 사용하겠다고 밝혔으며, 논문의 핵심 과학적 내용이나 데이터 추출에는 직접 수행할 것이라고 답했습니다.
4. 의의 및 시사점 (Significance)
LLM 의 현재 위치: LLM 은 연구의 초기 단계 (문헌 탐색, 아이디어 구체화, 단순 코드 작성) 에 유용하지만, 정밀한 데이터 분석, 복잡한 시뮬레이션, 그리고 과학적 판단이 필요한 단계에서는 여전히 인간 연구자의 엄격한 검증이 필수적입니다.
교육적 함의: 향후 교육 과정에서는 LLM 의 한계와 모범 사례 (Best Practices) 를 조기에 교육해야 하며, 학생들이 스스로 LLM 사용 여부를 결정할 수 있도록 해야 합니다.
개발자 제안:
인용 및 데이터 정확성: 신뢰할 수 있는 데이터베이스 (ADS 등) 에서만 인용과 데이터를 추출하도록 강제하고, 가짜 인용을 방지해야 합니다.
불확실성 표기: LLM 이 답변에 대한 확신도 (Confidence level) 를 명시할 수 있어야 합니다.
에이전트 기능 강화: API 접근, 데이터 쿼리, 복잡한 워크플로우 자동화를 위한 에이전트 (Agent) 기능의 고도화가 필요합니다.
창의성 보호: 연구자의 자율성을 침해하지 않도록, LLM 이 연구 방향을 지나치게 주도하지 않도록 설계되어야 합니다.
5. 결론
이 실험은 LLM 이 천문학 연구의 생산성을 높일 잠재력을 보여주었지만, 현재 기술 수준에서는 가짜 인용, 데이터 접근 불가, 복잡한 물리 모델링 실패 등의 치명적인 결함이 있음을 입증했습니다. 따라서 LLM 은 연구자의 '보조 도구'로 활용되어야 하며, 과학적 엄밀성과 창의성을 유지하기 위해서는 인간 연구자의 비판적 검증과 주도적 개입이 반드시 동반되어야 합니다.