Retrieval-Augmented Question Answering over Scientific Literature for the Electron-Ion Collider

Each language version is independently generated for its own context, not a direct translation.

전자-이온 충돌기 (EIC) 프로젝트는 전 세계 190 개 이상의 연구소가 참여하는 초대형 과학 프로젝트입니다. 이 프로젝트에서는 수천 편의 논문, 보고서, 회의 자료 등이 쏟아져 나옵니다.

비유: 연구원들이 수만 권의 책이 쌓인 거대한 도서관에 있다고 상상해 보세요. 그런데 "어떤 책에 이 실험 장비의 사양이 적혀 있을까?"라고 묻는다면, 도서관 사서 (연구자) 가 모든 책을 다 뒤져야 할까요?
기존의 AI 문제: 일반적인 인공지능 (LLM) 은 이 도서관의 책 내용을 다 읽지 않고, 자기가 기억하는 것만으로 답을 합니다. 이때 AI 가 "아, 그건 이런 책에 있었을 거야!"라고 자신 있게 말하지만, 사실은 엉뚱한 내용을 지어내는 (환각, Hallucination) 문제가 생깁니다. 과학에서는 틀린 정보가 치명적이죠.

이 논문은 AI 가 책 내용을 직접 찾아서 답을 하도록 만들었습니다. 이를 **RAG(검색 증강 생성)**라고 합니다.

비유: 이 시스템은 책장 사이를 빠르게 뛰어다니는 비서입니다.
1. 질문 받기: 연구자가 "이 장비의 전압은 얼마야?"라고 묻습니다.
2. 검색하기: 비서는 도서관 (데이터베이스) 에서 관련 문서 20 개를 빠르게 찾아냅니다.
3. 답변 생성: 찾아낸 문서 내용을 바탕으로 "이 문서 5 페이지에 전압이 100V 라고 적혀 있습니다"라고 근거를 들어 답합니다.
4. 출처 명시: "이 정보는 2023 년에 쓴 A 논문에서 왔습니다"라고 참고문헌을 꼭 달아줍니다.

이 논문은 단순히 비서를 만드는 것을 넘어, 비용과 보안을 고려한 독특한 방식을 택했습니다.

🔒 보안이 중요한 '사내 도서관':
- 기존에는 AI 를 외부 클라우드 (구름) 에 두고 자료를 보냈습니다. 하지만 과학 데이터는 아직 공개되지 않은 '비밀 문서'일 수 있습니다.
- 이 시스템은 **연구실 안 (로컬)**에 도서관을 직접 지었습니다. 외부로 나가는 데이터가 전혀 없으니, 비밀이 새나갈 염려가 없습니다.
💰 돈이 들지 않는 '자급자족':
- 비싼 유료 AI 모델을 쓰지 않고, 무료로 쓸 수 있는 **오픈소스 모델 (LLaMA)**을 사용했습니다. 마치 비싼 식당 대신 집에서 직접 요리를 해서 비용을 아끼는 것과 같습니다.
🧩 퍼즐 맞추기 (조각 내기):
- 긴 논문을 읽기 쉽게 작은 조각 (Chunk) 으로 잘랐습니다.
- 비유: 긴 소설책을 한 장씩 잘라 퍼즐 조각으로 만든 뒤, 질문과 가장 잘 맞는 조각들을 찾아내어 다시 이어 붙여 답을 만드는 방식입니다.
- 연구 결과, 조각을 너무 작게 자르면 (120 자) 중요한 정보가 빠질 수 있고, 너무 크면 (180 자) 관련 없는 내용이 섞일 수 있다는 것을 발견했습니다. 이 연구에서는 180 자로 자르는 것이 가장 좋은 결과를 냈습니다.

속도: 질문을 하고 답을 받기까지 걸리는 시간은 매우 빠릅니다 (검색은 0.1 초, 답은 10~20 초).
정확도:
- 신뢰성 (Faithfulness): AI 가 지어낸 말 (환각) 을 거의 하지 않습니다. 찾아낸 문서에 있는 사실만 말해줍니다.
- 오류: 아주 복잡한 과학적 사실이나 수학적 계산은 아직 완벽하지 않을 수 있습니다. 하지만 "이 실험의 목적은 뭐야?", "어떤 장비가 쓰였어?" 같은 질문에는 아주 훌륭하게 답합니다.

이 논문은 **"거대하고 복잡한 과학 프로젝트에서도 AI 를 안전하게, 저렴하게 쓸 수 있다"**는 것을 증명했습니다.

미래: 앞으로는 논문뿐만 아니라, 발표 자료 (PPT), 백서, 위키 등 다양한 자료를 이 '비서'에게 학습시켜 더 똑똑하게 만들 계획입니다.
핵심 메시지: 과학자들은 이제 방대한 자료 속에서 헤매지 않아도 됩니다. 이 '비서'가 찾아낸 정확한 정보와 출처를 바탕으로, 더 빠른 과학적 발견을 할 수 있게 된 것입니다.

한 줄 요약:

"이 시스템은 비밀 유지가 중요한 거대 과학 도서관에서, 돈 들지 않는 무료 AI 비서가 연구원들을 위해 정확한 책 장소를 찾아주고 근거를 보여줌으로써 과학 연구 속도를 높여주는 기술입니다."

유사한 논문