MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

이 논문은 CERN 의 CMS 와 같은 대규모 과학 협업에서 민감한 데이터를 온프레미스로 보호하면서 내비게이션과 지식 공유를 개선하기 위해 Selenium 과 OCR 기반 자동 파이프라인, 2 단계 벡터 데이터베이스 아키텍처를 활용한 온프레미스 RAG 기반 AI 어시스턴트 'MITRA'를 제안합니다.

Abhishikth Mallampalli, Sridhara Dasu

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏔️ 거대한 도서관과 잃어버린 보물

상상해 보세요. 수천 명의 과학자들이 매일 새로운 발견을 하고, 그 내용을 기록한 **수만 권의 두꺼운 책 (문서)**이 쌓여 있는 거대한 도서관이 있다고 합시다.

  • 문제: 이 도서관은 너무 커서, 새로운 학생이 "어디에 이런 정보가 있을까?"라고 찾아다니다가 지쳐버리거나, 베테랑 연구원도 "어제 그 실험에서 배경 잡음 (noise) 이 뭐였지?"라고 기억을 더듬느라 시간을 낭비합니다.
  • 기존 방법: 기존의 검색창은 마치 "정확히 이 단어를 입력해야만 책을 찾아준다"는 엄격한 사서와 같습니다. "pT 컷 (pT cut)"이라고 검색해야만 나오는데, 사용자가 "가로 운동량 제한"이라고 검색하면 아무것도 나오지 않습니다.

🤖 MITRA: 도서관의 똑똑한 안내원

이 문제를 해결하기 위해 만든 것이 MITRA입니다. MITRA 는 단순히 책을 찾아주는 게 아니라, 문맥을 이해하는 똑똑한 안내원입니다.

1. 책을 읽는 방식 (자동화 및 OCR)

MITRA 는 도서관의 책들을 자동으로 가져와서 읽습니다.

  • 비유: 책이 복잡한 표지나 그림이 많아서 읽기 어렵다면, MITRA 는 고해상도 스캐너를 이용해 책의 내용을 정확하게 텍스트로 변환합니다. 단순히 글자만 복사하는 게 아니라, 그림 설명이나 표까지 정확히 구별해서 읽습니다.

2. 두 단계로 나누어 찾기 (2 단계 데이터베이스)

가장 중요한 MITRA 의 특징은 '먼저 큰 그림을 보고, 그다음 세부 사항을 찾는' 방식입니다.

  • 1 단계 (초록 확인): 사용자가 "가장 중요한 배경 잡음은 뭐야?"라고 물으면, MITRA 는 먼저 모든 책의 **제목과 요약 (초록)**을 훑어봅니다. "아, 이 질문은 '힉스 입자' 실험에 대한 건가, 아니면 '암흑 물질' 실험에 대한 건가?"를 먼저 파악합니다.
    • 왜 중요할까요? 만약 힉스 입자 실험에 대한 답변을 암흑 물질 실험 문서에서 찾아주면 엉뚱한 답이 나오기 때문입니다. MITRA 는 사용자에게 "혹시 이 실험을 말씀하시는 건가요?"라고 확인을 받습니다.
  • 2 단계 (본문 탐색): 실험이 확정되면, 이제 그 실험에 관련된 책 전체 내용만 집중해서 찾아줍니다. 이렇게 하면 다른 실험 내용과 섞여 엉뚱한 답을 하는 실수를 방지합니다.

3. 비밀스러운 금고 (온프레미스 및 개인정보 보호)

MITRA 는 외부 클라우드나 인터넷에 연결된 AI 서비스 (예: ChatGPT 등) 를 쓰지 않습니다.

  • 비유: 외부 서비스는 "내 질문을 외부의 거대한 컴퓨터로 보내서 답을 받아오는 것"이라면, MITRA 는 **실험실 안에 있는 전용 금고 (로컬 서버)**에서 모든 일을 처리합니다.
  • 이유: 과학 실험 데이터는 아직 공개되지 않은 '비밀'입니다. 외부로 나가는 순간 유출될 수 있기 때문에, MITRA 는 모든 데이터를 실험실 안의 컴퓨터 안에서만 처리하여 보안을 100% 보장합니다. 또한, 외부 서비스에 매번 돈을 내지 않아도 되어 장기적으로 훨씬 경제적입니다.

🏆 성능 테스트 결과: 왜 MITRA 가 더 좋은가?

연구팀은 MITRA 를 기존 검색 방식 (키워드 검색) 과 비교해 봤습니다.

  • 상황 A (정확한 단어 사용): "pT 컷"이라고 검색하면 둘 다 잘 찾습니다.
  • 상황 B (일상적인 표현 사용): "가로 운동량을 어떻게 제한했어?"라고 물으면?
    • 기존 검색: "pT 컷'이라는 단어가 없으니 "찾을 수 없습니다"라고 합니다. (성공률 13%)
    • MITRA: "아, 'pT 컷'을 말하는구나!"라고 문맥을 이해하고 정확한 답을 찾아냅니다. (성공률 75%)

이처럼 MITRA 는 단어의 일치 여부보다 '의미'를 이해하기 때문에, 연구원들이 전문 용어를 몰라도 자연스럽게 질문할 수 있습니다.

🔮 미래: 단순한 검색을 넘어선 '연구 파트너'

지금 MITRA 는 질문을 잘 답하는 '비서' 단계지만, 앞으로는 더 발전할 예정입니다.

  • 비유: 단순히 "책에서 이 정보를 찾아줘"라고만 하던 비서가, **"요즘 어떤 새로운 분석이 나왔는지 요약해 줄까?", "두 가지 실험 방법을 비교해 볼까?", "데이터와 이론이 어긋나는 부분이 어디일까?"**라고 능동적으로 도와주는 연구 파트너가 되는 것입니다.

📝 한 줄 요약

MITRA는 거대한 과학 실험실의 방대한 문서들을 보안 유지하면서, 문맥을 이해하는 똑똑한 안내원처럼 연구원들이 원하는 정보를 빠르게 찾아주고, 새로운 과학적 발견을 더 빠르게 할 수 있게 돕는 AI 시스템입니다.