User-driven development and evaluation of an agentic framework for analysis… — 쉬운 설명

원저자: Corradi, M., Djidrovski, I., Ladeira, L., Staumont, B., Verhoeven, A., Sanz Serrano, J., Rougny, A., Vaez, A., Hemedan, A., Mazein, A., Niarakis, A., de Carvalho e Silva, A., Auffray, C., Wilighagen

게시일 2026-03-12

📖 3 분 읽기☕ 가벼운 읽기

보기: bioRxiv ↗PDF ↗

⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

📚 배경: 거대하고 복잡한 '생물학 도서관'

생물학자들은 우리 몸의 세포가 어떻게 작동하는지, 혹은 병이 어떻게 생기는지를 설명하는 거대한 **'지도 (도면)'**들을 가지고 있습니다.

문제점: 이 지도들은 너무 방대하고 복잡해서, 초보자는 물론 전문가조차 길을 찾기 어렵습니다. 마치 수백만 권의 책이 쌓인 도서관에서 특정 정보를 찾으려는데, 책장 번호도 다르고 책 제목도 제각각이라 헤매는 것과 같습니다.
해결책: 최근 등장한 **거대 언어 모델 (LLM, AI)**이 이 문제를 해결할 수 있을까요? AI 가 도서관의 모든 책을 읽고 우리에게 필요한 정보만 요약해 준다면 어떨까요?

🤖 주인공: 'Llemy (레미)'라는 AI 비서

저자들은 이 문제를 해결하기 위해 **'Llemy'**라는 AI 시스템을 만들었습니다.

역할: Llemy 는 도서관 (생물학 데이터베이스) 에 있는 복잡한 지도를 보고, 사용자가 "간단히 요약해 줘"나 "이 약이 간에 어떤 영향을 미치지?"라고 물어보면, 정확한 근거를 들어 답변해 주는 유능한 사서입니다.
특징: 단순히 AI 가 지식을 외워서 말하는 것이 아니라, 실제 과학자들이 만든 '지도'를 직접 참조하여 답변하므로 거짓말을 하지 않고 출처를 명확히 밝힙니다.

🛠️ 개발 과정: "사용자들과 함께 만든 프로젝트"

이 시스템은 개발자가 혼자서 막연히 만든 것이 아니라, 실제 도서관 사서 (전문가) 들과 함께 만든 것입니다.

해커톤 (작업장): 개발 초기에 생물학자, 데이터 분석가, AI 전문가들이 모여 "우리가 실제로 어떤 질문을 하고 싶을까?"를 고민하며 시제품을 만들었습니다.
테스트: 완성된 Llemy 를 실제 전문가 25 명에게 사용하게 했습니다. 그들은 다양한 질문을 던지고, AI 의 답변이 얼마나 정확하고 빠르고 신뢰할 만한지 5 점 척도로 평가했습니다.

📊 결과: AI 는 잘하지만, 아직 넘어야 할 산이 있습니다

사용자들의 평가를 통해 몇 가지 재미있는 사실을 발견했습니다.

요약은 잘해요 (4 점): 복잡한 지도를 한눈에 보기 쉽게 요약해 주는 능력은 매우 뛰어났습니다.
찾기 기능은 조금 헷갈려요 (3 점): "이 특정 단백질이 어디에 있나?"라고 구체적으로 찾을 때는 때때로 길을 잃거나, 존재하지 않는 정보를 만들어 내기도 했습니다.
속도가 느리면 불만족: 답변이 늦게 나오면 사용자들이 "정확하지 않거나 신뢰할 수 없다"고 느꼈습니다. (기다리는 동안 답이 틀린 것 같다는 심리 때문)
출처 연결의 중요성: AI 가 "이 정보는 이 책에 나와요"라고 링크를 걸어주면 신뢰도가 높았지만, 링크가 깨지거나 엉뚱한 곳을 가리키면 신뢰도가 떨어졌습니다.

🔮 미래: 더 나은 비서를 위해

이 연구를 통해 저자들은 다음과 같은 결론을 내렸습니다.

지속적인 개선: AI 기술은 빠르게 변하므로, 사용자들의 피드백을 계속 받아 시스템을 고쳐나가야 합니다.
열린 기술: 현재는 비싼 상업용 AI 를 쓰지만, 앞으로는 누구나 접근할 수 있는 '오픈 소스 AI'를 써서 비용을 줄이고 투명성을 높여야 합니다.
더 많은 테스트: 다양한 분야의 사람들이 더 많이 참여하여, AI 가 복잡한 질문에도 정확하게 답할 수 있도록 훈련시켜야 합니다.

💡 한 줄 요약

"복잡한 생물학 지도를 읽는 것이 너무 어렵다면, Llemy 라는 AI 비서가 그 지도를 펼쳐서 우리가 쉽게 이해할 수 있도록 요약해 주고, 정확한 출처까지 알려줍니다. 이제부터는 전문가들과 함께 이 비서를 더 똑똑하게 만들어 갈 것입니다."

이 논문은 기술적인 성과뿐만 아니라, **"사용자 (전문가) 와 함께 시스템을 만들어가는 과정"**이 얼마나 중요한지를 보여준 좋은 사례입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 대규모 경로 도표 분석을 위한 에이전트 프레임워크 (Llemy) 의 사용자 주도 개발 및 평가

1. 문제 정의 (Problem)

지식 자원의 복잡성: 생물의학 지식은 급격히 성장하고 있으며, 분자 상호작용 맵 (Molecular Interaction Maps) 과 같은 리소스는 방대해지고 복잡해지고 있습니다. 이러한 맵은 정상 또는 병리적 조건下的 세포 및 분자 과정을 시각화하지만, 초보자를 포함한 사용자들이 이를 탐색하고 이해하는 데 어려움을 겪고 있습니다.
접근 장벽: 다양한 포맷, 인터페이스, 그리고 세분화 수준을 가진 지식 저장소를 탐색하는 것은 시간 소모적이고 어렵습니다.
기존 솔루션의 한계: 대규모 언어 모델 (LLM) 은 지식 그래프 생성이나 데이터 분석에 활용되고 있지만, 수동으로 큐레이션된 분자 상호작용 맵 (SBGN/SBML 표준 준수) 을 직접적으로 탐색하고 분석하기 위한 전용 솔루션은 부재했습니다.

2. 방법론 (Methodology)

이 연구는 사용자 주도 (User-driven) 접근 방식을 통해 시스템인 Llemy를 프로토타입화, 개발, 평가했습니다.

개발 프로세스:
- 해커톤 (Hackathon): 벨기에 리에주 대학교에서 2 일간의 해커톤을 통해 초기 프로토타입을 개발했습니다. 간독성학자, 맵 큐레이터, 계산 생물학자, LLM 전문가가 참여하여 사용자 요구사항과 시스템 아키텍처를 정의했습니다.
- 시스템 아키텍처 (Llemy):
  - 프론트엔드: Streamlit (Python 기반).
  - 백엔드: LangChain 기반의 에이전트 프레임워크.
  - 작동 원리: 사용자가 맵을 선택하고 프롬프트를 입력하면, 두 개의 병렬 에이전트가 작동합니다.
    1. 검색 에이전트: MINERVA 플랫폼 API 를 통해 선택된 맵의 데이터 (노드, 엣지, 주석) 를 추출합니다.
    2. 검색 에이전트 (외부): Perplexity 를 통해 심층 연구를 수행합니다.
    3. 종합 에이전트 (Synthesiser): 추출된 맵 데이터와 외부 정보를 결합하여 OpenAI GPT-4.1-nano 를 통해 답변을 생성하고, 맵의 특정 요소에 대한 클릭 가능한 링크를 포함시킵니다.
- 배포: 클라우드 (VHP4Safety) 및 로컬 Docker 컨테이너로 배포되며, 사용자는 API 키를 직접 제공합니다.
평가 설계:
- 참가자: Disease Maps 커뮤니티를 통해 모집된 25 명의 전문가 (개발자, 큐레이터, 사용자).
- 데이터 수집:
  1. 프롬프트 데이터셋: 157 개의 개별 프롬프트, 시스템 응답, 응답 시간, 그리고 정확도 (Accuracy), 간결성 (Conciseness), 신뢰성 (Reliability) 에 대한 5 점 척도 평가 및 자유 텍스트 코멘트.
  2. 요약 데이터셋: 19 명의 사용자가 작성한 최종 설문조사 (전반적인 사용성, 생산성, 유용성 평가).
- 통계 분석: R 언어를 사용하여 누적 링크 혼합 모델 (Cumulative Link Mixed Model) 을 적용하여 응답 시간이 평가 점수에 미치는 영향을 분석하고, 프롬프트 카테고리 간 차이를 Dunn's test 로 검정했습니다.

3. 주요 기여 (Key Contributions)

Llemy 시스템 출시: 분자 상호작용 맵을 탐색하기 위한 최초의 LLM 기반 에이전트 프레임워크 중 하나를 구축하고 공개했습니다.
사용자 주도 개발 모델: 해커톤을 통한 초기 설계부터 정교한 사용자 테스트에 이르는 전 과정을 포함하는 개발 프로세스를 제시했습니다.
평가 프레임워크: 상호작용이 필요한 복잡한 도표 탐색 작업을 평가하기 위한 정량적 (정확도, 간결성, 신뢰도) 및 정성적 피드백 체계를 확립했습니다.
오픈 소스 및 재현성: 코드 (GitHub), 문서, 그리고 공개 인스턴스를 제공하여 커뮤니티의 재현과 추가 개발을 장려했습니다.

4. 결과 (Results)

성능 평가:
- 메트릭: 정확도 (중앙값 4), 간결성 (중앙값 3), 신뢰도 (중앙값 4) 로 평가되었습니다.
- 응답 시간의 영향: 응답 시간이 길어질수록 사용자의 평가 점수가 유의미하게 낮아지는 경향 ( $\beta = -0.34, p < 0.001$ ) 이 확인되었습니다.
- 작업 유형별 차이: 프롬프트를 '요약 (Summarise)', '찾기 (Find)', '분석 (Analyse)'으로 분류했을 때, 통계적으로 유의미한 차이는 없었으나 '요약' 작업이 가장 높은 점수를 받았고, '찾기' 작업은 점수 분포가 넓고 낮았습니다.
사용자 피드백:
- 긍정적: 맵의 연결성을 잘 파악하고, 범위를 벗어난 정보에 대해 한계를 인정하는 등 종합적인 요약 능력이 높게 평가됨.
- 부정적/개선 필요:
  - 사실 오류 및 허위 정보: 맵에 존재하지 않는 반응이나 요소를 생성하거나, 잘못된 참조를 제공하는 경우.
  - 용어 불일치: HGNC 표준 명칭과 일반 약어 간의 동의어 처리 실패.
  - 맥락 부재: 특정 장기나 질병 맥락을 고려하지 않은 답변.
  - 일관성 부족: 동일한 프롬프트에 대해 다른 결과가 나오는 변동성 (Variability) 이 높게 보고됨.
- 사용성: 80% 이상의 사용자가 시스템의 사용성을 4 점 이상으로 평가했으나, 맵 사용자는 유용성에 대해 더 보수적인 평가를 내렸습니다.

5. 의의 및 향후 전망 (Significance & Outlook)

복잡성 장벽 해소: LLM 을 통해 복잡한 생물학적 경로 맵을 요약하고 탐색함으로써 연구 진입 장벽을 낮출 수 있음을 입증했습니다.
지속 가능성과 오픈 모델: 현재 상업용 LLM 을 사용 중이지만, 결과의 일관성 (Reproducibility) 과 비용 효율성을 위해 오픈 가중치 (Open-weight) LLM으로 전환하고 로컬 배포를 고려해야 함을 강조했습니다.
향후 로드맵:
- 응답 시간 단축 및 참조 링크 정확도 향상.
- 작업 유형 (요약, 검색, 분석) 에 맞춘 전용 워크플로우 도입.
- MINERVA 플랫폼 GUI 와의 플러그인 통합 및 Model Context Protocol (MCP) 적용.
- 더 넓은 사용자층을 대상으로 한 벤치마킹 및 지속적인 사용자 주도 평가 시스템 고도화.

이 연구는 생물정보학 분야에서 LLM 기반 도구의 개발이 단순히 기술적 구현을 넘어, 실제 사용자 (도메인 전문가) 의 피드백을 통한 반복적 개선이 필수적임을 보여주는 중요한 사례입니다.

User-driven development and evaluation of an agentic framework for analysis of large pathway diagrams