Evaluation of LLMs in retrieving food and nutritional context for RAG systems

이 논문은 자연어 쿼리를 메타데이터 필터로 변환하는 LLM 기반 RAG 시스템이 식품 영양 데이터 검색에서 높은 성능을 보이지만, 메타데이터 표현 범위를 초과하는 복잡한 제약 조건이 포함된 질문에서는 신뢰할 수 있는 검색에 한계가 있음을 평가했습니다.

Maks Požarnik Vavken, Matevž Ogrinc, Tome Eftimov, Barbara Koroušic Seljak

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍎 1. 문제 상황: "거대한 냉장고 속의 숨은 보물"

연구진들은 슬로베니아의 거대한 음식 영양 데이터베이스를 가지고 있었습니다. 이 데이터베이스는 3 만 2 천 개 이상의 음식 정보가 담긴 거대한 냉장고와 같습니다.

  • 과거의 방식: 영양사나 전문가가 이 냉장고에서 "단백질이 12g 이상인 치즈"를 찾으려면, 직접 복잡한 검색어를 입력하거나 전문가의 도움을 받아야 했습니다. 마치 도서관에서 책 제목을 모르고 서가 전체를 뒤져야 하는 것과 비슷했죠.
  • 새로운 방식 (RAG 시스템): 연구진은 **"자연어 (일상적인 말) 로 질문하면, AI 가 알아서 정확한 위치를 찾아주는 비서"**를 만들었습니다.

🤖 2. 해결책: "AI 비서의 두 가지 능력"

이 시스템은 두 가지 단계로 작동합니다.

  1. 명령 해석 (메타데이터 필터 생성):

    • 사용자가 **"단백질이 12g 이상인 음식은 뭐가 있어?"**라고 묻습니다.
    • AI 비서 (LLM) 는 이 말을 듣고 **"아, '단백질'이라는 칸에서 '12'보다 큰 값만 찾아야겠다"**라고 번역합니다. 이를 정교한 필터라고 부릅니다.
    • 이 필터는 냉장고 문을 열어 '단백질' 서랍만 골라내는 마법 지팡이와 같습니다.
  2. 정밀 검색 (벡터 데이터베이스):

    • 필터로 범위를 좁힌 뒤, AI 는 남은 음식들 중에서 질문의 의미와 가장 비슷한 것을 찾아냅니다.

🧪 3. 실험: "네 명의 AI 비서 대결"

연구진은 Gemini, GPT, Claude, Mistral이라는 네 명의 유명한 AI 비서를 불러모아 이 작업을 시켰습니다. 그리고 질문의 난이도를 세 가지로 나누어 테스트했습니다.

  • 쉬운 질문 (Easy): "단백질이 12g 이상인 음식은?"

    • 결과: 완벽했습니다! (성공률 99.9% 이상)
    • 비유: "빨간 사과만 줘"라고 하면, AI 비서는 빨간 사과만 쏙쏙 골라냅니다. 모든 AI 가 이 정도는 척척 해냈습니다.
  • 중간 난이도 (Medium): "칼륨이 0.5g 이상이고, 지방이 5g 미만인 음식은?"

    • 결과: 매우 훌륭했습니다.
    • 비유: "빨간 사과면서, 당도가 10 이상인 것만 줘"라고 해도 AI 비서는 논리적으로 잘 따져서 찾아냈습니다.
  • 어려운 질문 (Hard): "닭고기 중에서 콜레스테롤보다 단백질이 더 많은 음식은?" 또는 "단백질과 지방을 더했을 때 80g 을 넘는 음식은?"

    • 결과: 아쉬웠습니다. (성공률 약 40~45%)
    • 비유: "단백질과 지방을 더해서 80g 이 넘으면?" 같은 질문은 AI 비서가 **"음... 이걸 계산해서 필터로 만들 수는 없는데?"**라고 고민하다가 헷갈려 합니다.
    • 이유: AI 는 "A 가 B 보다 크다"거나 "A+B 가 C 보다 크다"는 복잡한 계산이나 비교를 필터로 변환하는 데는 아직 약점이 있습니다.

📉 4. 중요한 발견: "완벽하지 않지만, 충분히 유용하다"

  • 성공: 일상적인 질문이나 단순한 조건이 붙은 질문에는 AI 가 압도적인 성능을 보여줍니다. 영양사나 일반인이 복잡한 데이터베이스를 몰라도, 말로만 물어보면 원하는 정보를 바로 얻을 수 있게 되었습니다.
  • 한계: 하지만 너무 복잡하거나 계산이 필요한 질문에는 AI 가 실수를 합니다. 이때는 AI 가 "정확한 필터"를 못 만들면, "가장 비슷한 것들"을 대충 찾아주는 백업 모드로 전환합니다. 하지만 이 경우 정확한 답을 찾는 데는 한계가 있습니다.

💡 5. 결론: "미래는 밝지만, 아직 갈 길이 멀다"

이 연구는 **"AI 가 전문가들의 업무를 얼마나 쉽게 만들어줄 수 있는가"**를 보여줍니다.

  • 장점: 이제 영양사나 일반인도 기술적인 지식 없이도, **"자연스럽게 말"**로 복잡한 영양 데이터를 찾을 수 있게 되었습니다. 이는 시간과 노력을 획기적으로 줄여주는 혁신입니다.
  • 과제: 하지만 AI 가 수학 문제나 복잡한 논리를 완벽하게 처리하지는 못합니다. 앞으로는 AI 가 더 복잡한 질문을 이해하고, 정확한 답을 찾아낼 수 있도록 계속 발전시켜야 합니다.

한 줄 요약:

"이 연구는 AI 비서가 복잡한 음식 데이터베이스를 일상적인 말로 검색하게 만들어, 전문가들의 일을 획기적으로 편하게 해줬다는 것을 증명했습니다. 다만, 너무 복잡한 계산이 필요한 질문에는 아직 약점이 있어, 앞으로 더 발전해야 합니다."