SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

이 논문은 기억 정제, 원자적 쿼리 학습, 그리고 밀집 보상을 통해 검색 에이전트의 성능을 향상시키는 'SE-Search'를 제안하고, 단일 및 다단계 질문 답변 벤치마크에서 기존 최강 모델 대비 유의미한 성능 개선을 입증합니다.

Jian Li, Yizhang Jin, Dongqi Liu, Hang Ding, Jiafu Wu, Dongsheng Chen, Yunhang Shen, Yulei Qin, Ying Tai, Chengjie Wang, Xiaotong Yuan, Yabiao Wang

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"SE-Search"**라는 새로운 인공지능 (AI) 검색 도구에 대한 연구입니다. 이 도구를 이해하기 위해 일상생활에 비유해 설명해 드리겠습니다.

🕵️‍♂️ 핵심 비유: "현명한 탐정"이 되다

기존의 AI 검색 도구는 마치 정보를 무작정 모으는 초보 탐정과 같았습니다. 질문을 받으면 인터넷에서 관련 문서 100 개를 쭉 가져와서, 그중에서 중요한 것을 찾아내려다 보니 불필요한 잡동사니 (노이즈) 까지 섞여 답을 잘못 내놓거나 헷갈려 하곤 했습니다.

하지만 SE-Search는 **숙련된 '스스로 진화하는 탐정'**입니다. 이 탐정은 세 가지 특별한 능력을 배워서 훨씬 똑똑하게 일합니다.


🌟 SE-Search 의 3 가지 비밀 무기

1. 메모리 정화 (Memory Purification) = "쓰레기 분리수거"

  • 문제: 기존 AI 는 검색된 문서 100 개를 모두 기억하려고 하다가, 중요한 정보보다 광고나 헛소리에 더 많은 에너지를 써버립니다.
  • 해결: SE-Search 는 검색 결과를 가져오자마자 **"이게 정말 중요한가?"**를 스스로 판단합니다.
    • 비유: 마트에서 장을 보러 갔을 때, 필요한 물건만 장바구니에 담고, 불필요한 잡동사니는 바로 버리는 것과 같습니다.
    • 효과: AI 는 불필요한 정보 (노이즈) 를 걸러내고, 진짜 핵심 정보만 '기억장 (메모리)'에 깔끔하게 정리해 둡니다.

2. 원자적 질문 (Atomic Query) = "조각조각 잘게 쪼개기"

  • 문제: 기존 AI 는 "미국 대통령과 그의 아내의 생일은?" 같은 복잡한 질문을 한 번에 검색하려다 실패하거나, 너무 길고 복잡한 질문을 던져서 엉뚱한 답을 얻습니다.
  • 해결: SE-Search 는 복잡한 질문을 작은 조각 (원자) 으로 쪼개서 하나씩 검색합니다.
    • 비유: 거대한 피자를 한 입에 먹으려다 넘어지는 대신, 한 조각씩 잘게 잘라 천천히 맛있게 먹는 것과 같습니다.
    • 효과: 질문이 짧고 명확해져서 검색 엔진이 더 정확한 답을 찾아오며, 같은 내용을 반복해서 검색하는 낭비를 줄입니다.

3. 밀집 보상 (Dense Rewards) = "세심한 코칭"

  • 문제: 기존 AI 는 "정답을 맞췄다/틀렸다"는 결과만 알려주었습니다. 중간에 질문을 어떻게 던졌는지, 메모리를 어떻게 정리했는지는 칭찬이나 비판을 받지 못했죠.
  • 해결: SE-Search 는 과정 전체에 대해 세밀한 피드백을 줍니다.
    • 비유: 축구 코치가 경기 결과 (승/패) 만 보는 게 아니라, "공을 차는 자세가 좋았네", "패스를 너무 길게 보냈네", "메모리 정리가 훌륭했네"라고 매 순간 코칭해 주는 것과 같습니다.
    • 효과: AI 가 어떻게 행동해야 좋은지 빠르게 배우게 되어, 훈련 속도가 빨라지고 실수가 줄어듭니다.

🚀 실제 성과: "더 적은 노력, 더 좋은 결과"

실험 결과, 이 새로운 AI 는 기존 최고의 AI 들보다 정답률이 10.8% 포인트나 높아졌습니다. (비유하자면, 시험 점수가 70 점대에서 80 점대 후반으로 올라간 셈입니다.)

특히 흥미로운 점은 더 똑똑해지자 검색 횟수가 줄었다는 것입니다.

  • 과거: 복잡한 문제를 풀려고 검색을 1.53 번이나 반복했습니다.
  • 현재: 똑똑한 전략을 써서 검색을 1.32 번만 해도 더 좋은 답을 냅니다.
  • 의미: "무작정 많이 찾는 것"보다 "적절한 때에, 적절한 것을 찾아내는 것"이 훨씬 효율적이라는 것을 증명했습니다.

💡 결론

SE-Search는 AI 가 단순히 정보를 검색하는 것을 넘어, 스스로 정보를 걸러내고 (정화), 전략적으로 질문을 나누고 (원자적 질문), 과정마다 피드백을 받으며 (밀집 보상) 스스로 진화하는 시스템입니다.

이 기술은 앞으로 AI 가 복잡한 문제를 해결할 때, 우리가 원하는 정확한 정보를 더 빠르고 정확하게 찾아주는 '최고의 비서'가 되어줄 것으로 기대됩니다.