EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

이 논문은 데이터베이스 구축, 실행 가능한 환경 생성, 다중 턴 궤적 합성을 담당하는 전문 에이전트들을 조율하여 기능 호출 데이터의 수명 주기를 자동화하고, BFCL-V3 벤치마크의 오류를 식별 및 수정하며 결과 지향 평가 프로토콜을 도입함으로써 모델 성능 평가의 인간적 판단과의 상관관계를 크게 향상시킨 'EigenData'라는 자기 진화형 멀티 에이전트 플랫폼을 제안합니다.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin

게시일 Mon, 09 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

EigenData: AI 가 스스로 데이터를 만들고, 고치고, 검증하는 '스마트 공장'

이 논문은 **"AI 가 도구를 사용하는 능력 (Function-Calling)"**을 키우기 위해 필요한 데이터를 어떻게 만들고, 어떻게 고칠 것인가에 대한 획기적인 해결책을 제시합니다.

기존 방식은 사람이 일일이 데이터를 만들거나, 단순한 규칙으로 데이터를 생성했는데, 이 방식은 비용이 많이 들고 오류가 많았습니다. 저자들은 이를 해결하기 위해 **EigenData(아이겐데이터)**라는 새로운 플랫폼을 개발했습니다.

이 플랫폼을 이해하기 쉽게 **거대한 '자율 주행 자동차 공장'**에 비유해 설명해 드리겠습니다.


1. EigenData 란 무엇인가요? (자율 공장)

기존의 데이터 생성 방식은 수동 공업 같았습니다. 사람이 설계도를 보고 부품을 만들고, 조립하고, 검사하는 방식이죠. 하지만 EigenData 는 **완전 자동화된 '스마트 공장'**입니다.

이 공장은 **3 명의 전문 로봇 (에이전트)**과 **1 명의 공장장 (오케스트레이터)**으로 구성되어 있습니다.

  • 공장장 (EigenCore): 전체 공장을 지휘합니다. "호텔 예약 데이터를 만들어줘"라고 명령하면, 어떤 로봇이 무엇을 해야 할지 계획을 세우고 조율합니다.
  • 데이터 설계사 (DatabaseAgent): 가상의 세계를 만듭니다. 호텔 예약 시스템이라면, '객실', '손님', '예약 내역'이 담긴 **가상의 데이터베이스 (창고)**를 먼저 만듭니다.
  • 코딩 엔지니어 (CodingAgent): 그 데이터를 실제로 작동하게 하는 **소프트웨어 (로봇 팔)**를 만듭니다. "예약하기", "취소하기" 같은 버튼을 누르면 실제로 작동하는 코드를 짭니다. 그리고 스스로 테스트를 돌려서 고장 나면 고칩니다.
  • 대화 시나리오 작가 (DataAgent): 이제 실제 사용자 (고객) 와 AI(직원) 가 대화하는 시나리오를 만듭니다. 고객이 "내일 객실 예약해줘"라고 하고, AI 가 예약하는 과정을 수천 번 시뮬레이션하며 데이터를 생성합니다.

이 세 로봇은 서로 대화하며 실수하면 즉시 고치고, 데이터가 맞지 않으면 다시 설계합니다. 이것이 바로 '자기 진화 (Self-Evolving)'의 핵심입니다.


2. 왜 이 기술이 필요한가요? (고장 난 시험지)

논문에서는 이 플랫폼을 **BFCL(버클리 함수 호출 리더보드)**이라는 유명한 AI 시험지에 적용해 보았습니다. 결과는 충격적이었습니다.

"기존 시험지 100 문항 중 71 문항이 이미 고장 나 있었다!"

기존 시험지에는 다음과 같은 치명적인 오류들이 숨어 있었습니다:

  1. 설계도 오류: "티켓 번호는 숫자여야 한다"고 적혀 있는데, 실제 데이터는 "문자열"로 되어 있어 AI 가 아무리 정답을 맞춰도 틀리게 되는 경우.
  2. 로봇 팔 고장: "자동 모드"로 불을 켜라고 했을 때, 코드가 잘못되어 불이 꺼지는 버그가 있는 경우.
  3. 정답지 오류: AI 가 정답을 냈는데, 정답지 (Ground Truth) 자체가 잘못되어 AI 를 오답 처리한 경우.

이런 오류 때문에 **실력은 좋은 AI 가 시험에서 떨어지고, 실력은 부족한 AI 가 높은 점수를 받는 '역전 현상'**이 벌어졌습니다. 마치 수학 시험지 답안지에 계산 실수가 있어서, 정답을 낸 학생을 감점하는 꼴입니다.


3. EigenData 가 어떻게 문제를 해결했나요? (수리공의 활약)

EigenData 는 이 고장 난 시험지를 자동으로 수리했습니다.

  1. 진단: 3 명의 로봇이 협력하여 설계도 (스키마), 코드 (구현), 정답지 (시나리오) 를 샅샅이 훑으며 오류를 찾아냈습니다.
  2. 수리:
    • 설계도 오류는 설계사 로봇이 고쳤습니다.
    • 코드 버그는 코딩 엔지니어 로봇이 스스로 테스트를 돌려가며 수정했습니다.
    • 잘못된 정답지는 시나리오 작가 로봇이 다시 작성했습니다.
  3. 검증: 수리된 시험지를 다시 돌려보며, AI 가 실제로 일을 잘하는지 확인했습니다.

4. 결과는 어땠나요? (진짜 실력 드러나다)

수리된 시험지로 다시 AI 들을 평가한 결과는 놀라웠습니다.

  • 기존 시험지: GPT-5.2 같은 모델은 점수가 매우 낮게 나왔지만, 수리된 시험지에서는 실제 인간이 평가한 점수와 거의 일치하게 높게 나왔습니다.
  • 기존 시험지: GLM-4.6 같은 모델은 기존 시험지에서는 1 등이었지만, 수리된 시험지와 인간 평가에서는 4 등으로 떨어졌습니다. (기존 시험지의 오류 때문에 운 좋게 점수를 받은 것이었습니다.)

결론적으로, EigenData 가 만든 수리된 시험지는 AI 의 '진짜 실력'을 가장 정확하게 보여주는 거울이 되었습니다.


5. 핵심 요약 (한 줄 결론)

"EigenData 는 AI 가 도구를 사용하는 능력을 가르치기 위해, 스스로 데이터를 만들고, 고장 난 시험지를 찾아내어 고치고, AI 의 진짜 실력을 측정하는 '스마트 공장'입니다."

이 기술 덕분에 앞으로는 AI 개발자들이 수천 시간의 수작업 없이도, 오류 없는 고품질 데이터를 얻어 더 똑똑하고 신뢰할 수 있는 AI 를 만들 수 있게 될 것입니다.