TraceSIR: A Multi-Agent Framework for Structured Analysis and Reporting of Agentic Execution Traces

이 논문은 복잡한 에이전트 실행 트래이스의 문제 진단과 근본 원인 분석을 위해 구조화된 추상화, 정밀한 진단, 종합적 보고서 생성을 담당하는 세 가지 전문 에이전트로 구성된 'TraceSIR' 프레임워크를 제안하고, 이를 평가하기 위한 벤치마크와 프로토콜을 통해 기존 방법보다 우수한 성능을 입증합니다.

Shu-Xun Yang, Cunxiang Wang, Haoke Zhang, Wenbo Yu, Lindong Wu, Jiayi Gui, Dayong Yang, Yukuo Cen, Zhuoer Feng, Bosi Wen, Yidong Wang, Lucen Zhong, Jiamin Ren, Linfeng Zhang, Jie Tang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ AI 의 실수, 왜 찾아내기 어려울까요?

생각해 보세요. AI 가 복잡한 미션을 수행할 때 (예: "내일 여행 계획 짜줘"라고 하면, 항공편을 검색하고, 호텔을 예약하고, 날씨를 확인하는 등 수십 번의 작업을 거칩니다). 이때 AI 가 남기는 기록 (트레이스) 은 마치 수백 장에 달하는 일기장이나 수천 개의 CCTV 영상처럼 방대합니다.

  • 기존의 문제점:
    • 사람이 직접 보기엔 너무 길어요: 사람이 이 모든 기록을 일일이 읽으려면 며칠이 걸립니다.
    • AI 가 분석하긴엔 너무 복잡해요: 이 긴 기록을 그대로 다른 AI 에게 주면, "머리가 너무 복잡해"라며 헛소리를 하거나 중요한 부분을 놓칩니다.
    • 결과만 보면 안 돼요: "여행 계획 실패"라는 결과만 보고는, "왜 실패했지? 항공권 검색을 잘못했나? 호텔이 없었나?"를 알 수 없습니다.

🛠️ TraceSIR: AI 의 '수술실'과 '분석 보고서'

이 문제를 해결하기 위해 연구팀은 TraceSIR이라는 세 명의 전문가가 팀을 이루는 시스템을 만들었습니다. 마치 병원에서 환자를 진단하는 과정과 비슷합니다.

1. 구조화 에이전트 (StructureAgent) = 📝 "요약 전문가"

  • 역할: 방대한 AI 일기장 (수천 페이지) 을 읽기 쉬운 핵심 요약본으로 바꿉니다.
  • 비유: 100 분짜리 긴 영화를 10 분짜리 하이라이트 영상으로 편집하는 작업입니다. 중요한 장면 (AI 가 무엇을 생각했는지, 어떤 버튼을 눌렀는지, 결과가 어떻게 나왔는지) 은 남기고, 불필요한 잡음은 잘라냅니다. 이를 TraceFormat이라는 새로운 형식으로 정리합니다.

2. 통찰 에이전트 (InsightAgent) = 🔍 "수석 진단 의사"

  • 역할: 요약본을 보고 "환자 (AI) 가 왜 아픈지" 정확히 진단합니다.
  • 비유: "환자가 열이 나요" (결과 실패) 라는 것만 보고 병명을 짓는 게 아니라, "아, 이 환자는 약물을 잘못 복용해서 (원인) 열이 난 거군요. 다음엔 이 약을 쓰세요 (해결책)"라고 구체적으로 말합니다.
  • 기능:
    • 문제 찾기: 어디서 틀렸는지 pinpoint 합니다.
    • 원인 분석: 왜 그런 실수가 났는지 깊이 있게 파헤칩니다.
    • 해결책 제안: 어떻게 고쳐야 할지 구체적인 처방전을 줍니다.

3. 보고서 에이전트 (ReportAgent) = 📊 "최종 보고서 작성자"

  • 역할: 여러 명의 환자 (여러 번의 실패 사례) 를 한데 모아 통계 보고서를 만듭니다.
  • 비유: 한 명의 환자만 보면 우연일 수 있지만, 50 명의 환자를 분석하면 "아, 이 병은 비타민 결핍이 공통적인 원인인구나!"라는 큰 그림을 발견합니다.
  • 기능: 반복되는 실수 패턴을 찾아내고, 전체적인 개선 방안을 담은 전문적인 보고서를 작성합니다.

🏆 실제 효과: "기존 방식 vs TraceSIR"

연구팀은 실제 AI 가 실패한 사례 150 가지를 모아 이 시스템을 테스트했습니다.

  • 기존 방식 (ClaudeCode 등): "결과가 나빴어요. 점수는 50 점." (이유는 모름)
  • TraceSIR: "결과가 나빴어요. 이유는 항공권 검색 시 '날짜'를 잘못 입력했기 때문입니다. 해결책은 검색 쿼리를 자동 수정하는 것입니다. 통계적으로 이런 실수가 30% 발생하므로 시스템 수정이 필요합니다."

결과:
TraceSIR 은 기존 방식보다 더 정확하고, 더 구체적이며, 실제로 쓸모 있는 보고서를 만들어냈습니다. 특히 AI 개발자들이 "어디를 고쳐야 할지" 바로 알 수 있게 도와주어, 개발 시간을 크게 단축시켜 줍니다.

💡 한 줄 요약

TraceSIR은 AI 가 복잡한 일을 하다가 실패했을 때, 방대한 기록을 요약하고 (StructureAgent), 정확한 원인을 진단하며 (InsightAgent), 개발자가 바로 고칠 수 있는 구체적인 보고서를 만들어주는 (ReportAgent) 초고급 AI 분석 시스템입니다.

이제 AI 개발자들은 더 이상 "왜 실패했지?"라고 막연히 고민하지 않고, TraceSIR이 주는 명확한 처방전을 보고 시스템을 고칠 수 있게 되었습니다!