Can AI Agents Generate Microservices? How Far are We?

이 논문은 AI 에이전트가 기존 시스템에 통합되거나 독립적으로 생성된 마이크로서비스를 기능적으로 구현할 수 있음을 보여주지만, 일관된 정확성 부재와 인간 감독의 필요성으로 인해 완전한 자율 생성은 아직 달성되지 않았음을 밝힙니다.

Bassam Adnan, Matteo Esposito, Davide Taibi, Karthik Vaidhyanathan

게시일 Wed, 11 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 핵심 비유: "AI 요리사가 새로운 요리를 만들다"

상상해 보세요. 거대한 레스토랑 (기존 소프트웨어 시스템) 이 있습니다. 이 레스토랑에는 이미 수많은 요리사 (마이크로서비스) 가 일하고 있고, 메뉴판 (API 계약) 이 정해져 있습니다. 이제 새로운 요리사 (AI 에이전트) 를 고용해서 새로운 요리를 만들어달라고 시켰습니다.

연구진은 이 AI 요리사들이 얼마나 잘 요리를 만들어내는지, 그리고 어떤 상황에서 가장 잘하는지 실험해 보았습니다.

1. 실험의 두 가지 상황 (시나리오)

연구진은 AI 요리사에게 두 가지 다른 방식으로 주문을 내보았습니다.

  • 상황 A: "기존 주방에서 추가하기" (Incremental Generation)

    • 상황: 이미 요리사가 일하고 있는 주방에 새로운 요리를 추가하는 상황입니다.
    • 조건: AI 는 이미 있는 주방 도구, 레시피, 다른 요리사들과의 대화 방식 (기존 코드와 API) 을 모두 볼 수 있습니다.
    • 과제: "이 주방에 어울리는 새로운 요리를 만들어줘."
  • 상황 B: "아무것도 없는 빈 주방에서 시작하기" (Clean State Generation)

    • 상황: 완전히 비어있는 새로운 주방입니다.
    • 조건: AI 는 오직 **메뉴 주문서 (요구사항)**만 가지고 있습니다. 기존 주방의 모습이나 다른 요리사들과의 대화 방식은 전혀 모릅니다.
    • 과제: "주문서만 보고 이 요리를 처음부터 만들어줘."

2. 실험 결과: AI 는 얼마나 잘할까?

✅ 상황 B (빈 주방) 에서의 활약: "완벽한 신인"

  • 결과: AI 는 요구사항만 보고 새로운 요리를 만들었을 때 약 95% 이상의 성공률을 보였습니다.
  • 이유: 기존에 정해진 규칙 (기존 코드 구조) 에 얽매이지 않고, AI 가 원하는 대로 자유롭게 요리를 만들 수 있었기 때문입니다. 주문서 (요구사항) 대로만 만들면 되므로 실패할 일이 적었습니다.
  • 비유: "아무도 없는 빈 주방에서는 AI 요리사가 자유롭게 창의적인 요리를 만들어내서 손님 (시스템) 이 아주 만족했습니다."

⚠️ 상황 A (기존 주방) 에서의 고난: "실수하는 신인"

  • 결과: 기존 주방에 섞여 일할 때는 성공률이 **약 50~76%**로 떨어졌습니다.
  • 이유: AI 는 기존 주방의 숨겨진 규칙 (예: "소스병은 왼쪽에 두세요", "다른 요리사와는 이렇게 대화하세요") 을 놓치거나, 너무 많은 설명을 듣고 오히려 혼란을 겪는 경우가 많았습니다.
  • 재미있는 발견: **간단한 주문 (최소한의 정보)**을 줬을 때 AI 가 더 잘했습니다. 너무 상세한 설명 (기존 코드 분석 요약) 을 주면, AI 는 그 설명에만 집중하다가 중요한 세부 사항을 놓쳐버렸습니다.
    • 비유: "주방장에게 '이 주방 규칙을 다 설명해 줄게'라고 너무 길게 말해주니, AI 는 설명만 읽고 정작 중요한 '소스병 위치' 같은 건 잊어버리고 실패했습니다. 하지만 '새 요리 만들어'라고 짧게 말해주니, AI 가 직접 주방을 둘러보며 규칙을 찾아서 더 잘 만들었습니다."

3. 효율성 비교: 어떤 AI 요리사가 가장 빠르고 싸게 요리를 할까?

연구진은 세 가지 다른 AI 요리사 (Claude, Codex, Qwen) 를 비교했습니다.

  • 속도: Claude 와 Qwen 은 평균 7~8 분 만에 요리를 완성했지만, Codex 는 16 분 이상 걸렸고, 심한 경우 1 시간 40 분이나 걸리는 경우도 있었습니다. (시간이 너무 걸리면 주방이 멈추는 '타임아웃' 문제가 생길 수 있습니다.)
  • 비용: Qwen 이 가장 저렴했고, Claude 가 가장 비쌌습니다. 하지만 비용 차이는 한 요리에 약 10 달러 (약 1 만 3 천 원) 정도 차이로, 정확성과 안정성이 더 중요하다는 결론이 나왔습니다.
  • 코드 길이: AI 가 만든 요리 (코드) 는 인간 요리사가 만든 것보다 더 간결하고 복잡도가 낮았습니다. 하지만 "요리가 길고 화려하다고 맛있는 건 아니다"라는 것을 증명했습니다.

4. 결론: AI 는 아직 '완전한 요리사'가 아니다

이 논문의 결론은 다음과 같습니다.

  1. AI 는 요리를 할 수 있다: AI 는 기능적인 마이크로서비스를 만들 수 있으며, 코드의 질도 인간이 만든 것보다 나쁘지 않거나 더 깔끔합니다.
  2. 하지만 인간 감독이 필수다: AI 가 만든 요리는 때로는 기존 주방 규칙과 맞지 않아 실패할 수 있습니다. 특히 기존 시스템에 통합할 때는 인간이 반드시 확인하고 수정해야 합니다.
  3. 상황에 따라 전략을 바꿔야 한다:
    • 기존 시스템에 추가할 때는 간단한 주문을 주는 게 좋습니다.
    • 처음부터 만들 때는 구체적인 요구사항을 주는 게 좋습니다.
    • 어떤 AI 를 쓸지, 어떤 방법을 쓸지는 **반드시 실험 (파일럿 테스트)**을 해봐야 합니다. "무조건 이걸 쓰면 돼"라는 정답은 없습니다.

🎯 한 줄 요약

"AI 는 이제 훌륭한 요리사가 되어 새로운 요리를 만들 수 있지만, 기존 주방에 들어갈 때는 여전히 인간 주방장의 감시가 필요합니다. 그리고 너무 많은 설명보다는 상황에 맞는 적절한 지시가 더 중요합니다."

이 연구는 AI 가 소프트웨어 개발의 미래를 바꿀 잠재력을 보여주지만, 아직은 인간과 AI 가 함께 일하는 '협업' 단계임을 강조합니다.