"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

이 논문은 26 명의 소프트웨어 엔지니어를 대상으로 한 연구를 통해 LLM 의 부정확한 응답이 작업 포기 확률을 11 배 증가시키는 등 주요 실패 요인을 규명하고, 이를 극복하기 위한 프롬프트 정교화 등의 완화 전략과 향후 도구의 방향성을 제시합니다.

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui Zhou

게시일 Wed, 11 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 핵심 이야기: "요리 비서가 요리를 망쳐요"

연구진은 개발자 26 명을 모아, 복잡한 웹사이트를 만드는 과제를 주고 ChatGPT 를 사용하게 했습니다. 마치 초보 요리사에게 "이 복잡한 파스타 레시피를 만들어줘"라고 시키고, 옆에 서 있는 AI 비서가 도와주는 상황을 상상해 보세요.

결과는 어땠을까요? 대부분의 요리사 (개발자) 가 비서 (ChatGPT) 를 믿지 못하고 결국 "이건 내가 직접 할래!"라며 비서를 내쫓았습니다.

🚨 왜 포기했을까요? (9 가지 실패 유형)

AI 비서가 요리를 도와주려다 오히려 상황을 더 어렵게 만든 9 가지 주요 실수들이 있었습니다. 이를 세 가지 큰 카테고리로 나누어 볼 수 있습니다.

1. "요리 레시피가 반쪽짜리거나 엉뚱해요" (부족하거나 틀린 답변)

  • 일부만 알려줌: "파스타 소스 만들어줘"라고 했더니, "토마토를 다져라"까지만 알려주고 나머지는 생략했습니다. 요리사는 나머지 재료를 찾아야 하는 수고를 치러야 했습니다.
  • 준비 과정 생략: "불을 켜고 시작해"라고 말해주지 않아, 요리사가 가스레인지도 켜지 않은 채 재료를 꺼내 헤맸습니다.
  • 틀린 정보: "소금 100g 넣으세요"라고 엉뚱한 양을 알려줘, 요리사가 맛을 보고 "이건 못 먹겠다"며 화를 냈습니다.

2. "말이 너무 많고 복잡해요" (인지 과부하)

  • 너무 긴 설명: "간단히 소스만 만들어줘"라고 했더니, 10 페이지 분량의 요리 역사와 과학 이론을 섞은 긴 글을 써냈습니다. 요리사는 그 속에서 진짜 레시피를 찾아내느라 지쳐버렸습니다.
  • 불필요하게 복잡한 방법: "간단히 끓여줘"라고 했더니, "이건 전문 셰프가 쓰는 5 단계 정교한 기법이 필요해"라며 어려운 방법을 제안했습니다. 요리사는 "그냥 간단하게 끓이면 안 되나?"라고 생각하며 답답해했습니다.

3. "이전 대화 기억을 못 해요" (맥락 상실)

  • 기억력 부족: "양파를 다져서 넣으라"고 했다가, 다음에 "소금 간을 해줘"라고 했을 때, "어떤 양파를 말하는 거죠? 아까 다진 양파요?"라며 이전 대화를 잊어버렸습니다. 요리사는 매번 처음부터 다시 설명해야 했습니다.
  • 변화를 무시: 요리사가 "소금 양을 줄여줘"라고 했더니, AI 는 "네, 알겠습니다"라고 말하면서도 소금 양은 그대로 유지했습니다. 요리사는 "이 비서는 내 말을 안 들었나?"라고 생각하며 비서를 떠났습니다.

🛠️ 요리사들이 어떻게 대응했나요? (대응 전략)

요리사들은 비서가 실수할 때마다 다양한 방법으로 상황을 수습하려 노력했습니다.

  • 조금씩 나누어 시키기: "한 번에 다 만들어줘" 대신 "일단 소스만 만들어줘, 그다음에 면을 삶아줘"라고 단계별로 지시했습니다.
  • 말을 다듬기: "이거 좀 더 구체적으로 말해줘"라고 요청하며 질문을 수정했습니다.
  • 직접 확인하기: AI 가 알려준 레시피를 그대로 믿지 않고, 직접 맛을 보고 수정했습니다.
  • 결국 다른 길로: 그래도 안 되면 "이건 ChatGPT 로는 안 되겠어"라고 생각하며 구글이나 레시피 책 (기존 자료) 을 찾아보거나, 아예 비서를 내치고 직접 요리를 시작했습니다.

📊 통계로 본 놀라운 사실

연구진은 데이터를 분석하여 몇 가지 놀라운 사실을 발견했습니다.

  1. 무용한 답변은 11 배 더 위험해요: ChatGPT 가 쓸모없는 답변을 한 번만 해도, 요리사가 비서를 포기할 확률이 11 배나 높아졌습니다.
  2. 질문을 많이 할수록 버티는 법을 배워요: 질문을 한 번 더 할 때마다 포기할 확률은 17% 씩 줄어듭니다. 즉, "아직은 포기하지 말고 더 물어봐!"라는 뜻입니다.
  3. 요리 실력이 있으면 더 잘 버텨요: 요리 실력이 좋은 사람 (경험 많은 개발자) 은 실수를 더 잘 파악하고 고쳐서 비서를 더 오래 사용했습니다. 반면 초보자는 조금만 실수가 있어도 쉽게 포기했습니다.

💡 이 연구가 우리에게 주는 교훈

이 논문은 **"AI 가 완벽해지면 모든 문제가 해결될 거야"**라는 생각을 깨뜨립니다.

  • AI 는 완벽한 비서가 아닙니다: 아무리 똑똑한 AI(GPT-5.1 등) 가 나와도, 여전히 기억을 잃거나 엉뚱한 답을 할 수 있습니다.
  • 사용자의 역할이 중요합니다: AI 를 잘 쓰려면, AI 가 실수할 때 어떻게 고칠지, 언제 다른 도구를 쓸지 판단하는 사람의 능력이 훨씬 더 중요합니다.
  • 포기는 합리적인 선택입니다: AI 가 계속 실수를 반복하면, 시간을 아끼기 위해 "이건 내가 직접 할래"라고 포기하는 것은 실패가 아니라 현명한 선택입니다.

🌟 결론: "지금 당장 포기해야 할까?"

결론은 **"상황에 따라 다르다"**입니다.

  • 만약 AI 가 계속 엉뚱한 답을 하고, 당신이 설명을 고쳐도 똑같은 실수를 반복한다면? 네, 지금 당장 포기하고 다른 방법을 찾아보세요. (연구 결과에 따르면, 쓸모없는 답변이 계속되면 11 배 더 빨리 포기하게 됩니다.)
  • 하지만 만약 당신이 조금 더 질문을 다듬고, 실수를 직접 고쳐주며 인내한다면? AI 는 여전히 훌륭한 조력자가 될 수 있습니다.

이 연구는 우리에게 **"AI 를 맹신하지 말고, 때로는 등 돌리고 직접 해보는 용기도 필요하다"**는 메시지를 전합니다. AI 는 훌륭한 '조수'일 뿐, '주인'은 결국 우리 자신이어야 합니다.