"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Each language version is independently generated for its own context, not a direct translation.

🍳 핵심 이야기: "요리 비서가 요리를 망쳐요"

연구진은 개발자 26 명을 모아, 복잡한 웹사이트를 만드는 과제를 주고 ChatGPT 를 사용하게 했습니다. 마치 초보 요리사에게 "이 복잡한 파스타 레시피를 만들어줘"라고 시키고, 옆에 서 있는 AI 비서가 도와주는 상황을 상상해 보세요.

결과는 어땠을까요? 대부분의 요리사 (개발자) 가 비서 (ChatGPT) 를 믿지 못하고 결국 "이건 내가 직접 할래!"라며 비서를 내쫓았습니다.

🚨 왜 포기했을까요? (9 가지 실패 유형)

AI 비서가 요리를 도와주려다 오히려 상황을 더 어렵게 만든 9 가지 주요 실수들이 있었습니다. 이를 세 가지 큰 카테고리로 나누어 볼 수 있습니다.

1. "요리 레시피가 반쪽짜리거나 엉뚱해요" (부족하거나 틀린 답변)

일부만 알려줌: "파스타 소스 만들어줘"라고 했더니, "토마토를 다져라"까지만 알려주고 나머지는 생략했습니다. 요리사는 나머지 재료를 찾아야 하는 수고를 치러야 했습니다.
준비 과정 생략: "불을 켜고 시작해"라고 말해주지 않아, 요리사가 가스레인지도 켜지 않은 채 재료를 꺼내 헤맸습니다.
틀린 정보: "소금 100g 넣으세요"라고 엉뚱한 양을 알려줘, 요리사가 맛을 보고 "이건 못 먹겠다"며 화를 냈습니다.

2. "말이 너무 많고 복잡해요" (인지 과부하)

너무 긴 설명: "간단히 소스만 만들어줘"라고 했더니, 10 페이지 분량의 요리 역사와 과학 이론을 섞은 긴 글을 써냈습니다. 요리사는 그 속에서 진짜 레시피를 찾아내느라 지쳐버렸습니다.
불필요하게 복잡한 방법: "간단히 끓여줘"라고 했더니, "이건 전문 셰프가 쓰는 5 단계 정교한 기법이 필요해"라며 어려운 방법을 제안했습니다. 요리사는 "그냥 간단하게 끓이면 안 되나?"라고 생각하며 답답해했습니다.

3. "이전 대화 기억을 못 해요" (맥락 상실)

기억력 부족: "양파를 다져서 넣으라"고 했다가, 다음에 "소금 간을 해줘"라고 했을 때, "어떤 양파를 말하는 거죠? 아까 다진 양파요?"라며 이전 대화를 잊어버렸습니다. 요리사는 매번 처음부터 다시 설명해야 했습니다.
변화를 무시: 요리사가 "소금 양을 줄여줘"라고 했더니, AI 는 "네, 알겠습니다"라고 말하면서도 소금 양은 그대로 유지했습니다. 요리사는 "이 비서는 내 말을 안 들었나?"라고 생각하며 비서를 떠났습니다.

🛠️ 요리사들이 어떻게 대응했나요? (대응 전략)

요리사들은 비서가 실수할 때마다 다양한 방법으로 상황을 수습하려 노력했습니다.

조금씩 나누어 시키기: "한 번에 다 만들어줘" 대신 "일단 소스만 만들어줘, 그다음에 면을 삶아줘"라고 단계별로 지시했습니다.
말을 다듬기: "이거 좀 더 구체적으로 말해줘"라고 요청하며 질문을 수정했습니다.
직접 확인하기: AI 가 알려준 레시피를 그대로 믿지 않고, 직접 맛을 보고 수정했습니다.
결국 다른 길로: 그래도 안 되면 "이건 ChatGPT 로는 안 되겠어"라고 생각하며 구글이나 레시피 책 (기존 자료) 을 찾아보거나, 아예 비서를 내치고 직접 요리를 시작했습니다.

📊 통계로 본 놀라운 사실

연구진은 데이터를 분석하여 몇 가지 놀라운 사실을 발견했습니다.

무용한 답변은 11 배 더 위험해요: ChatGPT 가 쓸모없는 답변을 한 번만 해도, 요리사가 비서를 포기할 확률이 11 배나 높아졌습니다.
질문을 많이 할수록 버티는 법을 배워요: 질문을 한 번 더 할 때마다 포기할 확률은 17% 씩 줄어듭니다. 즉, "아직은 포기하지 말고 더 물어봐!"라는 뜻입니다.
요리 실력이 있으면 더 잘 버텨요: 요리 실력이 좋은 사람 (경험 많은 개발자) 은 실수를 더 잘 파악하고 고쳐서 비서를 더 오래 사용했습니다. 반면 초보자는 조금만 실수가 있어도 쉽게 포기했습니다.

💡 이 연구가 우리에게 주는 교훈

이 논문은 **"AI 가 완벽해지면 모든 문제가 해결될 거야"**라는 생각을 깨뜨립니다.

AI 는 완벽한 비서가 아닙니다: 아무리 똑똑한 AI(GPT-5.1 등) 가 나와도, 여전히 기억을 잃거나 엉뚱한 답을 할 수 있습니다.
사용자의 역할이 중요합니다: AI 를 잘 쓰려면, AI 가 실수할 때 어떻게 고칠지, 언제 다른 도구를 쓸지 판단하는 사람의 능력이 훨씬 더 중요합니다.
포기는 합리적인 선택입니다: AI 가 계속 실수를 반복하면, 시간을 아끼기 위해 "이건 내가 직접 할래"라고 포기하는 것은 실패가 아니라 현명한 선택입니다.

🌟 결론: "지금 당장 포기해야 할까?"

결론은 **"상황에 따라 다르다"**입니다.

만약 AI 가 계속 엉뚱한 답을 하고, 당신이 설명을 고쳐도 똑같은 실수를 반복한다면? 네, 지금 당장 포기하고 다른 방법을 찾아보세요. (연구 결과에 따르면, 쓸모없는 답변이 계속되면 11 배 더 빨리 포기하게 됩니다.)
하지만 만약 당신이 조금 더 질문을 다듬고, 실수를 직접 고쳐주며 인내한다면? AI 는 여전히 훌륭한 조력자가 될 수 있습니다.

이 연구는 우리에게 **"AI 를 맹신하지 말고, 때로는 등 돌리고 직접 해보는 용기도 필요하다"**는 메시지를 전합니다. AI 는 훌륭한 '조수'일 뿐, '주인'은 결국 우리 자신이어야 합니다.

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

🍳 핵심 이야기: "요리 비서가 요리를 망쳐요"

🚨 왜 포기했을까요? (9 가지 실패 유형)

1. "요리 레시피가 반쪽짜리거나 엉뚱해요" (부족하거나 틀린 답변)

2. "말이 너무 많고 복잡해요" (인지 과부하)

3. "이전 대화 기억을 못 해요" (맥락 상실)

🛠️ 요리사들이 어떻게 대응했나요? (대응 전략)

📊 통계로 본 놀라운 사실

💡 이 연구가 우리에게 주는 교훈

🌟 결론: "지금 당장 포기해야 할까?"

논문 요약: "Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 기여 및 발견 (Key Contributions & Results)

A. LLM 실패 유형 9 가지 및 3 가지 카테고리 (RQ1)

B. 실패의 원인 (RQ2)

C. 완화 전략 (RQ3)

D. 포기 (Abandonment) 의 통계적 요인 (RQ5)

4. 의의 및 시사점 (Significance & Implications)

결론

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

🍳 핵심 이야기: "요리 비서가 요리를 망쳐요"

🚨 왜 포기했을까요? (9 가지 실패 유형)

1. "요리 레시피가 반쪽짜리거나 엉뚱해요" (부족하거나 틀린 답변)

2. "말이 너무 많고 복잡해요" (인지 과부하)

3. "이전 대화 기억을 못 해요" (맥락 상실)

🛠️ 요리사들이 어떻게 대응했나요? (대응 전략)

📊 통계로 본 놀라운 사실

💡 이 연구가 우리에게 주는 교훈

🌟 결론: "지금 당장 포기해야 할까?"

논문 요약: "Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 기여 및 발견 (Key Contributions & Results)

A. LLM 실패 유형 9 가지 및 3 가지 카테고리 (RQ1)

B. 실패의 원인 (RQ2)

C. 완화 전략 (RQ3)

D. 포기 (Abandonment) 의 통계적 요인 (RQ5)

4. 의의 및 시사점 (Significance & Implications)

결론

유사한 논문

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities