LLMs in social services: How does chatbot accuracy affect human accuracy?

본 논문은 Los Angeles 의 비영리 기관 사례관리자를 대상으로 한 실험을 통해, LLM 기반 챗봇의 정확도가 높을수록 인간 전문가의 정확도가 크게 향상되지만, 챗봇의 오류는 인간의 판단을 현저히 저하시키며 정확도 향상이 일정 수준에서 정체되는 'AI 과소신뢰의 포화 현상'이 발생함을 규명했습니다.

Jennah Gosciak, Eric Giannella, Zhaowen Guo, Michael Chen, Allison Koenecke

게시일 2026-03-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"사회복지 사무원들이 AI 챗봇을 사용할 때, 그 챗봇이 얼마나 정확한지가 사람의 실수에 어떤 영향을 미치는가?"**를 연구한 내용입니다.

너무 어렵고 복잡한 정부 복지 제도 (예: 식량 지원 프로그램 SNAP) 를 이해하는 것은 일반인뿐만 아니라 전문가인 사회복지사에게도 어렵습니다. 그래서 연구진은 "AI 챗봇이 사회복지사를 도와주면 더 잘할까, 아니면 오히려 망칠까?"를 실험해 보았습니다.

이 연구의 핵심 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 실험 설정: "요리사 (사회복지사) 와 레시피 보조자 (AI)"

상상해 보세요.

  • 사회복지사는 복잡한 재료를 다룰 줄 아는 숙련된 요리사입니다.
  • 고객은 "이 재료를 어떻게 요리해야 하나요?"라고 묻는 손님입니다.
  • AI 챗봇은 요리사 옆에 서서 **"이건 이렇게 하세요"**라고 레시피를 알려주는 보조 요리사입니다.

연구진은 125 명의 요리사 (사회복지사) 를 모아놓고, 45 가지의 어려운 요리 질문을 던졌습니다. 이때 보조 요리사 (AI) 의 능력을 인위적으로 바꿔가며 실험했습니다.

2. 주요 발견 1: "도움은 받지만, 100 점짜리 도우미도 믿지 않는다" (AI 과신 부족의 평탄)

  • 결과: AI 가 정답을 알려주면 요리사의 점수가 확실히 올랐습니다. 특히 AI 가 96~100% 정확할 때 요리사의 점수가 가장 크게 향상되었습니다.
  • 하지만! AI 가 100% 완벽한 정답을 말해도, 요리사는 그걸 100% 따라 하지 않았습니다.
  • 비유: 옆에서 "이건 소금 1 티스푼 넣으세요"라고 정확히 말해주는 요리 보조자가 있어도, 요리사는 "아니, 내 경험상 2 티스푼이 더 낫겠어"라고 생각하며 무시하거나, "정말 맞을까?" 하며 의심해서 정답을 못 맞추는 경우가 많았습니다.
  • 이 현상을 연구진은 'AI 과신 부족의 평탄 (AI Underreliance Plateau)'이라고 부릅니다. 즉, AI 가 아무리 똑똑해져도, 사람이 그걸 완전히 믿고 따라 하지 않으면 실력은 더 이상 오르지 않는 '한계점'이 생깁니다.

3. 주요 발견 2: "간단한 문제일수록 AI 의 실수가 치명적이다"

  • 결과: AI 가 틀린 말을 했을 때, 요리사 (사회복지사) 는 큰 타격을 입었습니다.
  • 비유:
    • 쉬운 문제 (예: "소금 넣나요?"): 요리사 혼자서도 100% 아는 문제입니다. 그런데 보조 요리사가 "아니요, 설탕 넣으세요"라고 틀린 말을 하면, 요리사는 당황해서 "아, 내가 착각했나?" 하고 설탕을 넣는 실수를 저지릅니다. (정답률이 3 배나 떨어졌습니다.)
    • 어려운 문제 (예: "이 특이한 재료를 어떻게 처리하나요?"): 요리사 혼자서는 모르는 문제입니다. 이때 보조 요리사가 "이렇게 하세요"라고 정답을 알려주면, 요리사는 크게 도움을 받아 정답을 맞춥니다.
  • 교훈: AI 가 틀렸을 때, 사람들은 자신이 아는 쉬운 문제일수록 AI 를 너무 믿고 따라가서 오히려 실수를 범합니다.

4. 주요 발견 3: "사람은 AI 가 맞는지 틀리는지 구별을 못 한다"

  • 결과: 사회복지사들은 AI 가 "정답"을 말했는지 "오답"을 말했는지 구별을 거의 못 했습니다.
  • 비유: 옆에 선 보조 요리사가 "이건 소금입니다"라고 말하면, 요리사는 그 말의 신뢰도를 판단할 수 없습니다. AI 가 50% 만 맞고 50% 는 틀려도, 요리사는 "아, 이 보조 요리사는 믿을 만해"라고 생각하며 70% 이상을 따라 했습니다.
  • 문제점: AI 가 틀린 정보를 줘도 사람들이 그걸 모르고 따라 하니까, 오히려 더 큰 실수가 날 수 있습니다.

5. 결론 및 시사점: "완벽한 AI 보다 '신뢰'가 더 중요하다"

이 연구는 우리에게 중요한 메시지를 줍니다.

  1. AI 는 유용하지만, 맹신하면 안 됩니다: AI 가 정답을 알려주면 도움이 되지만, 사람이 그걸 믿지 못하면 (과신 부족) AI 의 성능을 100% 살릴 수 없습니다.
  2. 틀린 AI 는 위험하다: 특히 사람들이 이미 잘 아는 쉬운 문제에서 AI 가 틀린 말을 하면, 사람들은 자신의 지식을 버리고 AI 를 따라가서 실수를 범합니다.
  3. 해결책은 무엇일까?
    • AI 가 "이건 정책 문서 3 페이지에 나온 내용입니다"라고 **근거 (출처)**를 보여준다면, 사람들이 더 믿고 따라 할까요? (연구진은 이 부분을 앞으로 더 연구할 계획입니다.)
    • 사회복지사들에게 "AI 는 가끔 틀릴 수 있으니, 중요한 결정은 다시 한번 확인하세요"라고 경고를 주는 것이 필요합니다.

한 줄 요약

"AI 챗봇은 사회복지사를 도와주지만, AI 가 틀린 말을 할 때 사람들은 자신의 지식을 버리고 따라가서 더 큰 실수를 저지릅니다. 또한 AI 가 아무리 완벽해도 사람들은 그걸 100% 믿지 못해 실력이 더 이상 오르지 않는 '한계'가 있습니다."

이 연구는 앞으로 정부가 AI 를 도입할 때, 단순히 "AI 가 얼마나 정확한가"만 보는 것이 아니라, **"사람이 AI 를 어떻게 믿고 사용하는가"**를 함께 고려해야 함을 강조합니다.