Nonstandard Errors in AI Agents

이 논문은 150 개의 AI 코딩 에이전트가 동일한 연구 질문에 대해 서로 다른 분석적 선택으로 인해 인간 연구자에서 관찰되는 것과 유사한 '비표준 오차'를 보이며, 피어 리뷰보다 모범 사례 노출이 추정의 수렴에 더 효과적이지만 이는 이해가 아닌 모방에 기인함을 규명했습니다.

Ruijiang Gao, Steven Chong Xiao

게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 요리사 실험: 같은 재료로 같은 요리를 만들면?

이 실험은 마치 **150 명의 요리사 (AI 에이전트)**에게 **같은 양념과 고기 (NYSE TAQ 데이터)**를 주고, **"이 고기의 맛은 시간이 지남에 따라 어떻게 변했나요?"**라고 물어본 것과 같습니다.

1. 예상과 다른 결과: "동일한 재료인데 왜 맛이 다 달라?"

연구자들은 AI 가 똑똑하니까 모두 똑같은 결론을 내릴 거라고 생각했습니다. 하지만 결과는 놀라웠습니다.

  • 어떤 요리사는 "맛이 매우 좋아졌다"고 했고,
  • 어떤 요리사는 "맛이 오히려 나빠졌다"고 했습니다.
  • 심지어 어떤 이는 "맛이 변하지 않았다"고 하기도 했습니다.

이것을 논문에서는 **'비표준 오차 (Nonstandard Errors)'**라고 부릅니다. 쉽게 말해, **"데이터는 같은데, 해석하는 사람 (또는 AI) 이 어떤 방법을 선택하느냐에 따라 결과가 천차만별인 현상"**입니다.

2. 왜 이런 일이 일어났을까? (요리사의 선택)

AI 들이 서로 다른 결론을 내린 이유는 데이터가 부족해서가 아니라, '어떤 도구를 쓸지' 선택하는 기준이 달랐기 때문입니다.

  • 비유: "고기의 양을 재는 법"을 물어봤을 때,
    • A 팀은 **"무게 (kg)"**로 재서 "양이 늘어났다"고 했고,
    • B 팀은 "개수 (마리)"로 재서 "양이 줄었다"고 했습니다.
    • (실제 주식 시장에서는 '달러로 거래된 금액'을 볼지, '주식 수량'을 볼지에 따라 결과가 정반대가 될 수 있습니다.)

이처럼 AI 들은 어떤 지표를 쓸지 (측정 방법), 어떤 공식을 쓸지를 스스로 선택했는데, 이 선택 하나하나가 결과를 완전히 뒤바꿔버렸습니다.

3. AI 의 '성향' (Empirical Styles)

흥미로운 점은 AI 모델마다 고유한 취향이 있다는 것입니다.

  • Sonnet 모델: "나는 무조건 자동상관관계라는 도구를 좋아해!"라고 고집합니다.
  • Opus 모델: "아니야, 나는 분산비율이라는 도구가 더 좋아!"라고 주장합니다.
    이들은 무작위로 바뀌는 게 아니라, 학습된 데이터에 기반해 매우 일관된 성향을 보였습니다. 마치 어떤 요리사는 항상 '매운맛'을 내고, 다른 요리사는 '단맛'을 내는 것과 같습니다.

4. 피드백을 주면 나아질까? (세 단계 실험)

연구팀은 AI 들에게 3 단계를 거치며 피드백을 주었습니다.

  • 1 단계 (혼자 연구): 각자 독립적으로 분석. (결과: 매우 흩어짐)
  • 2 단계 (동료 검토): AI 들끼리 서로의 보고서를 읽고 "이건 좀 수정해"라고 코멘트를 남김.
    • 결과: 아무 소용없었습니다. 오히려 각자 자기 방식대로 고쳐서 결과가 더 뒤죽박죽이 되었습니다. (사람이 피드백을 들으면 논리적으로 수정하지만, AI 는 "아, 저렇게 쓰네? 나도 바꿔볼까?"라고 무작정 따라 하거나 엉뚱하게 고칩니다.)
  • 3 단계 (우수 사례 공개): 가장 점수가 높은 5 편의 보고서를 보여주고 다시 분석하게 함.
    • 결과: 대폭 수렴되었습니다. 대부분의 AI 가 "아, 저 사람들이 이 방법을 썼구나"라고 따라 하며 결과가 비슷해졌습니다.
    • 하지만 함정이 있었습니다: 만약 우수 사례들이 서로 다른 방법을 썼다면, AI 들은 그걸 보고 "누구를 따라야 하지?" 하며 더 혼란스러워졌습니다.

5. 이 실험이 우리에게 주는 교훈

이 논문은 AI 를 연구 도구로 쓸 때 우리가 조심해야 할 점을 알려줍니다.

  1. 하나의 AI 결과만 믿지 마세요: 같은 질문을 AI 에게 한 번만 물어보고 그걸 '진리'로 믿으면 안 됩니다. AI 가 어떤 '도구'를 선택했느냐에 따라 결과가 180 도 바뀔 수 있습니다.
  2. AI 는 '모방'을 잘하지만 '이해'는 못 합니다: 좋은 예시를 보여주면 AI 는 그걸 따라 하지만, 왜 그 방법이 좋은지, 내 상황에 맞는지 깊이 생각하지는 못합니다.
  3. AI 의 오차는 '불확실성'을 보여줍니다: AI 들이 서로 다른 답을 낸다는 건, **"이 문제는 정답이 하나로 정해져 있지 않다"**는 뜻일 수 있습니다. AI 의 다양한 답변을 모아서 (다중 우주 분석) 보면, 이 연구 주제가 얼마나 애매모호한지 알 수 있습니다.

🎯 한 줄 요약

"AI 는 똑똑하지만, 요리사마다 쓰는 칼과 숟가락이 달라서 같은 재료로 요리해도 맛이 천차만별입니다. 그러니 AI 가 내놓은 하나의 결과만 믿지 말고, 다양한 시나리오를 함께 살펴봐야 합니다."

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →