Why Johnny Can't Use Agents: Industry Aspirations vs. User Realities with AI Agents

본 논문은 102 개의 상용 도구를 분석하고 31 명의 참가자를 대상으로 한 사용성 연구를 수행하여 산업계의 AI 에이전트 마케팅과 실제 사용자 경험 간의 격차를 조사한 결과, 사용자들이 감명받기는 하지만 능력 불일치와 메타인지적 협업 기술 부재로 인해 상당한 도전에 직면하고 있음을 밝혀냈다.

원저자: Pradyumna Shome, Sashreek Krishnan, Sauvik Das

게시일 2026-05-05✓ Author reviewed
📖 5 분 읽기🧠 심층 분석

원저자: Pradyumna Shome, Sashreek Krishnan, Sauvik Das

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

상상해 보세요. 최신형 고기술 로봇 집사가 막 새로 구매했다고 가정해 봅시다. 회사의 광고에서는 이 로봇이 당신의 모든 여행을 계획하고, 상사를 위한 슬라이드 프레젠테이션을 만들고, 다음 커리어 이동을 조사하는 등 당신이 커피를 마시며 휴식을 취하는 동안 모든 일을 완벽하게 수행하는 모습을 보여줍니다. 이 로봇은 스스로 주도적으로 행동하고 당신을 대신해 일을 처리하는 스마트한 파트너인 'AI 에이전트'로 마케팅되고 있습니다.

하지만 실제로 켜서 사용해 보면 상황이 엉망이 됩니다. 혼란스럽거나 좌절감을 느끼거나, 로봇이 실제로 도움을 주고 있는지 아니면 단순히 더 큰 혼란을 만들고 있는지 확신이 서지 않을 수도 있습니다.

이 논문은 **"왜 Johnny 는 에이전트를 사용할 수 없는가 (Why Johnny Can't Use Agents)"**라는 제목으로, AI 에이전트의 반짝이는 마케팅 약속과 오늘날 이를 사용하는 데서 마주치는 혼란스러운 현실 사이의 간극을 정확히 조사합니다. 연구자들은 두 가지 주요 질문을 던졌습니다:

  1. 회사들은 실제로 무엇을 팔고 있는가? (과장된 홍보)
  2. 일반인들이 이를 사용하려고 할 때 실제로 무슨 일이 일어나는가? (현실)

다음은 그들의 발견 사항을 간단한 비유를 통해 정리한 것입니다.

1. 세 가지 유형의 "로봇 집사" (과장된 홍보)

연구자들은 "AI 에이전트"로 판매되는 102 가지 제품을 조사했고, 회사들이 말하는 기능에 따라 세 가지 범주로 분류했습니다:

  • 오케스트레이터 (여행 에이전트): 이 에이전트들은 밖으로 나가 웹사이트에서 버튼을 클릭하고, 항공권을 예약하며, 당신을 대신해 양식을 작성해야 합니다. 그들은 현실 세계에서 일련의 행동을 "오케스트레이션 (조정)"합니다.
  • 크리에이터 (예술가): 이 에이전트들은 슬라이드 프레젠테이션, 웹사이트, 문서 등을 당신을 위해 만들어야 합니다. 최종 결과물의 외관과 형식에 초점을 맞춥니다.
  • 인사이트 생성기 (연구자): 이 에이전트들은 인터넷을 뒤져 정보를 찾고, 요약본이나 추천을 제공해야 합니다. 그들은 당신의 개인 도서관 사서이자 분석가 역할을 합니다.

2. 실험: "Johnny"를 시험에 들이기

이 로봇들이 실제로 작동하는지 확인하기 위해 연구자들은 31 명의 일반인을 모집했습니다 (이 페르소나를 'Johnny'라고 부르는데, 이는 일반인들이 암호화를 사용할 수 없었던 이유에 대한 오래된 연구를 인용한 것입니다). 이 참가자들은 채팅봇에는 익숙했지만, 컴퓨터를 제어할 수 있는 AI 에이전트를 사용한 적은 단 한 번도 없었습니다.

연구자들은 "Johnny"에게 세 가지 구체적인 과제를 주었습니다:

  • 오케스트레이션: 항공권과 호텔을 예약하는 3 일간의 휴가 여행 계획 세우기.
  • 크리에이션: 10 분 분량의 프레젠테이션 슬라이드 제작.
  • 인사이트: 개인 성장을 위한 2,000 달러 예산을 어떻게 쓸지 파악하기.

그들은 인간들이 어떻게 대처하는지 보기 위해 두 가지 인기 있는 상업용 에이전트 (OperatorManus) 를 사용했습니다.

3. 다섯 가지 큰 문제 (현실)

참가자들은 일반적으로 기술에 감명을 받았고 종종 과제를 완료할 수 있었음에도 불구하고, 경험을 좌절하게 만든 다섯 가지 주요 장벽에 부딪혔습니다.

장벽 1: "마음 읽기" 오해

비유: 새로운 비서를 고용했다고 상상해 보세요. 당신은 "샌드위치를 만들어 줘"라고 말합니다. 당신은 햄 샌드위치를 기대합니다. 하지만 비서는 햄을 원한다는 것을 몰라 밀가루 한 그릇과 칼을 가져옵니다. 당신은 화가 나지만, 당신이 '햄'을 명시하지 않았다는 것을 깨닫습니다.
현실: 사용자는 AI 에게 얼마나 많은 세부 정보를 제공해야 할지 몰랐습니다. 어떤 사람들은 로봇을 위해 완벽한 단계별 매뉴얼을 작성해야 한다고 생각했고, 다른 사람들은 로봇이 마음을 읽을 수 있다고 생각했습니다. AI 가 어떻게 생각하는지 설명하지 않았기 때문에, 사용자는 첫 번째 프롬프트를 입력할 때 마치 "도박"을 하는 듯한 느낌을 받았습니다. 만약 실수하면 로봇은 잘못된 길로 가게 되고, 사용자는 갇힌 듯한 느낌을 받았습니다.

장벽 2: "나를 믿어"라는 도약

비유: 신발을 묶는 동안 지갑을 잡아달라고 낯선 사람에게 부탁했다고 상상해 보세요. 그 사람은 "잠시만 기다려"라고 말하고 지갑을 들고 달아납니다. 당신은 불안감을 느낍니다.
현실: AI 에이전트들은 종종 민감한 것들 (예: Google 계정에 로그인하는 것) 을 요청하거나, "수영장이 있는 방을 원하시나요, 전망이 좋은 방을 원하시나요?"라고 묻지 않고 호텔 예약과 같은 결정을 내리기 시작했습니다. 사용자는 로봇을 맹목적으로 신뢰해야 한다고 느꼈지만, 로봇은 자신의 선택을 설명하거나 먼저 허락을 구함으로써 그 신뢰를 얻지 못했습니다.

장벽 3: "일률적" 춤 파트너

비유: 한 가지 춤 스타일만 아는 파트너와 춤을 춘다고 상상해 보세요. 왈츠를 추고 싶으면 브레이크댄스를 시도하고, 멈추고 싶으면 계속 빙글빙글 돌립니다.
현실: 사람들은 각기 다른 작업 스타일을 가지고 있습니다. 어떤 사람들은 무거운 일을 직접 하고 AI 의 작업만 확인하고 싶어 하는 반면, 다른 사람들은 AI 가 모든 것을 하기를 원합니다. 에이전트들은 확인 없이 그냥 "일을 처리"하려는 너무 열성적이었습니다. 사용자가 중단을 원하거나 계획을 변경하고 싶다면, 에이전트는 종종 듣지 않거나 멈추기 어렵게 만들어, 사용자가 춤의 주도권을 잃었다고 느끼게 했습니다.

장벽 4: 정보의 "소화기"

비유: 친구에게 길 찾기를 부탁했다고 상상해 보세요. "왼쪽으로 돌아서"라고 말하는 대신, 당신이 운전하는 동안 그 거리 역사, 교통 흐름, 날씨에 대한 20 분간의 강의를 해줍니다.
현실: 에이전트들은 매우 수다스러웠습니다. 그들이 취한 모든 단계, 모든 검색 결과, 모든 사고 과정을 모두 보여주었습니다. 일부 사용자에게는 이것이 도움이 되었지만, 다른 사람들에게는 압도적인 소음이었습니다. "로그"가 너무 복잡하고 혼란스러워 중요한 부분을 찾기 어려웠습니다.

장벽 5: 갇혔다는 것을 모르는 로봇

비유: GPS 에게 경로를 찾아달라고 요청했다고 상상해 보세요. 벽을 통과하려는 순환에 빠진 채 멈춰 서서, "재계산 중"이라고 계속 말하지만, "이봐, 여기로는 못 지나가. 직접 운전해야 해"라고 말하지는 않습니다.
현실: AI 가 웹사이트에 로봇을 차단하는 경우처럼 갇히게 되면, 종종 실패하고 있다는 것을 깨닫지 못했습니다. 그냥 멈추거나 같은 행동을 반복했습니다. "나는 갇혔어, 도와줘"라고 말할 수 있는 '자기 인식'이 부족했습니다. 사용자는 스스로 오류를 파악해야 했으며, 이는 에이전트를 갖는 목적을 무효화했습니다.

결론

이 논문은 AI 에이전트가 강력하고 놀라운 일을 할 수 있지만, 아직 일반인을 위한 주류 사용에 준비되지 않았다고 결론 내립니다.

이 기술은 조향 장치, 브레이크, 계기판이 없는 자동차에 장착되지 않은 레이싱 엔진과 같습니다. 산업계는 엔진(작업을 수행하는 능력) 을 팔고 있지만, 사용자는 자동차(엔진을 제어하고, 신뢰하고, 이해하는 능력) 가 필요합니다.

이 에이전트들이 인간의 기대를 더 잘 이해하고, 실수를 설명하며, 문제가 발생했을 때 우리가 핸들을 잡을 수 있게 해줄 때까지, "Johnny"는 여전히 이를 효과적으로 사용하는 데 어려움을 겪을 것입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →