Why Johnny Can't Use Agents: Industry Aspirations vs. User Realities with AI… — 쉬운 설명

원저자: Pradyumna Shome, Sashreek Krishnan, Sauvik Das

게시일 2026-05-05✓ Author reviewed ⓘ

📖 5 분 읽기🧠 심층 분석

원저자: Pradyumna Shome, Sashreek Krishnan, Sauvik Das

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

상상해 보세요. 최신형 고기술 로봇 집사가 막 새로 구매했다고 가정해 봅시다. 회사의 광고에서는 이 로봇이 당신의 모든 여행을 계획하고, 상사를 위한 슬라이드 프레젠테이션을 만들고, 다음 커리어 이동을 조사하는 등 당신이 커피를 마시며 휴식을 취하는 동안 모든 일을 완벽하게 수행하는 모습을 보여줍니다. 이 로봇은 스스로 주도적으로 행동하고 당신을 대신해 일을 처리하는 스마트한 파트너인 'AI 에이전트'로 마케팅되고 있습니다.

하지만 실제로 켜서 사용해 보면 상황이 엉망이 됩니다. 혼란스럽거나 좌절감을 느끼거나, 로봇이 실제로 도움을 주고 있는지 아니면 단순히 더 큰 혼란을 만들고 있는지 확신이 서지 않을 수도 있습니다.

이 논문은 **"왜 Johnny 는 에이전트를 사용할 수 없는가 (Why Johnny Can't Use Agents)"**라는 제목으로, AI 에이전트의 반짝이는 마케팅 약속과 오늘날 이를 사용하는 데서 마주치는 혼란스러운 현실 사이의 간극을 정확히 조사합니다. 연구자들은 두 가지 주요 질문을 던졌습니다:

회사들은 실제로 무엇을 팔고 있는가? (과장된 홍보)
일반인들이 이를 사용하려고 할 때 실제로 무슨 일이 일어나는가? (현실)

다음은 그들의 발견 사항을 간단한 비유를 통해 정리한 것입니다.

1. 세 가지 유형의 "로봇 집사" (과장된 홍보)

연구자들은 "AI 에이전트"로 판매되는 102 가지 제품을 조사했고, 회사들이 말하는 기능에 따라 세 가지 범주로 분류했습니다:

오케스트레이터 (여행 에이전트): 이 에이전트들은 밖으로 나가 웹사이트에서 버튼을 클릭하고, 항공권을 예약하며, 당신을 대신해 양식을 작성해야 합니다. 그들은 현실 세계에서 일련의 행동을 "오케스트레이션 (조정)"합니다.
크리에이터 (예술가): 이 에이전트들은 슬라이드 프레젠테이션, 웹사이트, 문서 등을 당신을 위해 만들어야 합니다. 최종 결과물의 외관과 형식에 초점을 맞춥니다.
인사이트 생성기 (연구자): 이 에이전트들은 인터넷을 뒤져 정보를 찾고, 요약본이나 추천을 제공해야 합니다. 그들은 당신의 개인 도서관 사서이자 분석가 역할을 합니다.

2. 실험: "Johnny"를 시험에 들이기

이 로봇들이 실제로 작동하는지 확인하기 위해 연구자들은 31 명의 일반인을 모집했습니다 (이 페르소나를 'Johnny'라고 부르는데, 이는 일반인들이 암호화를 사용할 수 없었던 이유에 대한 오래된 연구를 인용한 것입니다). 이 참가자들은 채팅봇에는 익숙했지만, 컴퓨터를 제어할 수 있는 AI 에이전트를 사용한 적은 단 한 번도 없었습니다.

연구자들은 "Johnny"에게 세 가지 구체적인 과제를 주었습니다:

오케스트레이션: 항공권과 호텔을 예약하는 3 일간의 휴가 여행 계획 세우기.
크리에이션: 10 분 분량의 프레젠테이션 슬라이드 제작.
인사이트: 개인 성장을 위한 2,000 달러 예산을 어떻게 쓸지 파악하기.

그들은 인간들이 어떻게 대처하는지 보기 위해 두 가지 인기 있는 상업용 에이전트 (Operator와 Manus) 를 사용했습니다.

3. 다섯 가지 큰 문제 (현실)

참가자들은 일반적으로 기술에 감명을 받았고 종종 과제를 완료할 수 있었음에도 불구하고, 경험을 좌절하게 만든 다섯 가지 주요 장벽에 부딪혔습니다.

장벽 1: "마음 읽기" 오해

비유: 새로운 비서를 고용했다고 상상해 보세요. 당신은 "샌드위치를 만들어 줘"라고 말합니다. 당신은 햄 샌드위치를 기대합니다. 하지만 비서는 햄을 원한다는 것을 몰라 밀가루 한 그릇과 칼을 가져옵니다. 당신은 화가 나지만, 당신이 '햄'을 명시하지 않았다는 것을 깨닫습니다.
현실: 사용자는 AI 에게 얼마나 많은 세부 정보를 제공해야 할지 몰랐습니다. 어떤 사람들은 로봇을 위해 완벽한 단계별 매뉴얼을 작성해야 한다고 생각했고, 다른 사람들은 로봇이 마음을 읽을 수 있다고 생각했습니다. AI 가 어떻게 생각하는지 설명하지 않았기 때문에, 사용자는 첫 번째 프롬프트를 입력할 때 마치 "도박"을 하는 듯한 느낌을 받았습니다. 만약 실수하면 로봇은 잘못된 길로 가게 되고, 사용자는 갇힌 듯한 느낌을 받았습니다.

장벽 2: "나를 믿어"라는 도약

비유: 신발을 묶는 동안 지갑을 잡아달라고 낯선 사람에게 부탁했다고 상상해 보세요. 그 사람은 "잠시만 기다려"라고 말하고 지갑을 들고 달아납니다. 당신은 불안감을 느낍니다.
현실: AI 에이전트들은 종종 민감한 것들 (예: Google 계정에 로그인하는 것) 을 요청하거나, "수영장이 있는 방을 원하시나요, 전망이 좋은 방을 원하시나요?"라고 묻지 않고 호텔 예약과 같은 결정을 내리기 시작했습니다. 사용자는 로봇을 맹목적으로 신뢰해야 한다고 느꼈지만, 로봇은 자신의 선택을 설명하거나 먼저 허락을 구함으로써 그 신뢰를 얻지 못했습니다.

장벽 3: "일률적" 춤 파트너

비유: 한 가지 춤 스타일만 아는 파트너와 춤을 춘다고 상상해 보세요. 왈츠를 추고 싶으면 브레이크댄스를 시도하고, 멈추고 싶으면 계속 빙글빙글 돌립니다.
현실: 사람들은 각기 다른 작업 스타일을 가지고 있습니다. 어떤 사람들은 무거운 일을 직접 하고 AI 의 작업만 확인하고 싶어 하는 반면, 다른 사람들은 AI 가 모든 것을 하기를 원합니다. 에이전트들은 확인 없이 그냥 "일을 처리"하려는 너무 열성적이었습니다. 사용자가 중단을 원하거나 계획을 변경하고 싶다면, 에이전트는 종종 듣지 않거나 멈추기 어렵게 만들어, 사용자가 춤의 주도권을 잃었다고 느끼게 했습니다.

장벽 4: 정보의 "소화기"

비유: 친구에게 길 찾기를 부탁했다고 상상해 보세요. "왼쪽으로 돌아서"라고 말하는 대신, 당신이 운전하는 동안 그 거리 역사, 교통 흐름, 날씨에 대한 20 분간의 강의를 해줍니다.
현실: 에이전트들은 매우 수다스러웠습니다. 그들이 취한 모든 단계, 모든 검색 결과, 모든 사고 과정을 모두 보여주었습니다. 일부 사용자에게는 이것이 도움이 되었지만, 다른 사람들에게는 압도적인 소음이었습니다. "로그"가 너무 복잡하고 혼란스러워 중요한 부분을 찾기 어려웠습니다.

장벽 5: 갇혔다는 것을 모르는 로봇

비유: GPS 에게 경로를 찾아달라고 요청했다고 상상해 보세요. 벽을 통과하려는 순환에 빠진 채 멈춰 서서, "재계산 중"이라고 계속 말하지만, "이봐, 여기로는 못 지나가. 직접 운전해야 해"라고 말하지는 않습니다.
현실: AI 가 웹사이트에 로봇을 차단하는 경우처럼 갇히게 되면, 종종 실패하고 있다는 것을 깨닫지 못했습니다. 그냥 멈추거나 같은 행동을 반복했습니다. "나는 갇혔어, 도와줘"라고 말할 수 있는 '자기 인식'이 부족했습니다. 사용자는 스스로 오류를 파악해야 했으며, 이는 에이전트를 갖는 목적을 무효화했습니다.

결론

이 논문은 AI 에이전트가 강력하고 놀라운 일을 할 수 있지만, 아직 일반인을 위한 주류 사용에 준비되지 않았다고 결론 내립니다.

이 기술은 조향 장치, 브레이크, 계기판이 없는 자동차에 장착되지 않은 레이싱 엔진과 같습니다. 산업계는 엔진(작업을 수행하는 능력) 을 팔고 있지만, 사용자는 자동차(엔진을 제어하고, 신뢰하고, 이해하는 능력) 가 필요합니다.

이 에이전트들이 인간의 기대를 더 잘 이해하고, 실수를 설명하며, 문제가 발생했을 때 우리가 핸들을 잡을 수 있게 해줄 때까지, "Johnny"는 여전히 이를 효과적으로 사용하는 데 어려움을 겪을 것입니다.

기술 요약: 왜 조니는 에이전트를 사용할 수 없는가: AI 에이전트와 산업의 야망 및 사용자 현실

문제 제기
본 논문은 "AI 에이전트"의 정의, 기능 및 사용성에 관한 모호함이 커지고 있는 문제를 다룬다. 기술 산업은 이러한 시스템을 자율적이고 다단계 실행이 가능한 지능형 파트너로 마케팅하고 있지만, 실제 종단 사용자가 어떻게 상호작용하는지에 대한 체계적인 이해는 부족하다. 이전의 AI 에이전트 평가는 대부분 기술적 벤치마크와 계량화된 이상 (예: 통제된 환경 내 작업 완료율) 에 초점을 맞추었으며, 위임, 감독 및 복구와 같은 인간적 요소를 간과해 왔다. 저자들은 마케팅된 기능이 사용자 현실과 종종 괴리되어 초보 사용자의 효과적인 도입을 방해하는 마찰을 초래한다고 주장한다. 핵심 문제는 에이전트가 마케팅되는 바 (산업의 야망) 와 광고된 작업을 수행하려 할 때 직면하는 실제 어려움 (사용자 현실) 사이의 간극이다.

연구 방법
본 연구는 산업의 프레임과 사용자 경험 사이의 괴리를 조사하기 위해 두 가지 접근 방식을 채택했다:

체계적 검토 (연구 질문 1): 저자들은 AI 에이전트 디렉토리 (예: AI Agent Directory, Product Hunt) 및 웹 검색에서 수집한 $N=102$ 개의 상업적 제품을 분석하여 마케팅된 AI 에이전트 기능의 분류체계를 구축했다. 마케팅 자료에 대한 귀납적 질적 내용 분석을 수행하여 광고된 사용 사례를 오케스트레이션 (사용자를 대신하여 GUI 에서 작동), 생성 (슬라이드나 코드와 같은 구조화된 산출물 생성), 인사이트 (연구, 종합 및 추천 지원) 라는 세 가지 광범위한 범주로 정제했다.
사용성 평가 (연구 질문 2): 저자들은 $N=31$ 명의 참가자를 대상으로 사고 말하기 (think-aloud) 사용성 연구를 수행했다. 참가자들은 운영적 에이전트 시스템에는 미숙했으나 생성형 AI 채팅봇은 자주 사용하는 사용자였다. 그들은 두 가지 인기 있는 상업적 운영 에이전트 플랫폼인 OpenAI Operator와 Manus를 사용하여 세 가지 분류 범주 각각의 대표 과제를 수행했다.
- 과제: 휴가 계획 (오케스트레이션), 슬라이드 제작 (생성), 전문/개인 성장 보조금 예산 편성 (인사이트).
- 절차: 각 세션은 약 1 시간 동안 진행되었으며, 20 분짜리 과제 수행 두 번과 반구조화 인터뷰로 구성되었다. 연구는 화면/오디오 녹음, 시스템 사용성 척도 (SUS) 점수 및 인터뷰 기록을 수집했다.
- 분석: 데이터는 반성적 주제 분석 (reflexive thematic analysis) 을 사용하여 반복되는 장벽과 사용성 문제를 식별하기 위해 분석되었다.

주요 기여
본 논문은 인간 - 컴퓨터 상호작용 (HCI) 및 AI 분야에 다음과 같은 세 가지 주요 기여를 한다:

마케팅된 기능의 분류체계: 산업이 envisioned 한 AI 에이전트 사용 사례를 오케스트레이션, 생성, 인사이트로 분류하여 정제된 프레임워크를 제시함으로써, 상업적 시장에서 "에이전트"라는 라벨이 현재 어떻게 적용되는지를 명확히 한다.
사용성 장벽의 실증적 식별: 단순한 작업 완료 지표를 넘어 위임 및 협업 과정의 질을 평가하는 초보 사용자가 상업적 AI 에이전트와 상호작용할 때 직면하는 다섯 가지 중요한 사용성 장벽에 대한 설명을 제공한다.
디자인 및 평가 시사점: 개입 빈도, 복구 시간, 정지/루프 발생률과 같은 구체적인 평가 축을 포함하여 기존 기술적 벤치마크를 보완하는 에이전트 시스템 설계 및 평가에 대한 구체적인 시사점의 집합을 제시한다.

주요 결과 및 발견
참가자들은 일반적으로 할당된 과제를 성공적으로 완료했으며 높은 시스템 사용성 척도 (SUS) 점수를 보고했다 (일반적인 유용성 인상을 나타냄). 그러나 연구는 최적의 사용을 방해하는 중요한 마찰 지점을 드러냈다. 저자들은 다섯 가지 중요한 사용성 장벽을 식별했다:

정신 모델 불일치: 사용자는 에이전트의 기능, 프롬프트에 필요한 세부 정보 수준, 실행 중 에이전트의 역할을 이해하는 데 어려움을 겪었다. 이로 인해 "프롬프트 도박" (얼마나 구체적으로 명시해야 할지 불확실) 과 "장악 (Take Over)" (사용자 개입) 과 같은 상호작용 메커니즘에 대한 혼란이 발생했다. 사용자는 시스템 단서에서 능동적으로가 아니라 결과에 반응적으로 정신 모델을 구축했다.
조기 신뢰 가정: 에이전트는 신원 확인이나 사용자 의도 확인 없이 민감한 맥락 (예: 자격증 처리, 여행 계획 수립) 에서 신뢰를 가정하는 경우가 많았다. 사용자는 환각, 비밀번호 관리, 개인 선호도를 명확히 하지 않고 행동하려는 에이전트의 경향에 대해 불신을 표명했다.
협업 스타일 불일치: 에이전트는 다양한 협업 스타일을 수용하지 못했다. 일부 사용자는 "사고 파트너"로서 깊은 관여와 세밀한 제어를 원한 반면, 다른 이들은 최소한의 관여를 원했다. 에이전트는 사용자가 최소한의 감독을 원한다고 가정하고 지나치게 열성적인 실행 도구가 되는 경향이 있었으며, 작업 중 방향 전환이나 오류 복구와 같은 효과적인 메커니즘이 부족했다.
커뮤니케이션 과부하: 사용자는 에이전트 출력을 해석하는 데 어려움을 겪었다. 진행 상황 가시성에 대한 선호도는 다양했는데, 일부는 상세한 로그가 압도적이라고 느꼈고, 다른 이들은 필요한 감독이 부족하다고 느꼈다. 커뮤니케이션 과부하는 종종 의도를 명확히 하거나 에이전트가 워크플로우의 어느 단계에 있는지 파악하는 것을 어렵게 만들었다.
약한 메타인지 행동: 에이전트는 진행 상황, 한계 또는 출력 품질을 스스로 평가할 능력이 부족했다. 에이전트가 오류나 정지에 직면했을 때 종종 막힘을 인식하지 못해 반복적인 루프나 침묵적인 실패로 이어졌다. 사용자는 이러한 메타인지 공백을 메우도록 강요받았으며, 종종 불투명한 실패 모드에서 복구하는 데 어려움을 겪었다.

의의 및 주장
본 논문은 채팅 기반 상호작용에서 운영적 에이전트 시스템으로의 전환이 근본적으로 사용성 표면을 변화시킨다고 주장한다. 채팅봇에서는 부실한 프롬프트가 최적화되지 않은 텍스트 응답으로 이어질 수 있지만, 에이전트에서는 동일한 모호성이 사용자가 개입하기 전에 시간과 자원을 소모하는 다단계 실행과 실제 세계의 부작용 (예: 항공권 예약, 파일 수정) 을 유발할 수 있다.

저자들은 위임, 감독, 개입 및 복원과 같은 에이전트 시스템의 구조적 요구사항은 더 유능한 사용자나 더 강력한 모델을 기대하는 것으로 해결될 수 없다고 주장한다. 대신 이러한 시스템의 설계는 다음을 통해 식별된 장벽을 명시적으로 다루어야 한다:

자발성과 커뮤니케이션에 대한 사용자 선호도에 맞춰 조정.
에이전트 자기 평가 및 투명성 개선 (예: 신뢰도 노출, 정지 감지).
비텍스트 입력 및 정밀한 반복 메커니즘 지원.
개입 빈도 및 복구 시간과 같은 인간 중심 차원을 포함하도록 평가 지표 재정의.

본 연구는 현재 에이전트가 가능성을 보이지만, 초보 종단 사용자의 현실과 산업의 야망 사이에는 여전히 상당한 사용성 간극이 존재한다고 결론지으며, 설계 초점을 순수한 기능에서 협업적 신뢰로 전환할 필요성을 제기한다.

Why Johnny Can't Use Agents: Industry Aspirations vs. User Realities with AI Agents