원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기
상상해 보세요. 매우 똑똑하지만 약간 직관적인 로봇 도우미에게 복잡한 지시를 내리려 한다고 가정해 봅시다.
기존 방식 (CRUD 문제):
현재 대부분의 기업용 소프트웨어 (은행이나 상점에서 사용하는 시스템 등) 는 인간을 위해 설계되었습니다. 인간에게 "지난달에 개업한 시내 지점을 찾아라"라고 요청하면, 그 인간은 지도를 보고 간판을 읽어서 해결책을 찾을 수 있습니다.
하지만 오늘날의 표준 소프트웨어 인터페이스를 통해 로봇에게 같은 작업을 요청한다면, 이는 로봇이 지점의 정확한 10 자리 ID 번호를 미리 알아야만 작업을 시작할 수 있는 세금 신고서를 작성하라고 강요하는 것과 같습니다. 로봇이 ID 를 잘못 추측하면 시스템은 단순히 "Error 404"라고 말하며 멈춥니다. 로봇은 다시 추측해야 하고, 또 다른 오류를 마주치며 결국 포기하거나 인간의 도움을 요청하게 됩니다. 이 논문에서 말하는 "CRUD 불일치"란 바로 이것입니다. 소프트웨어는 정확한 ID 와 정밀한 데이터를 요구하지만, AI 는 모호한 자연어 목표에서 시작한다는 것입니다.
새로운 방식 (에이전트 중심 도구 API):
저자들은 AI 에이전트를 위해 이러한 도구들을 설계하는 새로운 방식을 제안합니다. 경직된 양식 대신, 모호함을 처리하는 방법을 아는 도움이 되는 인간 도우미처럼 도구를 취급합니다.
여행 에이전트라는 비유를 사용하여 그들의 "6 동사" 시스템이 어떻게 작동하는지 살펴보겠습니다.
- 의미론적 검색 ("무슨 뜻이죠?" 단계):
- 기존 방식: "JFK 로 가는 비행기 예약해 줘"라고 말해야 합니다.
- 새로운 방식: "타임스퀘어 근처 공항으로 가는 비행기 예약해 줘"라고 말합니다. 도구가 당황하지 않고 데이터베이스를 검색하여 타임스퀘어 근처의 세 공항을 찾아냅니다. 그리고 "JFK, 라가르디아, 뉴어크를 찾았습니다. 어느 것을 의미하셨나요?"라고 묻습니다.
- 후보 해결 ("명확화" 단계):
- AI 가 목록에서 올바른 것 (JFK) 을 선택합니다. 도구가 확인합니다. "알겠습니다, JFK 로요."
- 작업 미리보기 ("건조 실행" 단계):
- 실제로 티켓을 예약하기 (돈이 드는 작업) 전에 도구가 초안을 보여줍니다. "지금 하려는 작업은 다음과 같습니다: JFK 로 가는 비행기를 500 달러에 예약합니다. 괜찮으십니까?" 이는 실수가 발생하기 전에 예방합니다.
- 작업 실행 ("실행" 단계):
- AI(또는 인간 관리자) 가 "네"라고 말하면 도구가 실제로 티켓을 예약합니다.
- 결과 검증 ("성공했나요?" 단계):
- 도구가 즉시 자신의 작업을 확인합니다. "방금 티켓을 예약했습니다. 확인 번호가 진짜인지 데이터베이스를 다시 한번 확인해 보겠습니다."
- 오류 복구 ("플랜 B" 단계):
- 만약 무언가 잘못되면 (예: 비행기가 매진된 경우), 도구가 단순히 멈추지 않습니다. "그 비행기는 매진되었지만, 대신 작동하는 다른 세 가지 비행기가 있습니다. 어떤 것을 시도해 볼까요?"라고 말합니다.
안전망 (거버넌스):
이 논문은 또한 엄격한 "경비원" 시스템을 도입합니다.
- 이중 계층 권한: 두 가지를 확인합니다. "이 AI 가 이 작업을 수행할 직함이 있는가?" (역량) 그리고 "이 AI 가 이 특정 상점의 데이터에 접근할 권한이 있는가?" (범위).
- 동적 위험: AI 가 티켓 확인과 같은 작은 작업을 시도하면 바로 진행됩니다. 하지만 500 개의 레코드를 삭제하거나 전체 브랜드의 가격을 변경하는 것과 같은 큰 작업을 시도하면, 시스템은 자동으로 일시 정지하고 진행하기 전에 인간 관리자의 승인을 요청합니다.
결과:
저자들은 작업 지시 관리, 직원 교육, 장비 수리 등 85 가지 다른 도구를 포함한 실제 시스템에서 이를 테스트했습니다.
- 성공률: 새로운 시스템은 작업의 88% 를 해결한 반면, 기존 시스템은 64% 만 해결했습니다.
- 인간 도움 감소: 새로운 시스템은 22% 였던 기존 시스템과 비교해 인간 개입이 필요한 경우가 6% 에 불과했습니다.
- 오류 감소: 도구가 먼저 올바른 ID 를 찾도록 도와주었기 때문에 AI 는 잘못된 ID 를 추측하는 "환각" 현상을 훨씬 덜 일으켰습니다.
절충점:
새로운 시스템은 검색, 미리보기, 검증과 같은 추가 확인 작업을 수행하기 때문에 각 개별 단계에 조금 더 많은 시간과 "컴퓨팅 파워 (토큰)"를 사용합니다. 그러나 실패 빈도가 낮고 추측의 루프에 빠지지 않기 때문에, 전체 작업을 완료하는 데 걸리는 총 시간은 실제로 더 빠르고 훨씬 더 신뢰할 수 있습니다.
요약:
이 논문은 AI 에이전트를 기업에서 진정으로 유용하게 만들기 위해서는 인간에게 사용하는 것과 같은 도구를 단순히 제공하는 것만으로는 부족하다고 주장합니다. 우리는 대화형, 자기 수정형, 안전 의식적인 도구로 재설계해야 하며, AI 를 "맹목적인 추측자"에서 "감독을 받는 전문가"로 전환해야 합니다.
연구 분야의 논문에 파묻히고 계신가요?
연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.