Toward a Unified Framework for Collaborative Design of Human-AI Interaction

매우 똑똑하지만 약간의 심리 독해 능력을 가진 조수와 함께 일한다고 상상해 보세요. 이 조수는 당신의 목소리를 듣고, 당신이 가리키는 곳을 보며, 심지어 당신의 시선이 머무는 곳까지 추적할 수 있습니다. 목표는 조수가 당신이 무엇을 하려는지 정확히 이해하도록 하는 것입니다.

그러나 큰 문제가 하나 있습니다. 종종 조수가 잘못 추측하는데, 그것이 "블랙박스"이기 때문에 왜 그런 추측을 했는지 알 수 없습니다. 당신은 "더 크게 만들어 줘"라고 말하면서 버튼을 가리키고 그림을 바라볼 수 있지만, 조수는 버튼 대신 그림을 더 크게 만들기로 결정합니다. 당신은 좌절감을 느끼고 신뢰를 잃으며 통제력을 잃었다고 느낍니다.

이 논문은 이러한 인간-AI 팀을 구축하는 새로운 방식을 제안합니다. 조수의 "추측", "설명", 그리고 당신의 "통제"를 세 가지 별개의 문제로 취급하는 대신, 저자들은 이들을 하나의 통합된 시스템으로 함께 구축해야 한다고 말합니다.

다음은 주방장과 부주방장이라는 비유를 사용하여 세 가지 간단한 부분으로 분해된 프레임워크입니다:

1. "완벽한 경청" (다중 모달 정렬)

개념: 시스템은 당신의 목소리, 제스처, 시선을 결합하여 올바른 의도를 파악해야 합니다.
비유: 부주방장 (당신) 이 무엇을 원하는지 추측하려는 주방장 (AI) 을 상상해 보세요. 부주방장이 "양파를 다져라"라고 말하면서 당근을 가리킨다면, 나쁜 시스템은 당근을 다질 것입니다. 좋은 시스템 (다중 모달 정렬) 은 목소리를 듣고, 손가락을 관찰하며, 눈을 확인하여 "아, 양파라고 말했지만 당근을 가리켰군; 아마 양파를 의미했을 거야"라고 깨닫습니다.
논문의 주장: AI 가 처음에 이 "경청" 부분을 잘못 이해하면 다른 것은 아무것도 중요하지 않습니다. 잘못된 추측을 설명할 수 없으며, 무엇을 오해했는지 모른다면 수정할 수도 없습니다.

2. "즉시 레시피 카드" (상호작용 중심 설명 가능성)

개념: AI 는 단순히 작업을 수행하는 것이 아니라, 그림, 텍스트, 또는 소리를 사용하여 왜 그렇게 했는지 즉시 보여줘야 합니다.
비유: 주방장이 잘못 다진 야채를 침묵하며 다지는 대신, 주방장이 멈추고 다음과 같은 카드를 들어 올립니다: "당신이 당근을 가리켰기 때문에 (85% 일치) 당근을 다지고 있습니다. 비록 '양파'라고 말씀하셨지만요."
논문의 주장: 이 설명은 작업이 끝난 후가 아니라 진행 중에 이루어집니다. 이는 혼란스러운 미스터리를 명확한 대화로 바꿉니다. AI 가 "이 버튼을 크기 조절하는 것은 '크기 조절'이라고 말씀하시고 그것을 바라보셨기 때문입니다"라고 말하면, 그것이 맞는지 틀린지 즉시 알 수 있습니다.

3. "안전망" (주체성 보존 메커니즘)

개념: 당신은 항상 즉시 "예", "아니오", 또는 "그것을 바꿔줘"라고 말할 수 있는 권한을 가져야 합니다.
비유: 주방장이 천재라 할지라도, 당신은 boss 입니다. 주방장이 당근을 다지기 시작하면, 당신은 즉시 "멈춰! 나는 양파를 의미했어!"라고 말할 수 있습니다. 논문은 당신이 주방장을 수정할 때, 시스템이 단순히 순종하는 것이 아니라 다음을 위해 당신의 수정에서 배워야 한다고 제안합니다.
논문의 주장: 이는 당신이 주도권을 유지하게 합니다. 일방적인 명령을 양방향 협상으로 바꿉니다. AI 가 실수를 하면 당신이 그것을 수정하고, AI 는 "아, 다음에는 그들이 X 를 가리키지만 Y 라고 말하면, 명확화를 요청해야겠다"라고 배웁니다.

그들이 어떻게 함께 작동하는지 ("악순환 vs 선순환")

이 논문은 이 세 가지 부분이 세 발 달린 의자처럼 서로 연결되어 있다고 주장합니다. 한 다리가 부러지면 전체가 무너집니다.

"경청"이 나쁘다면: AI 는 당신이 당근을 원한다고 생각합니다.
"설명"이 없다면: 왜 당근을 다지는지 알 수 없어 혼란스러워집니다.
"통제"가 없다면: 그것을 막을 수 없고 신뢰를 잃습니다.

그러나 그들이 함께 작동한다면: AI 는 잘 경청하고, 논리를 명확하게 설명하며 ("손가락 때문에 당근을 다지고 있습니다"), 당신이 수정할 수 있게 합니다 ("아니요, 양파!"). 그런 다음 AI 는 그 수정에서 배웁니다.

논문에서 제시된 실제 사례

저자들은 두 가지 이야기로 이 아이디어를 테스트했습니다:

웹사이트 디자인: 디자이너가 버튼을 가리키면서 "더 크게 만들어 줘"라고 말합니다. AI 는 목소리, 가리킴, 시선 추적을 결합하여 전체 페이지가 아닌 버튼의 크기를 조절합니다. 그리고 작은 메모를 보여줍니다: "목소리와 손가락 때문에 버튼 크기 조절 중." 디자이너는 "사실 120% 로 만들어 줘"라고 말할 수 있고, AI 는 이를 업데이트합니다.
창고 로봇: 시끄러운 창고에서 한 근로자가 특정 구역을 바라보며 "멈춰!"라고 외칩니다. 로봇은 외침과 근로자의 시선을 결합하여 정확히 2 미터 거리에서 멈춥니다. 홀로그램 메모를 보여줍니다: "2 미터 구역을 바라보셨기 때문에 여기서 멈춥니다." 근로자가 "아니요, 1 미터에서 멈춰"라고 말하면, 로봇은 멈추고 변경 사항을 확인하며 다음을 위해 이 선호도를 기억합니다.

"하지만..." (한계점)

저자들은 아직 하지 않은 것에 대해 솔직합니다:

완성된 집이 아닌 청사진: 그들은 아이디어를 제안하고 이야기에서 어떻게 작동해야 하는지 보여주었지만, 이를 증명할 실제 작동 시스템을 아직 구축하지는 않았습니다.
센서의 실패 가능성: 햇빛이 너무 밝으면 시선 추적이 실패할 수 있습니다. 창고가 너무 시끄러우면 음성 인식이 실패할 수 있습니다. "경청" 부분이 실패하면 "설명" 부분이 당신에게 거짓말을 할 수 있으며, 이는 위험합니다.
속도 대 명확성: 빠른 속도의 비상 상황에서는 설명을 읽기 위해 멈추는 것이 너무 느릴 수 있습니다. 논문은 이 프레임워크가 이해보다 속도가 더 중요한 순간의 결정에는 작동하지 않을 수 있음을 인정합니다.

요약하자면: 이 논문은 AI 가 진정한 파트너가 되려면 신중하게 경청하고, 그 순간에 사고 과정을 명확하게 설명하며, 우리가 즉시 수정할 수 있게 해야 한다고 주장합니다. "설명"을 사후 처리로 추가해서는 안 되며, AI 가 우리와 상호작용하는 방식의 핵심에 구축되어야 합니다.