Learning Next Action Predictors from Human-Computer Interaction

이 논문은 사용자의 멀티모달 상호작용 데이터를 기반으로 다음 행동을 예측하는 'LongNAP' 모델을 제안하고, 이를 통해 방대한 양의 자연스러운 사용자 행동 데이터를 학습하여 개인화된 행동 예측 성능을 크게 향상시켰음을 보여줍니다.

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang

게시일 Mon, 09 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 우리 다음에 무엇을 할지 미리 알아맞히는 기술"**에 대한 연구입니다. 제목은 **'LongNAP(긴 맥락 다음 행동 예측기)'**입니다.

기존의 AI(챗봇 등) 는 우리가 입력한 명령어만 보고 반응합니다. 마치 눈이 가늘게 뜬 사람이 우리가 건네는 메모만 보고 상황을 이해하는 것과 비슷하죠. 하지만 진짜 똑똑한 비서는 우리가 컴퓨터나 스마트폰을 어떻게 사용하는지, 어떤 습관이 있는지, 지금 어떤 상황에 처해 있는지까지 모두 파악한 뒤 "아, 지금 이 사람은 다음에 이 파일을 열어서 수정할 거야"라고 미리 말해줘야 합니다.

이 논문은 바로 그 **'예지력'**을 가진 AI 를 만드는 방법을 소개합니다.


1. 핵심 아이디어: "AI 가 우리 생활을 지켜보다가 배우다"

이 연구의 가장 큰 특징은 사용자가 직접 "내가 이렇게 했어"라고 알려줄 필요가 없다는 점입니다.

  • 기존 방식: 사용자가 매번 "이거 해줘", "저거 해줘"라고 말해야 함. (사용자가 일일이 설명해야 함)
  • 이 연구의 방식 (NAPsack): 사용자가 스마트폰을 쓰거나 컴퓨터를 할 때, AI 가 눈을 감고 귀를 막은 채로 뒤에서 조용히 지켜봅니다. (스크린샷, 클릭, 입력 기록 등을 자동으로 수집)
    • 마치 스마트한 가정부가 주인이 커피를 마시고 출근 준비를 하는 모습을 보며, "다음엔 아마 지갑을 찾을 거야"라고 추측하는 것과 같습니다.
    • 이 데이터를 모으는 도구 이름이 **'NAPsack(냅백)'**입니다. (NAP = 낮잠, Sack = 가방. "잠들지 않고 지켜보는 가방"이라는 뜻으로, 사용자가 아무것도 안 해도 자동으로 데이터를 모으는 도구입니다.)

2. 어떻게 그렇게 똑똑해질까? (LongNAP 의 두 단계)

이 AI 는 단순히 데이터를 많이 봤다고 해서 똑똑해지는 게 아닙니다. 두 가지 단계로 생각하며 학습합니다.

1 단계: "과거의 기억을 찾아서" (Reasoning to Retrieve)

  • 상황: 사용자가 "논문 리뷰"를 보고 있습니다.
  • AI 의 생각: "아, 이 사람은 논문 리뷰를 볼 때면 항상 동료에게 메시지를 보내서 작업을 나누는 습관이 있었지."
  • 행동: AI 는 사용자의 과거 기록 (메모리) 에서 비슷한 상황을 찾아옵니다. 마치 도서관 사서가 "이 사람은 과거에 이런 상황에서 이렇게 했었어"라고 관련 책을 찾아오는 것과 같습니다.

2 단계: "미래를 예측해서" (Reasoning to Predict)

  • 행동: 찾아온 과거의 기억을 바탕으로 "그러니까 지금 이 사람은 동료에게 슬랙 (Slack) 으로 메시지를 보낼 거야"라고 예측합니다.
  • 학습: 만약 예측이 맞으면 "잘했다!"라고 칭찬받고, 틀리면 "다시 생각해봐"라고 수정합니다. 이 과정을 반복하며 AI 는 점점 더 정확한 예지력을 갖게 됩니다.

3. 실험 결과: 얼마나 잘할까?

연구진은 20 명의 사람으로부터 1 개월 치의 스마트폰 사용 기록 (약 1,800 시간, 36 만 건 이상의 행동) 을 수집하여 이 AI 를 훈련시켰습니다.

  • 결과: 기존의 AI(단순히 명령어를 입력하거나 과거 데이터를 학습시킨 모델) 보다 약 40~80% 더 정확하게 다음 행동을 예측했습니다.
  • 예시: 사용자가 "알람을 3 번 끄고" "이메일을 확인하고" "논문 리뷰를 읽었다"면, AI 는 "이 사람은 이제 '실험 추적 프로그램'을 열어보고 동료에게 메시지를 보낼 것이다"라고 예측했습니다.
  • 정확도: 모든 예측이 완벽하진 않지만, 가장 확신 있는 예측 10 개 중 2~3 개는 실제 사용자의 행동과 거의 일치했습니다. (기존 AI 는 1 개도 맞추기 힘들었습니다.)

4. 왜 이것이 중요한가? (실생활 예시)

이 기술이 완성되면 우리 생활은 어떻게 바뀔까요?

  • 비밀스러운 비서: 당신이 회의 전에 항상 "회의록"을 열어본다는 걸 알고, 회의가 시작되기 5 분 전에 자동으로 회의록을 띄워줍니다.
  • 자동화: 당신이 "택시 앱"을 켜고 "집 주소"를 검색하는 패턴을 보면, AI 가 "집으로 가는 택시를 부르는 중이시군요"라고 말하며 미리 택시를 호출해 줍니다.
  • 개인 맞춤: AI 는 당신만의 습관을 이해합니다. "이 사람은 아침에 뉴스보다 인스타그램을 먼저 본다"는 걸 알고, 아침에 인스타그램을 먼저 열어줍니다.

5. 걱정되는 점 (프라이버시)

물론 이런 기술은 사생활 침해에 대한 우려가 큽니다. AI 가 우리 생활을 모두 지켜보기 때문입니다.

  • 해결책: 연구진은 이 데이터를 사용자의 기기 (스마트폰 등) 안에서만 처리하고, 민감한 정보는 숨기거나 암호화하는 기술을 함께 제안합니다. 마치 비밀스러운 수첩을 AI 가 가지고 다니되, 그 수첩은 AI 만 볼 수 있고 다른 누구도 열 수 없게 만드는 것과 같습니다.

요약

이 논문은 **"AI 가 우리가 무엇을 할지 미리 알아맞히는 시대가 왔다"**는 것을 보여줍니다.
기존의 AI 가 "명령을 기다리는 로봇"이었다면, 이 LongNAP은 **"사용자의 습관과 맥락을 이해하고 미리 준비하는 똑똑한 비서"**로 진화하고 있습니다. 비록 아직 완벽하진 않지만, 우리가 컴퓨터와 스마트폰을 사용할 때 AI 가 더 자연스럽게 도와줄 수 있는 중요한 첫걸음입니다.