Each language version is independently generated for its own context, not a direct translation.
🍳 비유: 요리사의 '수첩'과 '요리 과정'
상상해 보세요. 한 요리사가 새로운 요리를 개발하기 위해 부엌에서 일하고 있습니다.
- 그는 소금 1g 을 더 넣었다가 뺐다.
- 팬을 닦았다.
- 재료를 다듬었다.
- 다시 한 번 맛을 봤다.
- 실패해서 버렸다.
이때 컴퓨터 (시스템) 는 이 모든 미세한 동작을 **'로그 (Log)'**라는 이름으로 기록합니다. 하지만 이 기록은 너무 많습니다.
"소금 1g 추가", "팬 닦음", "소금 1g 제거", "팬 닦음", "재료 다듬음", "재료 다듬음", "실패", "재시도"...
이런 기록만 보고 AI 가 "아, 이 요리사는 지금 맛을 내고 있는 중이야"라고 이해하기는 어렵습니다. 컴퓨터는 그저 "소금 1g 추가"와 "팬 닦음"을 같은 무게로만 봅니다.
이 논문은 **"이 복잡한 기록들을 정리해서, AI 가 '아, 이 사람은 지금 '맛을 내고 있는 중'이구나'라고 이해하게 만들자"**고 제안합니다.
🛠️ 이 논문이 제안하는 3 단계 해결책
저자들은 이 문제를 해결하기 위해 3 단계의 청소 및 정리 과정을 제안합니다.
1 단계: 소음 제거 (De-noising) 🧹
- 문제: 컴퓨터는 요리사가 소금을 넣은 것뿐만 아니라, "소금통 뚜껑을 열었다", "뚜껑을 닫았다", "주방청소" 같은 사소한 일까지 모두 기록합니다.
- 해결: AI 는 이 중 **'의미 있는 행동'**만 골라냅니다.
- ❌ 버리는 것: 시스템이 자동으로 하는 정리 작업, 임시 파일 삭제 등.
- ✅ 남기는 것: "새로운 재료 추가 (INSERT)", "맛 조절 (MODIFY)", "완성된 요리 만들기 (GENERATION)", "실패한 요리 버리기 (REMOVE)".
- 결과: 100 개의 기록 중 40 개는 잡음이라서 없애고, 진짜 중요한 '요리 행동' 60 개만 남깁니다.
2 단계: 요리 과정 지도 그리기 (Workflow Reconstruction) 🗺️
- 문제: 기록은 시간순으로만 나열되어 있습니다. 하지만 창의적인 작업은 직선이 아닙니다. "A 를 만들고 -> B 를 시도했다가 -> 실패해서 다시 A 로 돌아와서 C 를 만들었다"처럼 가지가 뻗는 형태입니다.
- 해결: 이 복잡한 과정을 **나무 가지 모양의 지도 (그래프)**로 그립니다.
- 파란색: 이미지 생성
- 분홍색: 명령어 (프롬프트) 입력
- 선: 데이터가 어떻게 흐르는지
- 효과: 이렇게 하면 AI 는 "아, 이 사람은 여기까지 갔다가 실패하고 다시 돌아왔구나"라고 전체적인 흐름을 한눈에 볼 수 있습니다.
3 단계: 언어로 바꾸기 (Tokenization) 🗣️
- 문제: 컴퓨터는 "이미지 노드 3 번 수정" 같은 복잡한 코드를 이해합니다.
- 해결: 이를 AI 가 이해하기 쉬운 간단한 단어로 바꿉니다.
INSERT_image(이미지 추가)MODIFY_prompt(명령어 수정)GENERATION_video(동영상 생성)
- 효과: 이제 AI 는 이 단어들을 읽어서 사람의 행동을 이해할 수 있습니다.
🤖 왜 이것이 중요한가요? (AI 가 '마음'을 읽는 순간)
이렇게 정리된 데이터를 바탕으로 **미래의 AI 비서 (에이전트)**는 다음과 같이 행동할 수 있게 됩니다.
- 기존 AI: 사용자가 "이미지를 바꾸세요"라고 명령하면, "네, 바꿉니다"라고만 합니다. (명령만 수행)
- 새로운 AI (이 논문 제안):
- "사용자가 이미지를 5 번이나 넣고는 크기를 조절하고, 또 넣고는 크기를 조절하고... (이 패턴을 발견함)"
- AI 의 추론: "아, 이분은 지금 참고 이미지를 넣고 크기를 맞추는 작업을 반복하고 계시네."
- AI 의 제안: "이런 패턴을 보니까, 앞으로 이미지를 넣을 때 자동으로 크기를 맞춰드릴까요? 아니면 다른 작업을 도와드릴까요?"
즉, AI 가 사용자의 과거 행동을 기억하고 패턴을 파악해서, 사용자가 말하기 전에 다음 단계를 예측하고 도와주는 것입니다.
💡 한 줄 요약
**"컴퓨터가 남긴 복잡한 기록 (로그) 을 정리해서, AI 가 사람의 창의적인 과정을 이해하고, 마치 옆에서 함께 고민하는 파트너처럼 도와주게 만드는 기술"**입니다.