Each language version is independently generated for its own context, not a direct translation.
📸 1. 문제: "긴 이야기를 하면 사진이 흐려진다?"
상상해 보세요. 친구가 당신에게 한 장의 사진을 보여주고, 그 사진에 대해 수천 마디의 긴 이야기를 해달라고 요청했다고 가정해 봅시다.
- 짧은 대화 (Short Context): 사진 바로 옆에서 "이 사진에서 개가 뭐 하고 있니?"라고 물으면, AI 는 사진 속 개를 정확히 보고 답합니다.
- 긴 대화 (Long Context): 하지만 친구가 사진을 보여준 뒤, 수천 마디의 잡담을 한 뒤에 다시 "아까 사진에서 개가 뭐 하고 있었지?"라고 물으면, AI 는 사진을 잊어버리고 엉뚱한 답을 하거나 아예 사진을 못 본 척합니다.
이 현상을 논문에서는 **"시각적 소실 (Visual Fading)"**이라고 부릅니다. AI 가 텍스트가 길어질수록, 처음에 본 이미지의 중요도가 점점 줄어들어 잊어버리는 것입니다.
🧠 2. 원인: "거리가 멀어지면 소리가 안 들리는 이유"
왜 이런 일이 일어날까요? 기존 AI 는 **'RoPE (회전 위치 인코딩)'**라는 기술을 썼습니다. 이 기술은 문장에서 "단어 A 와 단어 B 가 얼마나 멀리 떨어져 있는가"를 계산할 때, 거리가 멀어질수록 그 단어의 중요도를 급격히 낮추는 성질이 있습니다.
- 문장 안에서는: "내가 어제 먹은 밥"과 "내가 어제 먹은 국"은 가깝지만, "내가 어제 먹은 밥"과 100 줄 뒤에 나오는 "내일 할 일"은 멀기 때문에, AI 는 '밥'과 '일'의 연결을 약하게 봅니다. (이건 문법적으로 맞습니다.)
- 문장과 사진 사이에서는: 하지만 사진은 처음부터 끝까지 계속 보고 있어야 하는 '상수'입니다. 그런데 AI 는 텍스트가 길어질수록 "아, 이 사진은 내가 지금 말하고 있는 단어로부터 너무 멀리 떨어져 있구나"라고 착각합니다. 그래서 사진을 점점 더 멀리 밀어내버리는 것입니다. 마치 친구가 사진을 들고 있는데, 친구가 말을 길게 늘어놓을수록 그 사진이 친구의 손에서 점점 멀어져서 안 보이게 되는 것과 같습니다.
💡 3. 해결책: "DIPE (거리 불변 위치 인코딩)"
저자들은 이 문제를 해결하기 위해 DIPE라는 새로운 방법을 고안했습니다. 핵심 아이디어는 "내부 대화"와 "외부 대화"를 다르게 처리하는 것입니다.
🏠 비유: "집안일"과 "외부 손님"
- 내부 대화 (Intra-modal): 같은 언어끼리 대화할 때는 (예: 문장 안의 단어들) 거리가 멀어질수록 소리가 작아지는 게 자연스럽습니다. (기존 방식 유지)
- 외부 대화 (Inter-modal): 사진과 텍스트가 대화할 때는 상황이 다릅니다. 사진은 항상 우리 눈앞에 고정된 상태여야 합니다.
DIPE 의 방식:
- 텍스트끼리 대화할 때: 기존처럼 거리가 멀어지면 중요도를 낮춥니다. (자연스러운 흐름)
- 텍스트가 사진을 볼 때: "아, 이 텍스트는 사진과 항상 1 미터 거리에 있는 것처럼" 처리합니다. 텍스트가 100 줄을 써도, 1,000 줄을 써도 사진과의 거리는 변하지 않는다고 고정해버리는 것입니다.
이를 통해 AI 는 텍스트가 아무리 길어져도, 사진은 항상 눈앞에 선명하게 존재한다고 믿게 됩니다.
🚀 4. 결과: "긴 이야기에서도 사진을 잊지 않아요"
실험 결과를 보면:
- 기존 AI: 텍스트가 길어질수록 사진에 대한 관심이 0 에 수렴하며, 엉뚱한 답을 합니다.
- DIPE 적용 AI: 텍스트가 3 만 자 (32K 토큰) 가 되어도 사진을 잊지 않고 정확한 답을 합니다.
또한, 짧은 대화 (일상적인 질문) 에서도 성능이 떨어지지 않고 오히려 더 좋아졌습니다. 마치 새로운 안경을 끼는 것처럼, 기존 능력은 유지하면서 긴 대화라는 새로운 능력을 얻은 셈입니다.
📝 요약
이 논문은 **"AI 가 긴 이야기를 할 때 사진을 잊어버리는 병"**을 발견하고, **"사진과 텍스트의 거리는 항상 일정하게 유지되게 하는 새로운 규칙 (DIPE)"**을 만들어 이를 치료했습니다.
이제 AI 는 수천 줄의 긴 보고서나 책장을 넘기면서도, 처음에 본 그림을 잊지 않고 정확하게 기억할 수 있게 되었습니다! 🎉