Each language version is independently generated for its own context, not a direct translation.
이 논문은 **"여러 장의 사진을 동시에 볼 때, AI 가 헛소리를 하는 문제 (할루시네이션) 를 해결하는 방법"**에 대해 다룹니다.
기존의 거대 AI 모델들은 사진을 하나씩 볼 때는 잘하지만, 두 장 이상의 사진을 비교하거나 연결해서 생각할 때 "아, 이 사진의 개가 저 사진의 고양이랑 친구구나!"라고 엉뚱한 이야기를 지어내는 경우가 많았습니다. 이 논문은 그 원인을 **"사진들 사이의 소통이 제대로 안 되기 때문"**이라고 분석하고, 이를 해결하기 위한 CAPL이라는 새로운 기술을 제안합니다.
이 기술을 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.
1. 문제의 원인: "일방통행 도로"와 "편향된 기억"
기존 AI 모델이 여러 장의 사진을 볼 때의 방식은 마치 일방통행 도로를 달리는 것과 같습니다.
- 상황: AI 가 사진 A, B, C 를 순서대로 봅니다.
- 문제: 사진 B 는 사진 A 를 볼 수 있지만, 사진 A 는 나중에 온 사진 B 를 볼 수 없습니다. 마치 "앞사람은 뒷사람을 볼 수 있지만, 뒷사람은 앞사람을 못 보는" 상황입니다.
- 결과: AI 는 사진들 사이의 진짜 관계를 찾기보다, **"글자 (텍스트) 의 흐름"**이나 **"기존에 알고 있는 상식"**에만 의존해서 답을 지어냅니다.
- 예시: "사진 1 에는 개가 있고, 사진 2 에는 공이 있다"고 했을 때, AI 는 두 사진을 서로 비교해서 "개와 공이 놀고 있네!"라고 추론하기보다, "개는 공을 좋아하니까"라는 텍스트 상식만 믿고 엉뚱한 결론을 내립니다.
2. 해결책 1: "양방향 소통 도로" (Cross-Image Attention)
저자들은 이 문제를 해결하기 위해 **모든 사진이 서로 자유롭게 대화할 수 있는 '양방향 도로'**를 만들었습니다.
- 비유: 이전에는 사진들이 줄지어 서서 앞사람만 바라봤다면, 이제는 모두가 서로 눈을 마주치고 대화할 수 있게 만든 것입니다.
- 작동 원리: 하지만 모든 정보가 다 섞이면 소음이 생길 수 있으니, AI 는 **"가장 중요한 핵심 인물 (키 토큰)"**만 골라서 서로 대화하게 합니다.
- 예시: 사진 1 의 '개'와 사진 2 의 '공'이 서로를 직접 보고 "너 나랑 놀자!"라고 대화하게 하면, AI 는 텍스트 상식이 아니라 진짜 시각적 증거를 바탕으로 정확한 관계를 파악하게 됩니다.
3. 해결책 2: "의도적인 실수 훈련" (Attentive Preference Learning)
단순히 소통을 잘하게 하는 것만으로는 부족합니다. AI 가 실수하는 습관을 고쳐야 하니까요. 저자들은 AI 를 훈련시킬 때 의도적으로 실수를 하게 만드는 '악마의 변호인' 역할을 시켰습니다.
- 비유:
- 선생님 (옳은 답): AI 에게 "사진 A 와 B 를 서로 잘 연결해서 봐"라고 가르쳐서 정답을 내게 합니다.
- 악마 (틀린 답): AI 에게 "이제 사진 A 와 B 사이의 연결고리를 모두 끊어버려. 오직 사진 하나만 보고, 네가 아는 상식만으로 답을 내봐"라고 시킵니다.
- 연결고리가 끊어지면 AI 는 두 사진을 비교할 수 없게 되어, 엉뚱한 상식 (할루시네이션) 을 바탕으로 틀린 답을 내게 됩니다.
- 훈련 과정: AI 는 "정답 (선생님)"과 "틀린 답 (악마)"을 비교하며 **"아, 내가 연결고리를 끊고 상식만 믿었을 때 엉뚱한 소리를 했구나! 진짜 사진을 비교해서 답해야겠다"**라고 스스로 학습하게 됩니다. 이를 통해 AI 는 헛소리를 하는 습관을 버리고, 진짜 시각적 증거에 기반한 답을 내놓는 법을 배웁니다.
요약: 이 기술이 가져온 변화
이 CAPL 기술을 적용한 결과, AI 는 다음과 같은 변화를 겪었습니다:
- 여러 장의 사진 비교: 두 장 이상의 사진을 비교할 때, "이건 저건과 다르다"거나 "이건 저건과 연결된다"는 것을 훨씬 정확하게 파악하게 되었습니다.
- 할루시네이션 감소: "없는 물건을 있는 것처럼" 말하거나 "틀린 관계를 맺는" 실수가 크게 줄었습니다.
- 기존 능력 유지: 여러 장의 사진을 잘 보게 되었지만, 단 한 장의 사진을 볼 때의 능력은 오히려 더 좋아지거나 유지되었습니다. (새로운 기술을 배웠다고 해서 기존 실력이 사라지지 않음)
결론
이 논문은 AI 가 여러 장의 사진을 볼 때 **"서로 대화하게 하고 (Attention)", "실수를 의도적으로 만들어서 고치게 함 (Preference Learning)"**으로써, AI 가 더 똑똑하고 신뢰할 수 있는 눈 (Vision) 을 갖게 만들었습니다. 마치 학생들이 시험을 볼 때, 단순히 암기만 하는 게 아니라 서로의 답안을 비교하고, 틀린 답을 분석하며 진짜 원리를 깨우치는 것과 같습니다.