It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

이 논문은 현실 세계의 다양한 환경에서 시계 읽기 능력을 향상시키기 위해 실제 시계 데이터를 포함한 'TickTockVQA' 데이터셋과 모델의 추론을 정렬하는 'Swap-DPO' 미세조정 프레임워크를 제안합니다.

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

시계 바늘을 읽는 AI: "ITGR" 프로젝트 이야기

이 논문은 **"인공지능 (AI) 이 왜 아날로그 시계 시간을 읽는 데 이렇게 서툴까?"**라는 질문에서 시작합니다. 우리는 AI 가 복잡한 수학 문제를 풀거나 그림을 설명하는 데는 천재적인데, 정작 시계 바늘을 보고 "지금 몇 시야?"라고 물으면 엉뚱한 답을 내놓는다는 사실을 발견했죠.

이 문제를 해결하기 위해 연구팀은 **새로운 데이터셋 (TickTockVQA)**과 **새로운 학습 방법 (Swap-DPO)**을 개발했습니다. 이를 쉽게 비유해서 설명해 드릴게요.


1. 문제: AI 는 왜 시계를 못 읽나요? (비유: "가짜 시계"만 본 학생)

지금까지 AI 를 가르치기 위해 만든 시계 데이터들은 대부분 **컴퓨터로 그린 가짜 그림 (합성 데이터)**이었습니다.

  • 상황: 마치 학생이 시계 공부를 할 때, 실제 시계가 있는 거리를 다니는 대신, 화면 속의 완벽한 가짜 시계 그림만 10 만 장이나 본 것과 같습니다.
  • 결과: 실제 시계는 빛이 반사되거나, 바늘이 가려지거나, 배경이 복잡할 수 있는데, AI 는 이런 '실제 상황'을 전혀 경험해 본 적이 없습니다.
  • 증상: AI 는 시계의 **짧은 바늘 (시침)**과 **긴 바늘 (분침)**을 자주 헷갈립니다. 마치 "짧은 바늘이 분침이고, 긴 바늘이 시침이야!"라고 착각하는 것과 같습니다.

2. 해결책 1: 새로운 교재, '틱톡VQA' (비유: "실제 거리로 데려가기")

연구팀은 AI 에게 실제 거리에서 찍은 1 만 2 천 장의 시계 사진을 모았습니다.

  • 특징: 이 사진들은 조명도 다르고, 시계가 벽에 걸려 있거나 손목시계 형태일 수도 있으며, 심지어 시계가 반전되거나 일부 가려진 사진도 포함되어 있습니다.
  • 효과: 이제 AI 는 "가짜 시계"가 아니라, 실제 세상의 복잡한 시계를 보며 공부하게 되었습니다. 이는 마치 학생이 교실 밖으로 나가 실제 시계탑과 손목시계를 직접 관찰하며 공부하는 것과 같습니다.

3. 해결책 2: '스왑-DPO' 학습법 (비유: "틀린 답을 고쳐주는 엄격한 선생님")

단순히 많은 사진을 보여주는 것만으로는 부족했습니다. AI 가 여전히 "시침과 분침을 헷갈린다"는 점을 고쳐주기 위해 Swap-DPO라는 특별한 학습법을 썼습니다.

  • 기존 방식: "이 시계는 3 시 30 분이야"라고 정답만 알려주는 것 (SFT).

  • 새로운 방식 (Swap-DPO):

    1. AI 가 "3 시 30 분"이라고 답했을 때, AI 가 실수로 바늘을 바꿔서 "6 시 18 분"이라고 답했다고 가정해 봅니다.
    2. AI 에게 이렇게 말합니다. "아니야! 네가 말한 6 시 18 분은 바늘을 거꾸로 본 거야. 진짜 정답은 3 시 30 분이지!"
    3. 이 과정을 반복하며 AI 에게 **"짧은 바늘은 시침, 긴 바늘은 분침"**이라는 규칙을 강하게 각인시킵니다.

    비유: 마치 아이가 "이건 사과야"라고 말했을 때, 선생님이 "아니, 이건 배야. 사과와 배는 생김새가 다르잖아?"라고 틀린 경우를 구체적으로 보여주며 가르치는 것과 같습니다.

4. 결과: 얼마나 좋아졌나요?

이 두 가지 방법 (실제 사진 교재 + 바늘 구분 훈련) 을 합치니 AI 의 실력이 비약적으로 향상되었습니다.

  • 기존 AI: 시계를 읽는 정확도가 1.4% (거의 무작위 추측 수준).
  • 새로운 AI (ITGR): 정확도가 **46.2%**로 급상승!
  • 시각적 변화: 이전에는 AI 가 시계 바늘을 보고 엉뚱한 시간을 말했지만, 이제는 실제 사진 속에서도 시계 바늘을 정확히 구분하고 시간을 읽을 수 있게 되었습니다.

5. 결론: 왜 이 연구가 중요한가요?

이 연구는 단순히 "시계 읽기"를 잘하게 한 것이 아닙니다.

  • 핵심 메시지: AI 가 **공간적 관계 (어떤 것이 위고 아래고, 어떤 것이 긴지 짧은지)**를 이해하는 능력은 단순히 많은 데이터를 쌓는다고 해결되지 않습니다. 실제 세계의 복잡함틀린 것을 구체적으로 지적하는 훈련이 필요하다는 것을 증명했습니다.

한 줄 요약:

"AI 가 시계를 못 읽는 건 가짜 그림만 봤기 때문이니, 실제 시계 사진을 보여주고 바늘을 헷갈리면 바로 지적해주는 훈련을 시켰더니, 이제 시계도 잘 읽게 되었다!"

이 기술은 앞으로 AI 가 복잡한 현실 세계의 공간적 상황을 이해하는 데 중요한 발판이 될 것입니다.