On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

이 논문은 폐쇄형 행동 이해를 위해 생성형 분류기의 비효율성과 모호성을 해결하고 정확도와 효율성을 동시에 향상시키기 위해 미세조정 단계에서만 작동하는 '생성 보조 판별형 (GAD)' 분류기를 제안하고, 다양한 벤치마크에서 기존 생성형 방법보다 우수한 성능을 입증합니다.

Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener, Angela Yao

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

영상 속 행동을 이해하는 AI: "글쓰기" vs "선택하기"의 대결

이 논문은 Multimodal Large Language Models(MLLMs, 멀티모달 대형 언어 모델) 이 비디오 속의 행동을 어떻게 이해하고 분류하는지에 대한 흥미로운 연구를 다룹니다. 쉽게 말해, **"AI 가 비디오를 보고 '무엇을 하고 있는지'를 설명할 때, 직접 글을 써서 말하는 것 (Generative) 과 미리 정해진 답지 중에서 고르는 것 (Discriminative) 중 어떤 방식이 더 빠르고 정확한가?"**를 탐구한 것입니다.

이 복잡한 연구 내용을 일상적인 비유로 쉽게 풀어보겠습니다.


1. 두 가지 방식의 차이: "작가" vs "시험 감독"

비디오 속의 행동을 인식하는 AI 에게 두 가지 접근 방식이 있습니다.

  • 생성형 분류기 (Generative Classifier) = "글쓰기 작가"

    • 방식: AI 는 비디오를 보고 "이 사람은 무엇을 하고 있나요?"라고 물으면, 직접 글자를 하나씩 이어가며 답변을 작성합니다.
    • 예시: "양파를 넣는다 (add onion)"라고 답해야 한다면, AI 는 add -> onion 순서로 단어를 하나씩 뱉어냅니다.
    • 문제점:
      1. 느림: 글자를 하나씩 써야 하므로 시간이 오래 걸립니다. (비유: 시험 문제를 풀 때, 지문을 읽고 답을 직접 문장으로 써야 하는 경우)
      2. 혼동: 비슷한 단어가 섞여 있으면 헷갈립니다. "양파를 넣다 (add onion)"와 "쌀을 넣다 (add rice)"는 'add(넣다)'라는 단어가 공통입니다. AI 는 이 공통된 부분 때문에 두 행동을 헷갈려 할 수 있습니다.
  • 판별형 분류기 (Discriminative Classifier) = "시험 감독"

    • 방식: AI 는 비디오를 보고 미리 준비된 답지 (정답 목록) 중에서 가장 적합한 하나를 바로 선택합니다.
    • 예시: "양파를 넣다"라는 답을 고르면, 글자를 하나씩 쓰지 않고 한 번에 그 답을 가리킵니다.
    • 장점:
      1. 빠름: 글자를 쓰지 않고 바로 선택하므로 속도가 매우 빠릅니다. (비유: 객관식 문제를 풀 때, 답안지에 O 를 찍는 것)
      2. 명확함: 'add'라는 공통 단어로 인한 혼란이 없습니다. 각 행동은 고유한 '코드'처럼 다뤄지기 때문입니다.

2. 연구의 핵심 발견: "선택하기"가 더 낫다!

저자들은 실험을 통해 판별형 (선택하기) 방식이 생성형 (글쓰기) 방식보다 정확도도 높고 속도도 훨씬 빠르다는 것을 증명했습니다.

  • 비유: "양파를 넣다"와 "양파를 자르다"를 구분할 때, 글쓰기 방식은 '양파'라는 공통 단어 때문에 헷갈려 실수할 수 있지만, 선택하기 방식은 두 행동이 완전히 다른 '정답 카드'로 구분되므로 실수가 적습니다.
  • 결과: 판별형 방식은 생성형 방식보다 정확도가 2.5%~6.8% 더 높았고, 속도는 최대 3 배까지 빨라졌습니다.

3. 새로운 해결책: GAD (생성 보조 판별형)

그렇다면 "글쓰기"의 장점 (세밀한 의미 이해) 을 버리고 "선택하기"만 쓰는 게 최선일까요? 저자들은 **"둘 다 섞자!"**는 아이디어를 냅니다. 이것이 바로 **GAD(Generation-Assisted Discriminative)**입니다.

  • GAD 의 작동 원리:

    1. 학습할 때 (훈련): AI 는 두 가지 일을 동시에 합니다.
      • 주임 (판별형): 비디오를 보고 정답을 선택합니다. (이게 최종 목표)
      • 보조 (생성형): 정답을 선택하는 과정에서, 왜 그 답을 선택했는지 설명하는 글을 잠시 써보게 합니다. (예: "이건 '양파를 넣는' 행동이야, 왜냐하면...")
    2. 실제 사용 시 (추론): 보조 역할인 '글쓰기'는 끄고, 오직 '선택하기'만 사용합니다.
  • 비유:

    • 마치 수험생이 시험을 볼 때, 문제를 풀기 전에 스스로 설명을 적어보며 개념을 정리한 뒤, 실제 시험지에는 정답만 빠르게 체크하는 것과 같습니다.
    • 설명을 적어보는 과정 (생성) 이 개념을 더 깊이 이해하게 도와주지만, 실제 시험에서는 그 설명을 쓰느라 시간을 낭비하지 않고 빠르게 답을 고릅니다.

4. 결론: 왜 이 연구가 중요한가?

이 연구는 AI 가 비디오를 이해하는 방식을 혁신적으로 바꿉니다.

  1. 효율성: AI 가 비디오를 실시간으로 분석할 때, 불필요한 글쓰기 과정을 없애 속도를 획기적으로 높였습니다.
  2. 정확성: 비슷한 행동들 (예: '양파 넣기' vs '소금 넣기') 을 더 명확하게 구분하게 되었습니다.
  3. 유연성: 학습 단계에서는 AI 가 스스로 설명하며 배우게 하고, 실제 적용 때는 빠르게 판단하게 하여 가장 좋은 두 마리 토끼를 다 잡았습니다.

한 줄 요약:

"비디오 속 행동을 이해할 때, AI 가 글을 써서 설명하는 것보다 미리 정해진 답지 중에서 바로 고르는 것이 훨씬 빠르고 정확하며, 여기에 '설명하기' 훈련을 살짝 섞어주면 더 똑똑해진다!"

이 기술은 실시간 비디오 분석, 로봇의 행동 이해, 자동화된 영상 콘텐츠 분석 등 다양한 분야에서 AI 의 성능을 크게 끌어올릴 것으로 기대됩니다.