Logics-Parsing-Omni Technical Report

이 논문은 문서, 이미지, 오디오·비주얼 스트림의 이질적인 비정형 데이터를 기계가 읽을 수 있는 구조화된 지식으로 변환하기 위해, 전역적 감지에서 국소적 인식, 논리적 해석까지 이어지는 계층적 파싱 프레임워크인 '오미 파싱 (Omni Parsing)'과 이를 검증하는 벤치마크 및 모델을 제안합니다.

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin Qu

게시일 Wed, 11 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

알리바바의 '오미 파싱 (Omni Parsing)': 눈과 뇌를 하나로 잇는 마법 같은 해석자

이 논문은 알리바바의 '로직스 (Logics)' 팀이 발표한 **'오미 파싱 (Omni Parsing)'**이라는 새로운 기술에 대한 보고서입니다. 복잡한 문서, 이미지, 오디오, 비디오를 보고 듣고 이해하는 인공지능 (AI) 의 능력을 한 단계 업그레이드한 이야기입니다.

이 기술을 쉽게 이해하기 위해 우리가 책을 읽거나 영화를 볼 때의 경험에 비유해 보겠습니다.


1. 왜 이 기술이 필요할까요? (기존의 문제점)

지금까지의 AI 는 두 가지 극단적인 성향을 보였습니다.

  • 형식만 보는 AI (OCR): 책의 글자를 하나하나 인식하거나 그림의 위치만 정확히 알려줍니다. 하지만 "이 그림이 왜 중요한지", "이 데이터가 어떤 흐름을 보여주는지"는 모릅니다. 마치 글자만 외운 채 내용을 모르는 학생 같습니다.
  • 내용만 말하는 AI (생성형): "이 그림은 아름다운 풍경을 보여줍니다"라고 유창하게 설명합니다. 하지만 "저기 왼쪽 구석에 있는 표의 숫자는 50% 입니다"처럼 **구체적인 사실 (위치, 숫자, 구조)**은 잘 못 찾거나, 아예 없는 사실을 지어내기도 (할루시네이션) 합니다. 마치 상상력은 풍부하지만 사실을 무시하는 시인 같습니다.

문제: 우리는 이 두 가지가 모두 필요한 경우가 많습니다. (예: "이 강의 영상에서 3 분 10 초에 나온 표의 데이터를 추출해서 요약해줘"와 같은 요청)

2. 오미 파싱 (Omni Parsing) 이란 무엇인가요?

이 기술은 "눈 (지각)"과 "뇌 (이해)"를 완벽하게 연결해 줍니다.

비유: "정밀한 건축가이자 철학자"

기존 AI 가 그림을 볼 때 "아, 저기 사람 있어요"라고 대충 말한다면, 오미 파싱은 다음과 같이 작동합니다.

  1. 건축가 (L1): "사람이 그림의 왼쪽 30% 지점에 서 있고, 키는 180cm 입니다." (정확한 위치와 구조 파악)
  2. 해석자 (L2): "그 사람은 붉은색 셔츠를 입고 있고, 손에는 커피를 들고 있습니다." (세부 정보와 텍스트 인식)
  3. 철학자 (L3): "그 사람은 회의에 늦어서 당황한 표정으로 커피를 마시며 뛰어오고 있습니다." (전체적인 맥락과 논리 연결)

이 모든 과정을 **하나의 표준화된 형식 (JSON)**으로 정리해서, 컴퓨터가 다시 읽을 수 있게 만들어줍니다.

3. 어떻게 작동하나요? (3 단계 학습 과정)

이 AI 를 가르치는 방법은 두 단계의 훈련을 거칩니다.

  • 1 단계: 거대한 도서관 방문 (지식 확장)
    • 1,600 만 개의 다양한 이미지, 문서, 영상 데이터를 보여줍니다.
    • 목표: 세상의 모든 것을 눈으로 보고 "무엇이 있는지"를 빠르게 파악하는 기본 체력을 기릅니다.
  • 2 단계: 정밀한 훈련 (논리 정립)
    • 이제 500 만 개의 고품질 데이터를 보여줍니다.
    • 목표: 단순히 "무엇이 있는지"를 넘어, "그것들이 어떻게 연결되어 있는지"를 논리적으로 추론하고, 그 근거를 정확한 위치에 표시하는 법을 배웁니다.

이 과정을 통해 AI 는 **사실 (Evidence)**에 기반하여 논리를 펼치는 능력을 갖게 됩니다.

4. 어떤 일을 할 수 있나요? (실제 사례)

이 기술은 문서, 이미지, 오디오, 비디오를 모두 다룰 수 있습니다.

  • 문서 (Document): 복잡한 보고서에서 표 (Table) 나 수식을 찾아내고, 그 의미를 해석하여 요약해 줍니다.
  • 그래픽 (Graphics): 차트나 도면을 보고 "이 선이 2023 년에 급격히 올랐네?"라고 분석하고, 그 데이터를 엑셀 파일처럼 정확하게 추출해 줍니다.
  • 오디오 (Audio): 강의 녹음 파일에서 "화자는 A 씨이고, 배경에 비가 내리는 소리가 들립니다"라고 구분해 줍니다.
  • 비디오 (Video): 교육 영상을 보고 "3 분 10 초에 교수님이 칠판에 쓴 공식을 캡처하고, 그다음 5 분에 설명한 내용을 요약해 줍니다"라는 복잡한 요청도 처리합니다.

5. 왜 이것이 중요한가요? (핵심 가치)

이 기술의 가장 큰 장점은 **"근거 (Evidence) 에 기반한 답변"**을 준다는 점입니다.

비유: "증거가 있는 변호사"

일반적인 AI 가 "그림에 개가 있어요"라고 말하면, 오미 파싱은 **"그림의 (x, y) 좌표에 있는 개가 있습니다"**라고 말합니다.

만약 AI 가 틀린 답을 했다면, 우리는 **"어디서 (어떤 위치의) 데이터를 잘못 읽었는지"**를 바로 찾아낼 수 있습니다. 이는 AI 가 만든 정보를 신뢰하고, 검색하거나 다시 사용할 수 있게 만들어줍니다.

6. 결론: AI 의 새로운 시대

이 논문은 알리바바가 Logics-Parsing-Omni라는 모델을 공개하고, 이를 평가할 수 있는 OmniParsingBench라는 시험 문제를 만들었다고 발표합니다.

기존의 AI 가 "대충 아는 것"을 넘어, "정확하게 보고, 논리적으로 이해하며, 근거를 제시하는" 진정한 지식의 파트너가 될 수 있음을 보여줍니다. 앞으로 이 기술은 교육, 법률, 의료, 연구 등 정확한 정보가 생명인 분야에서 큰 혁신을 일으킬 것으로 기대됩니다.

한 줄 요약:

"오미 파싱은 AI 에게 '눈'을 뜨게 하고, '사실'을 근거로 '논리'를 펼치게 하여, 복잡한 정보를 누구나 믿고 쓸 수 있는 지식으로 바꿔주는 기술입니다."