Each language version is independently generated for its own context, not a direct translation.
🍽️ 문제: "모든 요리를 한 번에 하려고 하니 맛이 이상해졌다"
지금까지 문서 분석 (Document Layout Analysis) 기술은 다양한 종류의 문서 (금융 보고서, 특허 문서, 매뉴얼, 뉴스 기사 등) 를 한꺼번에 학습하려고 했습니다. 마치 한 명의 요리사에게 "이탈리아 파스타, 한국 김치찌개, 일본 스시"를 모두 동시에 만들어보라고 시킨 것과 같습니다.
하지만 문제는 이 세 가지 요리는 **재료의 배치 (레이아웃)**와 **맛의 기준 (레이블링)**이 완전히 다르다는 점입니다.
- 금융 보고서: 차트와 표가 많고 정돈되어 있어야 합니다.
- 특허 문서: 복잡한 도면과 기술 용어가 주를 이룹니다.
- 매뉴얼: 스크린샷과 단계별 설명이 중요합니다.
기존 모델은 이 모든 것을 섞어서 학습하다 보니, "이건 도면일까, 아니면 그림일까?" 하는 부분에서 헷갈리거나, "리스트 항목은 하나로 묶어야 할까, 따로따로 해야 할까?" 하는 기준이 혼란스러워져서 성능이 떨어졌습니다. (논문 Fig. 1 참조)
💡 해결책: "요리 비서 (PromptDLA) 가 요령을 알려준다"
이 논문이 제안한 PromptDLA는 바로 이 혼란을 해결해 주는 '전문 요리 비서' 같은 역할을 합니다.
문서의 종류를 먼저 파악합니다:
모델이 문서를 분석하기 전에, 비서가 먼저 "오늘은 금융 보고서를 분석하는 날이에요!"라고 알려줍니다. (이를 '도메인 인식 프롬프트'라고 합니다.)상황에 맞는 '요령 (지식)'을 제공합니다:
비서는 단순히 "금융 보고서"라고만 말하는 게 아니라, **"금융 보고서에는 보통 상단에 표가 있고, 중간에 차트가 많으며, 파란색 계열의 디자인이 자주 쓰여요"**라는 구체적인 **지식 (Descriptive Knowledge)**을 모델에게 전달합니다.- 비유: 요리사가 "오늘은 김치찌개야"라고만 들으면 막막하지만, "김치찌개는 김치를 먼저 볶고 돼지고기를 넣는 게 중요해"라는 레시피를 알려주면 훨씬 맛있게 만들 수 있죠.
모델이 그 지식을 활용해 분석합니다:
이 '요령'을 받은 모델은 이제 금융 보고서의 특성을 미리 알고 있기 때문에, "아, 이 부분은 표구나", "저 부분은 그림이 아니라 차트구나"라고 훨씬 정확하게 찾아냅니다.
🌟 이 방법의 핵심 특징
- 맞춤형 지시 (Customized Prompts): 문서의 종류 (금융, 법률, 특허 등) 나 언어 (영어, 한국어, 페르시아어 등) 에 따라 비서가 주는 지시 내용이 달라집니다. 그래서 어떤 문서든 상황에 맞게 최적의 분석이 가능합니다.
- 언어 장벽 극복: 영어뿐만 아니라 한국어, 베트남어, 페르시아어 등 다양한 언어로 된 문서도 이 '비서'가 언어별 특징을 알려주면, 모델이 언어가 달라도 문서 구조를 잘 파악할 수 있습니다.
- 표준화 문제 해결: 같은 '리스트'라는 단어라도, A 데이터셋에서는 '한 줄'로 표시하고 B 데이터셋에서는 '한 묶음'으로 표시하는 등 기준이 다를 때, 비서가 "오늘은 A 데이터셋 기준대로 분석하자"라고 알려주면 혼란을 줄일 수 있습니다.
📊 결과: "요리 실력이 대박!"
이 새로운 방식을 적용한 결과, 기존에 가장 잘하던 방법들보다 정확도가 크게 향상되었습니다.
- 금융 보고서, 특허, 매뉴얼 등 다양한 문서에서 가장 높은 점수를 받았습니다.
- 특히 모호한 부분 (예: 텍스트 박스 안에 있는 그림인지, 진짜 그림인지) 을 구분하는 능력이 비약적으로 좋아졌습니다.
🚀 결론
PromptDLA는 "모든 문서를 똑같은 눈으로 보지 말고, 문서의 종류와 특징을 미리 알려주면 훨씬 똑똑하게 분석할 수 있다"는 것을 증명했습니다.
마치 숙련된 요리사에게 "오늘의 메뉴와 레시피"를 미리 알려주면, 그날의 요리를 완벽하게 해내는 것처럼, 이 기술은 문서 분석 AI 가 어떤 문서가 오더라도 그 특성에 맞춰 가장 정확하게 분석할 수 있도록 도와줍니다. 앞으로 문서 자동화, 디지털화 분야에서 훨씬 더 똑똑한 AI 를 만나게 될 것입니다.