Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

이 논문은 웹 페이지의 주요 콘텐츠를 추출하기 위해 생성형 LLM 의 높은 비용과 할루시네이션 문제를 해결하면서도 전통적 휴리스틱 방법보다 뛰어난 정확도를 보여주는 경량화된 프레임워크 'Dripper'를 제안하고, 이를 통해 고품질 학습 코퍼스 구축과 모델 성능 향상을 가능하게 했음을 보여줍니다.

Mengjie Liu, Jiahui Peng, Wenchang Ning, Pei Chu, Jiantao Qiu, Ren Ma, He Zhu, Rui Min, Lindong Lu, Linfeng Hou, Kaiwen Liu, Yuan Qu, Zhenxiang Li, Chao Xu, Zhongying Tu, Wentao Zhang, Conghui He

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌐 웹의 거대한 도서관을 정리하는 'Dripper' 이야기

이 논문은 **"인터넷의 거대한 도서관 (웹) 에서 정말 중요한 책 (주요 내용) 만 골라내는 기술"**에 대한 이야기입니다.

지금까지의 방법들은 두 가지 극단적인 문제가 있었습니다.

  1. 구식 청소부 (기존 도구): 빠르지만, 책의 내용도 함께 버리거나 광고를 책으로 착각하는 경우가 많았습니다.
  2. 천재 사서 (거대 AI): 내용을 아주 잘 이해하지만, 너무 느리고 비싸서 도서관 전체를 정리하는 데는 쓸 수 없었습니다.

이 논문은 Dripper라는 새로운 도구를 소개하며, **"천재 사서의 눈썰미"**를 **"빠른 청소부"**에게 심어주었습니다.


🧠 핵심 아이디어: "두 가지 눈"을 가진 시스템

Dripper 는 웹페이지를 처리할 때 두 가지 다른 방식으로 동시에 작업합니다. 마치 요리사가 재료 목록완성된 요리를 동시에 관리하는 것과 같습니다.

1. 첫 번째 눈: "요약된 메뉴판" (Simplified HTML)

  • 상황: 웹페이지는 광고, 스크립트, 복잡한 디자인 등으로 가득 차 있어 AI 가 읽기엔 너무 복잡합니다.
  • Dripper 의 방법: AI 가 읽을 때는 이 복잡한 장식을 다 걷어내고, **"이게 광고야, 이게 본문이야"**만 적힌 아주 간단한 **메뉴판 (요약본)**을 만들어 AI 에게 보여줍니다.
  • 효과: AI 는 이 간결한 메뉴판만 보고도 "어, 이 부분은 중요해, 저 부분은 쓰레기야"라고 아주 빠르게 판단할 수 있습니다. (기존보다 22 배나 빠르고 저렴해짐!)

2. 두 번째 눈: "원본 요리" (Mapping HTML)

  • 상황: AI 가 "이 부분은 중요해"라고 표시를 했다고 해서, 그 부분을 잘라낼 때 원본의 모양 (글꼴, 테이블, 코드 등) 이 깨지면 안 됩니다.
  • Dripper 의 방법: AI 가 판단하는 동안, **원본 웹페이지 (요리)**는 그대로 보관해 둡니다.
  • 효과: AI 가 "여기 중요함!"이라고 표시한 번호를 원본에 대입하면, 원래의 아름다운 디자인과 구조가 그대로 살아있는 깨끗한 글만 남게 됩니다.

🍳 비유:
마치 식당에서 손님이 메뉴를 보고 주문하는 것과 같습니다.

  • 기존 방법: 손님이 복잡한 주방 전체를 구경하며 주문해야 하느라 시간이 걸리고, 실수할 확률이 높습니다.
  • Dripper 방법: 손님은 깔끔한 메뉴판만 보고 "이거 주세요"라고 주문하고, 주방은 그 주문대로 원래의 맛있는 요리를 그대로 서빙해 줍니다.

🚀 Dripper 가 가져온 4 가지 혁신

1. 🏎️ "천재도 빠르게 달릴 수 있다" (효율성)

기존의 거대 AI 는 웹페이지 하나를 읽는 데 너무 많은 전력을 썼습니다. 하지만 Dripper 는 **작은 AI (0.6B 모델)**를 사용하면서도, 입력 데이터를 깔끔하게 정리해 주어 초당 3 페이지를 처리할 수 있게 했습니다. 이는 기존 방식보다 훨씬 빠르고 저렴합니다.

2. 📚 "가장 공정한 시험지" (WebMainBench)

이 연구팀은 AI 의 능력을 제대로 평가할 수 있는 **새로운 시험지 (WebMainBench)**를 만들었습니다.

  • 기존 시험지: 오래된 문제나 애매한 정답이 많았습니다.
  • 새로운 시험지: 7,800 개 이상의 다양한 웹사이트 (뉴스, 포럼, 블로그 등) 를 인간이 직접 꼼꼼히 정답을 체크한 데이터입니다.
  • 결과: Dripper 는 이 시험에서 기존 최고의 도구들보다 훨씬 잘했고, 심지어 **최고급 상용 AI(GPT-5 등)**와 거의 비슷한 점수를 받았습니다.

3. 🌱 "더 좋은 음식 재료 = 더 맛있는 요리" (다운스트림 효과)

이건 가장 중요한 부분입니다. 연구팀은 Dripper 로 정리한 웹데이터로 **새로운 AI 모델 (1B 모델)**을 훈련시켰습니다.

  • 결과: Dripper 로 정리한 데이터로 만든 AI 는, 기존 도구로 정리한 데이터로 만든 AI 보다 훨씬 더 똑똑해졌습니다.
  • 의미: "데이터의 질이 AI 의 지능을 결정한다"는 것을 증명했습니다. Dripper 는 단순히 글을 잘 뽑아내는 게 아니라, 미래의 AI 를 더 똑똑하게 만드는 핵심 인프라 역할을 합니다.

4. 🆓 "열린 보물창고" (오픈소스)

이 모든 기술 (모델, 코드, 데이터) 을 무료로 공개했습니다. 누구나 이 도구를 써서 더 좋은 데이터를 만들 수 있게 했습니다.


💡 한 줄 요약

Dripper는 **"복잡한 웹페이지를 깔끔하게 정리해 주는 똑똑하고 빠른 도구"**로, 거대 AI 의 지능을 작은 AI 에게 심어주어 빠르고 정확하며 저렴하게 인터넷의 보물 (데이터) 을 캐낼 수 있게 해줍니다.

이제 우리는 더 이상 "빠르지만 부정확한 도구"와 "정확하지만 느린 도구" 사이에서 고민할 필요가 없습니다. Dripper가 그 모든 것을 해결해 줍니다! 🎉