Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Dripper 的新工具，它的核心任务非常明确：从杂乱无章的网页代码中，精准地“榨”出真正有价值的文章内容。

为了让你更容易理解，我们可以把整个互联网想象成一个巨大的、混乱的超级菜市场。

1. 痛点：为什么现在的提取工具不够好？

想象一下，你想买一把新鲜的西红柿（网页的主干内容），但当你走进菜市场（网页）时，发现：

噪音太多：到处都是叫卖声、广告横幅、卖菜的摊位装饰、甚至旁边卖鞋子的摊位（导航栏、侧边栏、广告、无关链接）。
传统工具太笨：以前的工具（启发式提取器）就像拿着剪刀的老裁缝。他们只会按死规矩剪：“凡是红色的布就剪掉，凡是带‘广告’字样的就扔掉”。但现在的网页设计千奇百怪，有时候西红柿就藏在红色的布下面，或者广告伪装成了西红柿。结果就是：要么把西红柿剪坏了，要么把广告当成了西红柿。
大模型太贵：现在的超级 AI（大语言模型）就像一位博学的老教授。他一眼就能看出哪是西红柿，哪是广告，甚至能分辨出西红柿的品种。但是，请这位教授来菜市场干活太贵了！而且，如果让他把整个菜市场（几万字的网页代码）都读一遍再慢慢挑，他可能会累晕（计算成本太高），或者因为太累而开始胡编乱造（幻觉），把不存在的西红柿也写进报告里。

2. 解决方案：Dripper 是怎么工作的？

Dripper 就像是一位训练有素的“智能分拣员”，它用了一种非常聪明的“双管齐下”策略，既快又准，还便宜。

第一步：给网页“瘦身”和“打标签” (双分支策略)

Dripper 不会直接把整个菜市场扔给分拣员看，那样太乱了。它先把网页处理成两份：

简化版菜单 (Simplified HTML)：它把菜市场里所有嘈杂的装饰、多余的架子、甚至衣服上的花纹都撕掉，只留下最核心的骨架。比如，它把“西红柿”简化成“西红柿”三个字，把“广告”简化成“广告”两个字。这样，分拣员只需要看一张薄薄的清单，而不是整个菜市场。
原始地图 (Mapping HTML)：同时，它保留了一份完整的、带详细坐标的原始地图。这份地图里保留了西红柿原本的颜色、形状和位置，但暂时不给人看。

第二步：小模型快速判断 (SLM 分类)

Dripper 请了一位年轻但聪明的分拣员（0.6B 参数的小模型，Dripper-0.6B）。

这位分拣员只看那张薄薄的“简化版菜单”。
他的任务很简单：对着清单上的每一个项目，打勾（这是主内容）或者打叉（这是噪音）。
关键点：因为清单很短，这位分拣员速度极快（每秒处理 3 页），而且因为任务被限制为“只打勾叉”，他绝对不会胡编乱造（没有幻觉）。

第三步：精准还原 (后处理)

一旦分拣员在“简化版菜单”上打好了勾叉，Dripper 就拿着这份清单，去原始地图里把对应的“西红柿”原封不动地切下来。

因为原始地图是完整的，所以切下来的西红柿依然保持着原本的新鲜度和形状（保留了 HTML 的格式、表格、代码块等）。
最后，把这些切好的西红柿拼在一起，就是一份完美的、干净的文章。

3. 为什么 Dripper 这么厉害？

快如闪电：因为它只让 AI 看“瘦身”后的菜单，而不是整个菜市场，所以它的速度比那些让大模型读全文的工具快了几十倍。
准如神眼：虽然分拣员是个“小模型”，但他经过专门的训练，专门负责“挑西红柿”。实验证明，他的准确率甚至超过了那些昂贵的“大教授”（如 GPT-5, DeepSeek 等），而且成本只有他们的零头。
不瞎编：因为它只做“选择题”（是/否），不做“作文题”（生成新内容），所以它绝不会把广告编成文章。
不仅好用，还能“教”别人：作者用 Dripper 清洗了 630 亿个单词的数据，用来训练一个新的 AI 模型。结果发现，用 Dripper 洗过的数据训练的模型，比用传统工具洗过的数据训练的模型更聪明、更懂逻辑。这证明了 Dripper 不仅是工具，更是提升 AI 智商的“营养液”。

4. 总结

Dripper 就像是一个高效的“去骨剔肉”机器。

以前的方法：要么像拿刀乱砍（容易伤到肉），要么像请米其林大厨亲自挑（太慢太贵）。
Dripper 的方法：先给食材做个X 光扫描（简化版），让 AI 快速标记出哪里是骨头（噪音），哪里是肉（内容），然后精准地把肉切下来。

它的核心贡献是：

开源了：大家都能免费用这个“智能分拣员”。
建了个标准：发布了一个叫 WebMainBench 的“考试卷”，用来公平地测试谁能把网页洗得最干净。
证明了价值：高质量的“洗菜”工作，是未来训练更强大 AI 的基础设施。

简单来说，Dripper 让从互联网上获取高质量数据这件事，变得既快、又准、又便宜。

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

1. 痛点：为什么现在的提取工具不够好？

2. 解决方案：Dripper 是怎么工作的？

第一步：给网页“瘦身”和“打标签” (双分支策略)

第二步：小模型快速判断 (SLM 分类)

第三步：精准还原 (后处理)

3. 为什么 Dripper 这么厉害？

4. 总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

核心架构流程：

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与总结 (Significance)

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

1. 痛点：为什么现在的提取工具不够好？

2. 解决方案：Dripper 是怎么工作的？

第一步：给网页“瘦身”和“打标签” (双分支策略)

第二步：小模型快速判断 (SLM 分类)

第三步：精准还原 (后处理)

3. 为什么 Dripper 这么厉害？

4. 总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

核心架构流程：

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与总结 (Significance)

类似论文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models