FireRed-OCR Technical Report

本論文は、一般の VLM を高品質な OCR 専門モデルへと変換する「FireRed-OCR」フレームワークを提案し、幾何学的特徴と意味情報を組み合わせたデータファクトリーと、3 段階の段階的学習戦略(マルチタスク事前整合、SFT、GRPO)を採用することで、OmniDocBench v1.5 において DeepSeek-OCR 2 や OCRVerse を凌ぐ SOTA 性能を達成したことを報告するものです。

Hao Wu, Haoran Lou, Xinyue Li, Zuodong Zhong, Zhaojun Sun, Phellon Chen, Xuanhe Zhou, Kai Zuo, Yibo Chen, Xu Tang, Yao Hu, Boxiang Zhou, Jian Wu, Yongji Wu, Wenxin Yu, Yingmiao Liu, Yuhao Huang, Manjie Xu, Gang Liu, Yidong Ma, Zhichao Sun, Changhao Qiao

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🔥 ファイアレッド OCR:文書を読み解く「天才的な新人」の育て方

こんにちは!今日は、Xiaohongshu(小紅書)社の研究チームが開発した**「FireRed-OCR(ファイアレッド OCR)」**というすごい技術について、難しい専門用語を使わずに、わかりやすくお話しします。

イメージしてください。
今、AI には「何でもできる天才(汎用 AI)」がたくさんいます。彼らは絵を見たり、話を聞いたりするのが得意です。でも、**「複雑な書類を、Excel の表や数式として完璧に読み取る」**という仕事になると、急にミスをするんです。

例えば、表の行がバラバラになったり、数式が意味不明な文字列になったりします。これを論文では**「構造的な幻覚(Structural Hallucination)」**と呼んでいます。「何かを見て、勝手に想像して答えてしまう」状態ですね。

FireRed-OCR は、この「何でもできる天才」を、**「書類の構造を完璧に理解するプロの職人」**へと変身させるためのトレーニング方法です。


🏭 1. 材料工場:「幾何学+意味」のデータ工場で高品質な燃料を作る

AI を育てるには、たくさんの「勉強用教材(データ)」が必要です。でも、ただランダムに本を集めても、AI は偏った知識しか身につけません。

  • 従来の方法: 本をランダムに選ぶ。→ 簡単な文章ばかり集まってしまう。
  • FireRed-OCR の方法: 「幾何学+意味」のデータ工場を作りました。

【アナロジー:料理の材料選び】
普通の料理人は「とりあえず野菜を袋から出す」かもしれませんが、この工場は違います。

  1. 形(幾何学)で分類: 「表が多いページ」「縦書きのページ」「複雑なレイアウトのページ」を、AI が形だけで見分けて分類します。
  2. 意味でタグ付け: 「法律文書」「数学の教科書」「手書きのメモ」など、内容もタグ付けします。

これにより、「難しいけど重要なページ(長尾のデータ)」を見逃さず、バランスの取れた「高品質な教材」を大量に作ります。さらに、AI 自体が「難しい問題」を見つけ出し、より高度な AI(先生)に添削させて、**「完璧な正解例」**に仕上げます。


🎓 2. 3 段階のトレーニング:「職人」になるまでの成長物語

FireRed-OCR は、AI を 3 つの段階で育てます。いきなり難しいことをさせるのではなく、段階を踏んで「しつける」のです。

ステージ 1:「目」を鍛える(マルチタスク・プリアライメント)

  • 何をする? AI に「この文字はどこにある?」「この枠はどこまで?」と、ピクセル単位で正確に指し示す練習をさせます。
  • アナロジー: 料理人になる前に、まず「包丁の持ち方」や「食材の切り方」の基本を徹底的に練習する段階です。いきなり「高級料理を作れ」とは言いません。

ステージ 2:「型」を覚える(専門的な SFT)

  • 何をする? 読み取った文字を、「Markdown(マークダウン)」という決まったフォーマットで出力する練習をします。表なら表、数式なら数式として、きっちり整えるのです。
  • アナロジー: 基本ができたので、次は「レシピ通りに料理を作る」練習です。「塩は小さじ 1」「火加減は中火」というルールを厳守するように訓練します。

ステージ 3:「厳格な審査」を通す(GRPO による強化学習)

  • 何をする? ここが最大の特徴です。AI が作った答えに対して、「ルール違反がないか」を自動でチェックする審査員がいます。
    • 表の行が揃っているか?
    • 数式がエラーなく動くか?
    • タグが閉じられているか?
  • アナロジー: 料理人が作った料理を、「厳しいシェフ(審査員)」が試食します。「ソースが溢れている」「盛り付けが崩れている」と指摘され、**「ルール通りに作れたらご褒美、間違ったら減点」**というゲーム形式で、AI 自身に「自分で間違えを直す力」を身につけさせます。

🏆 3. 結果:小さな体が、巨大な天才に勝つ!

このトレーニングを受けた FireRed-OCR は、**「OmniDocBench v1.5」**という世界最高峰の書類読み取りテストで、92.94 点という驚異的なスコアを叩き出しました。

  • 驚き: このモデルは、パラメータ数(脳のサイズ)が20 億(2B)と、GPT-4 や Gemini などの巨大モデル(数百億〜数千億)に比べて非常に小さいのに、最も高いスコアを記録しました。
  • 意味: 「大きくて何でもできる AI」よりも、「書類読み取りに特化して厳しく鍛えられた AI」の方が、この分野では圧倒的に上手いことが証明されました。

🌟 まとめ

FireRed-OCR は、**「AI に『勘』ではなく『ルール』と『経験』を教える」**という新しいアプローチです。

  • バランスの取れた教材で基礎を固め、
  • 厳格なルールで型を覚えさせ、
  • 自動審査でミスを修正させる。

この「3 段階トレーニング」によって、AI は複雑な書類でも、表や数式を完璧に再現できるようになりました。これは、AI を「何でもできる天才」から「特定の分野の超プロ」へと変えるための、新しい教科書のようなものです。

これで、将来の AI は、あなたの複雑な請求書や研究論文を、人間が手作業で直す必要なく、完璧な Excel や PDF に変換してくれるようになるかもしれませんね!