Each language version is independently generated for its own context, not a direct translation.

この論文は、**「Web サイトの『バリアフリー化』を自動で行う、新しい AI の仕組み」**について紹介しています。

専門用語を避け、わかりやすい例え話を使って解説します。

🌐 問題：Web サイトは「段差」だらけ

インターネット上の Web サイトは、車椅子の人や目が見えない人にとって、実は「段差」や「壁」だらけかもしれません。

文字と背景の色のコントラストが薄すぎる（文字が読めない）
画像に説明文がない（目が見えない人が「何の画像か」わからない）
キーボードだけで操作できない（マウスが使えない人が動かせない）

これらは「WCAG（ウェブコンテンツアクセシビリティガイドライン）」というルールで「直すべき」と定められていますが、現状の Web サイトの 96% 以上がこれらのルールを守れていません。開発者がルールを知らない、または直すのが大変だからです。

🤖 解決策：「WebAccessVL」という新しい AI

この論文では、**「WebAccessVL」**という新しい AI（視覚と言語の両方を使うモデル）を紹介しています。

1. 従来の AI の弱点：「目が見えない」

これまでの AI（テキストだけを読む AI）は、Web サイトの「コード（設計図）」だけを見て、「ここがルール違反だ」と判断していました。
しかし、**「コード上は正しいのに、画面で見ると色が薄くて読めない」**といった問題は、コードだけ見てもわかりません。

例え話：
料理のレシピ（コード）だけを見て、「味が薄い」と言えるか？
実際の料理（画面）を見て、「あ、塩が足りてないな」と言える必要があります。従来の AI はレシピしか見ていなかったのです。

2. WebAccessVL のすごいところ：「コード」と「画面」の両方を見る

この新しい AI は、**「HTML コード（設計図）」と、「その Web サイトの実際の画面（写真）」**の両方を入力として受け取ります。

コードを見て、どこを直せばいいか考える。
画面を見て、色や配置がどうなっているか確認する。

これにより、「デザインを壊さずに、見やすくする」という難しいバランスを達成できます。

🛠️ 仕組み：「違反リスト」を頼りに直す

この AI は、ただ「直して」と言うだけでなく、「どこがダメか」を詳しく教えてもらうことで、さらに賢くなります。

違反チェッカーが、Web サイトをスキャンして「ここがルール違反です」というリスト（違反報告書）を作ります。
AI はその**「違反リスト」**をヒントにして、コードを修正します。
- 「ここだけ直せばいい」というピンポイントな指示があるため、余計なところをいじってデザインを崩すのを防ぎます。
直した後に、またチェックして「まだ直っていないところ」があれば、それをまた直します（これを「ループ」と呼びます）。

例え話：
家のリフォームをする際、大工さん（AI）に「家全体を建て直して」と言うのではなく、**「玄関のドアが低くて、車椅子が入らないので直して」**という具体的なメモ（違反リスト）を渡します。
さらに、直した後に「あ、廊下の照明も暗いね」という追加メモを渡せば、さらに完璧に直してくれます。

📊 結果：劇的な改善

実験の結果、この AI は驚異的な成果を上げました。

元の Web サイト： 平均して 5.3 個のルール違反があった。
AI で直した後： 平均して0.2 個まで減った！（96% 改善）
デザイン： 元のデザインや雰囲気を90% 以上キープしたまま直せた。

他の有名な AI（GPT-5 など）と比べても、**「デザインを崩さずに、ルール違反を減らす」**という点で圧倒的に優れていました。

🎯 まとめ

この研究は、**「AI に『目』と『ルール』を教え込むことで、Web サイトを自動的に誰でも使いやすくする」**という画期的なステップです。

これにより、開発者は専門知識がなくても、簡単にアクセシビリティ（使いやすさ）の高い Web サイトを作れるようになり、障害を持つ方々にとって、インターネットがもっと使いやすくなる未来が近づきます。

一言で言うと：

「Web サイトの『バリア』を、AI が『目』で見つけて、デザインを壊さずに自動で取り除く魔法のツール」

Each language version is independently generated for its own context, not a direct translation.

WebAccessVL: Web アクセシビリティのための違反認識型 VLM

技術的サマリー（日本語）

本論文は、ウェブコンテンツアクセシビリティガイドライン 2 (WCAG2) に違反する HTML コードを、元のデザインを維持したまま自動的に修正するビジョン・ランゲージモデル（VLM）「WebAccessVL」を提案するものです。従来のテキストベースの LLM によるアプローチの限界を克服し、ウェブサイトの視覚的レンダリング情報を活用したプログラム合成タスクとして問題を定式化しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義と背景

背景: 多くのウェブページが WCAG2 の違反（色コントラスト不足、代替テキストの欠落、構造的な問題など）を抱えており、開発者が適切な知識やスキルを欠いていることが課題です。
既存手法の限界: 従来の AI によるアクセシビリティ修正は、主にテキストベースの LLM に依存しています。これらは HTML コードのみを処理するため、レンダリングされた視覚的な外観（色、レイアウト、フォントサイズなど）を考慮できず、視覚的な違反（例：色盲の人には区別できない色使い）を見逃したり、修正によって意図しないデザイン崩壊を引き起こしたりするリスクがあります。
課題: ウェブサイトのアクセシビリティ向上を、「画像条件付きプログラム合成（Image-Conditioned Program Synthesis）」として定式化し、HTML コードとその視覚的レンダリング（スクリーンショット）の両方を入力として受け取り、WCAG2 準拠かつ元のデザインを維持した修正 HTML を生成するモデルの構築です。

2. 提案手法：WebAccessVL

提案手法は、違反報告に基づいてモデルを条件付け（Conditioning）し、反復的な修正を行うパイプラインを特徴としています。

2.1 データセットの構築 (WebAccessVL)

既存の公開データセットではアクセシビリティ修正のペアデータが存在しないため、1,500 件のウェブページ HTML とそのスクリーンショットを収集しました。
専門家の手作業により、IBM のアクセシビリティチェッカーを用いて WCAG2 違反を修正し、正解データ（Ground Truth）を作成しました（1 ページあたり 7〜10 分、高度な CS 知識が必要）。
データセットには、視覚的要素に依存する違反（35.8%）とテキスト構造に依存する違反（64.2%）の両方が含まれています。

2.2 違反条件付き VLM (Violation-Conditioned VLM)

モデルは事前学習済みの VLM（例：Llama 3.2 Vision, Gemma 3 など）をベースに、以下の要素を組み合わせて微調整（SFT）します。

入力:
1. 元の HTML コード ( $x$ )
2. 視覚的レンダリング画像 ( $I$ )
3. 違反レポート ( $c$ ): アクセシビリティチェッカーで検出された違反の種類、メッセージ、コード上の位置を構造化して記述したもの。
学習目標: 違反レポート $c$ を条件として、修正後の HTML $y$ を生成する確率分布 $p_\theta(y|x, I, c)$ を最大化します。

2.3 負のガイダンスサンプリング (Negative Guidance Sampling)

生成された HTML の違反数をさらに削減するために、分類器なしガイダンス（Classifier-Free Guidance）の概念を応用した「負のガイダンス」を導入しています。

違反レポート $c$ を含む条件付きログイットと、違反レポートを含まない（無条件）ログイットの差を計算し、違反を修正する方向への重みを増幅します。
これにより、モデルは「修正すべき要素」に焦点を当て、無関係な部分を誤って変更するのを防ぎます。

2.4 ループ内チェッカー (Checker-in-the-Loop)

テスト時に反復的な修正を行う戦略です。

モデルが違反レポートに基づいて HTML を修正。
修正後の HTML を再度チェッカーにかけ、残存する違反を特定。
新しい違反レポートをモデルに入力し、再度修正。
このプロセスを収束するまで（または最大 2 回程度）繰り返すことで、1 回の実行では見逃された違反や、修正によって新たに発生した違反を捕捉・修正します。

3. 主要な貢献

タスクの定式化とデータセット: ウェブアクセシビリティを「画像条件付きプログラム合成」として捉え、手動で修正された HTML と画像のペアからなる大規模データセット「WebAccessVL」を構築・公開しました。
違反認識型 VLM の提案: 違反レポートを条件としてモデルに組み込むことで、テスト時の反復修正（Checker-in-the-Loop）を可能にし、アクセシビリティ修正の精度を大幅に向上させるアーキテクチャを提案しました。
VLM と LLM の比較検証: 視覚情報の重要性を実証し、視覚入力を持つ VLM がテキストのみの LLM よりも優れた性能を発揮すること、および提案手法が既存の商用 API モデルやオープンソースモデルを凌駕することを示しました。

4. 実験結果

1,000 件のテストセットを用いた評価結果は以下の通りです。

違反数の削減:
- 生データ（Raw Data）: 1 件あたり平均 5.34 件の違反。
- 提案手法 (Gemma 3): 0.211 件（96.0% の削減）。
- 提案手法 (Llama 3.2 Vision): 0.244 件。
- 比較対象 (GPT-5): 1.68 件。提案手法は GPT-5 よりも 87% 優れた性能を示しました。
デザイン維持性:
- 構造的忠実度（Structural Accuracy）: 提案手法は 90% 以上の精度を維持しましたが、GPT-5 は 0.5% しか維持できませんでした。GPT-5 はアクセス性を確保するためにサイト全体を再構築してしまう傾向がありましたが、提案手法は元のデザインを維持しつつ修正を行いました。
- 木編集距離（Tree Edit Distance）: 提案手法は多少の構造変更が必要ですが、視覚的な外観（SSIM）は保持されています。
障害グループへの影響:
- 視覚障害・低視覚ユーザーへの違反修正率: 98.2%
- 運動障害・キーボード操作ユーザーへの修正率: 98.2%
- 全体的な修正率: 96.0%
知覚評価: 人間の評価者による調査では、提案手法による修正後のウェブサイトは、Claude 3.5 や GPT-5 によるものよりも、元のコンテンツと視覚スタイルをよりよく維持していると判断されました。

5. 意義と結論

視覚情報の重要性: ウェブアクセシビリティの修正には、コードの文脈だけでなく、レンダリングされた視覚情報（色、レイアウト、コントラスト）の理解が不可欠であることを実証しました。
実用性: 提案手法は、開発者のスキル不足や意識の低さを補完し、法的要件（ADA や EAA）を満たすウェブサイトの作成を自動化する有力な手段となります。
プライバシーとオープンソース: 商用 API に依存せず、オープンウェイトモデルを活用することで、プライバシーを考慮したアクセシビリティ改善ソリューションを提供しています。

本研究は、VLM を活用したウェブアクセシビリティの自動化における重要な一歩であり、コードと視覚情報の統合による高度な修正能力を示すものです。

WebAccessVL: Violation-Aware VLM for Web Accessibility