Each language version is independently generated for its own context, not a direct translation.

🌟 核心となるアイデア：「手話の通訳と整理係」

これまでの手話の研究は、**「手話の動きをただの『単語』として認識する」**ことにとどまっていました。
例えば、「リンゴ」という手話を見ても、「これはリンゴだ」というだけで、その「手の形」や「動きのニュアンス」まで詳しく分析するのは、人間が一つ一つ手作業でやるしかなく、非常に時間がかかり、お金もかかるという問題がありました。

そこで登場するのがSignAgentです。
これは、単なる「認識ソフト」ではなく、**「手話の言語学者として働く AI 助手」**です。

🧩 3 つの役割を持つチームワーク

SignAgent は、一人で全てをやるのではなく、3 つの異なる役割を持つ「チーム」で動きます。

指揮者（オーケストレーター）
- 役割: 全体の司令塔。
- 例え: 楽団の指揮者や、探偵の事件解決リーダーです。
- 動き: 「この手話動画、何と言っているんだろう？」と問いかけ、必要な情報を集めるために他のメンバーに指示を出します。
知識の図書館（SignGraph）
- 役割: 手話の辞書や文法書。
- 例え: 巨大な辞書や図書館です。
- 動き: 「リンゴ」という手話の正しい「手の形」や「動き」が辞書にどう登録されているか、指揮者に教えてくれます。
道具箱（ツールセット）
- 役割: 動画の分析ツール。
- 例え: 外科医のメスや、カメラマンのズームレンズのような精密な道具です。
- 動き: 動画から「手の形」「動き」「場所」を細かく切り取って分析します。

🚀 2 つの大きな仕事（タスク）

SignAgent は、主に 2 つの難しい仕事を得意に行います。

1. 「手話の字幕」を自動でつける仕事（疑似語彙注釈）

状況: 手話の動画を見て、それを日本語（または英語）の文章に直すとき、どの単語がどのタイミングで現れたか、順序を正しく並べる必要があります。
従来の問題: AI が「リンゴ、食べる、私」を「食べる、リンゴ、私」のように順番を間違えたり、文脈を無視したりすることがありました。
SignAgent の解決策:
- 指揮者が「この動画は『私がリンゴを食べる』と言っているようだ」と推測します。
- 道具箱で「手の動き」を確認し、図書館で「リンゴ」の正しい定義と照合します。
- 「あ、この動きは『食べる』ではなく『持つ』に近いな」と判断し、文脈と証拠に基づいて単語の順序を完璧に並び替えます。
- 結果: 人間が手作業でやるよりも、はるかに速く、正確に「手話の字幕」を作成できます。

2. 「同じ言葉のバリエーション」をまとめる仕事（ID 語彙整理）

状況: 同じ「リンゴ」という言葉でも、人によって「右手でやる人」「左手でやる人」「少し大きくやる人」など、**バリエーション（違い）**があります。これらを「同じ言葉」としてグループ化するのが難しいのです。
従来の問題: 見た目（動画の画質や動きの速さ）だけで判断すると、「右手のリンゴ」と「左手のリンゴ」を別々の言葉だと勘違いして、バラバラのグループに分けてしまいがちでした。
SignAgent の解決策:
- 「見た目は少し違うけど、『手の形』や『動きのルール』は同じだ！」と、言語学的なルール（図書館の知識）を使って判断します。
- 「右手派」と「左手派」を無理やり分けるのではなく、「どちらも『リンゴ』という同じ言葉のバリエーションだ」と判断して一つにまとめます。
- 結果: 手話のデータが整理され、AI が学習しやすい「きれいな辞書」が作れます。

💡 なぜこれがすごいのか？

人間のように「考える」: 従来の AI は「パターンを覚える」だけでしたが、SignAgent は「なぜそうなのか？」を論理的に考え（Reasoning）、証拠を集めて判断します。
透明性: 「なぜこの単語をここに置いたのか？」という理由を、AI が「辞書の定義と一致したから」と説明できます。ブラックボックス（中身が見えない）な AI ではなく、**「説明可能な AI」**です。
大規模化: これまで人間が何年もかけて作っていた手話のデータベースを、SignAgent が効率的に整理・作成できるため、将来的には手話 AI の精度が飛躍的に上がることが期待されます。

🎯 まとめ

この論文は、**「手話という複雑な言語を、AI が『言語学者』として理解し、整理する新しい仕組み」**を提案したものです。

まるで、**「手話の通訳と辞書編纂を同時にこなす、超優秀な AI 助手」**が現れたようなもので、これによって手話のデジタル化や、聴覚障害者の方と AI のコミュニケーションが、もっとスムーズになる未来が描かれています。

Each language version is independently generated for its own context, not a direct translation.

SignAgent: 言語学的根拠に基づく手話注釈とデータセット作成のためのエージェント型 LLM

本論文は、大規模言語モデル（LLM）を活用した新しいエージェント型フレームワーク「SignAgent」を紹介するものです。このフレームワークは、手話（Sign Language, SL）の拡張可能な注釈付けと、言語学的に裏付けられたデータセットのキュレーションを目的としています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 背景と課題

手話は、手の形、動き、位置、向き、表情など、協調された手動・非手動の音声学的構成要素を通じて表現される豊かな視覚・ジェスチャー言語です。大規模な手話リソースの開発には、これらの構成要素が意味のある語彙単位にどのように結合するかを理解する必要があります。

しかし、従来の計算機科学における手話研究には以下の重大なボトルネックが存在します。

言語的ニュアンスの欠如: 既存の計算手法は多くの場合、「グロス（gloss）」レベル（単語対応）で動作しており、重要な言語学的ニュアンスを見落としています。
注釈のコストと速度: 詳細な言語学的注釈の作成は手作業に依存しており、非常に時間と費用がかかります（1 分の手話データに 1 時間以上を要する）。これにより、音韻論的にラベル付けされた大規模データセットの作成が困難になっています。
マルチモーダル推論の欠如: 現在のシステムは、これらのマルチモーダル信号に対して言語学的推論を行う能力に欠けています。

2. 手法：SignAgent フレームワーク

SignAgent は、言語的知識を活用した根拠ある推論を行うエージェント型フレームワークです。そのアーキテクチャは主に 3 つの核心コンポーネントで構成されています。

2.1 主要コンポーネント

SignAgent Orchestrator（調整役）:
- 推論能力を持つ LLM（デコーダ専用モデル）であり、中央制御役として機能します。
- 多段階の意思決定、ツールの呼び出し調整、SignGraph との相互作用を管理します。
- ReAct（Reason + Act）スタイルのループを実行し、推論トレース（y_t）、ツールの呼び出しまたは知識グラフへの問い合わせ（i_t）、状態の更新（x_{t+1}）を繰り返します。
SignGraph（知識基盤）:
- 検索強化生成（RAG）用にチューニングされたハイブリッド言語モデルです。
- 大規模な語彙および言語知識ベースへのアクセスを通じて、Orchestrator に言語学的根拠を提供します。
- LexicalKnowledgeGraph: 辞書項目と音声学的構成要素（手の形、動き、位置）をノードとし、それらの関係をエッジで表現。
- LinguisticKnowledgeGraph: 書籍や参考文献から抽出された言語概念（コア概念や特徴）を表現。
ツールセット（Base Tools & Enhanced Tools）:
- Base Tools（基礎ツール）: 手話動画の低レベルな言語分析を行うモジュール群（姿勢データや動画データから音声学的構成要素を抽出・分類）。
  - 例：手の形分類器、動き分類器、位置分類器、セグメンテーション、グロス検索（Glosser）、手話の lemma 化（SignLemma）など。
- Enhanced Tools（拡張ツール）: Base Tools の出力を統合し、下流タスク（擬似グロス割り当てや ID グロス化）で意思決定可能な構造化された証拠を生成します。
  - 視覚的検索と音声学的マッチングの融合、不確実性の要約、解釈可能な統計量の提供などを行います。

3. 評価タスクとワークフロー

本フレームワークは、2 つの主要な下流注釈タスクで評価されました。

タスク 1: 擬似グロス注釈（Pseudo-gloss Annotation）

目的: 翻訳されたテキスト文と対応する手話動画セグメントから、適切なグロスラベルを推論し、動画に整合する順序で配置すること。
プロセス:
1. 入力テキストに対して SignLemma ツールを呼び出し、初期グロス候補セットを取得。
2. Orchestrator が GlossEvidenceCollector などのツールを呼び出し、セグメントごとの視覚的証拠（視覚的類似度、音声学的一致、手の活動、時間的整合性、意味的文脈）を収集。
3. LLM がマルチモーダル証拠を統合し、候補の再順序付けと選択を行う。
4. 制約: 入力トークンの集合を維持し（ハルシネーション禁止）、既存の候補の並び替えのみを行う。

タスク 2: ID グロス化（ID Glossing）

目的: 同じ意味のグロス（例：「バスケットボール」）に対して、視覚的類似度と音声的重なりを推論し、語彙的変異（ID グロス）を正しく識別・グループ化すること。
プロセス:
1. 視覚的埋め込み（SignRep）に基づき、初期のクラスタリングを行う。
2. Orchestrator が Visual ID Glossing、Clustered Phonological Analysis、Handedness Detector の結果を参照。
3. クラスタ間の視覚距離、音声学的一致（Jaccard 重なり）、利き手の互換性を基に、クラスタの「統合（MERGE）」または「維持（KEEP）」を判断。
4. 辞書レベルの標準的な音声学的属性（SignGraph 経由）に基づき、統合の正当性を検証。

4. 実験結果

擬似グロス注釈（BSLCorpus データセット）

評価指標: 最長共通部分列（LCS）パーセンテージ、Kendall の $\tau$ 順位相関。
結果:
- SignAgent は、従来のベースライン（Sign2GPT Lemmatization）や LLM 調整なしの GBDT ベースライン（GBDT + fuzzy）を凌駕しました。
- 特に難易度の高いデータセット（Poor セット）において、LCS が 34.52% → 47.02%、 $\tau$ が -0.333 → 0.083 と大幅に改善され、順序付けの精度が向上しました。
- マルチモーダル証拠の集約とエージェント型 LLM の推論が、競合する証拠の解決に有効であることを示しています。

ID グロス化（ASLCitizen データセット）

評価指標: クラスタあたりの ID 数（ID/gloss）、エントロピー（H）、シルエット係数、Calinski-Harabasz 指数。
結果:
- 視覚ベースライン（SignRep）と比較して、SignAgent はクラスタの断片化を大幅に減少させました（ID/gloss: 4.81 → 2.30）。
- クラスタの品質指標（シルエット係数、Calinski-Harabasz）も向上し、より一貫性のあるクラスタが形成されました。
- 視覚的なばらつきがあっても、音声学的特徴が一致する変異を正しく統合できることが確認されました。

5. 主要な貢献

初のアプローチ: 手話注釈とデータセット作成における「エージェント型推論」の最初の適用。ツール拡張型マルチモーダル証拠と、知識基盤型検索（RAG）を組み合わせました。
タスク評価と段階的改善: 擬似グロス整合と ID グロス化という 2 つの補完的なタスクで評価し、固定パイプライン手法に対する各段階（マルチモーダル集約、LLM 推論）の寄与を定量的に示しました。
データ公開: 言語学的根拠に基づいてキュレーションされたデータを公開し、手話研究の進展を支援します。

6. 意義と限界

意義:
SignAgent は、手話注釈のボトルネックを解消し、大規模かつ言語学的に意識されたデータセット作成を可能にするスケーラブルなアプローチを提供します。LLM を単なるテキスト生成器ではなく、専門家の判断を補助する「監査可能な協力者」として位置づけ、すべての意思決定を明示的な証拠に基づかせています。

限界と今後の課題:

既存の語彙リソースとツールへの依存。
非手動要素（表情など）やプロソディ（韻律）構造の完全な捕捉がまだ不十分。
低リソースの手話言語への対応、ツールセットの拡充、ツールとコントローラーの共同最適化が今後の課題です。

総じて、SignAgent は、手話技術の拡張と、言語学的に厳密なデータ駆動型研究の実現に向けた重要な一歩です。

SignAgent: Agentic LLMs for Linguistically-Grounded Sign Language Annotation and Dataset Curation