Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 問題：黒い箱（ブラックボックス）の探偵たち

これまで、AI が「これは比喩だ！」と判断するときは、まるで**「魔法の黒い箱」**の中にいる探偵のようでした。

結果： 「これは比喩です！」と正解を言います。
欠点： 「なぜそう思ったの？」「どこがヒントだったの？」という理由（レシピ）を教えてくれません。

特に中国語は、英語のような「語尾の変化」がないため、文脈や知識がないと「本当の意味」と「例えの意味」の区別が非常に難しいです。なのに、AI が「正解」だけ出して理由を言わないと、私たちは「本当に正しいのか？」と疑うしかありません。

🛠️ 2. 解決策：透明な「レシピ本」を作る

この研究では、AI（大規模言語モデル）を「魔法の箱」ではなく、**「厳格なレシピに従って料理するシェフ」**として使いました。

著者たちは、比喩を見つけるための**4 つの異なる「レシピ（ルール）」**を用意しました。

レシピ A（辞書チェック）： 言葉の「基本の意味」と「今の文脈での意味」を辞書で比べる。
レシピ B（イメージのつなぎ合わせ）： 「何を（A）」「何に例えている（B）」という関係を見つける。
レシピ C（感情のズレ）： 言葉の「感情の色」がおかしい（例：悲しいのに明るい言葉）ところを探す。
レシピ D（「～のような」探し）： 「～のような」「～みたい」という言葉を探す。

AI は、これらのレシピを**「実行可能なプログラム（スクリプト）」**として書き出し、人間が誰でも読み返せるようにしました。

ポイント： AI が「勘」で判断するのではなく、「ステップ 1 で A を確認し、ステップ 2 で B と比較したから、比喩だと判断した」という透明な証拠を毎回出します。

📊 3. 驚きの発見：「誰が料理するか」より「どんなレシピか」が重要

7 つの異なる中国語のデータセットを使って実験したところ、最も大きな発見が生まれました。

AI の性能差は小さい： 使う AI モデルを変えても、結果はあまり変わりませんでした。
レシピの違いが巨大： 「どのレシピ（ルール）を使うか」によって、結果が劇的に変わりました。

【例え話】
同じ「トマト」を料理する際、

レシピ A（イタリアン）： 「これはトマトだ！」と見つける。
レシピ B（デザート）： 「トマトは甘い果物だ」と見つける。
レシピ D（サラダ）： 「トマトは赤い野菜だ」と見つける。

これらはすべて「トマト」ですが、「何を探すか（レシピ）」によって、見つけるものが全く違うのです。
研究では、レシピ A とレシピ D を比べると、**「一致度がほぼゼロ（0.001）」**でした。つまり、一方が「比喩だ！」と言うものを、もう一方は「ただの事実だ」と判断していたのです。

💡 4. 何がすごいのか？（透明性のメリット）

このシステムは、従来の AI より「正解率（F1 スコア）」が少し低いかもしれませんが、**「透明性」**という点で圧倒的に優れています。

100% 再現可能： 同じレシピを使えば、いつでも同じ結果が出ます（偶然のブレがない）。
修正可能： 「ここが間違っていた！」と思ったら、レシピ（プログラム）を人間が直接書き換えて修正できます。
理由がわかる： 「なぜ比喩だと思ったか」が、レシピのステップとして明確に残ります。

これは、**「AI に任せる」のではなく「AI を道具として使い、人間がルールを管理する」**という新しい姿勢です。

🎯 5. まとめ：比喩を見つける「正解」は一つじゃない

この論文が伝えたい一番のメッセージはこれです。

「比喩を見つけること」に、たった一つの『正解』はありません。
「何を重視するか（辞書か、感情か、構造か）」によって、答えは変わります。

だから、AI の性能を競うだけでなく、「どんなルール（レシピ）で判断しているのか」を明確にして、人間がその理由を理解できるシステムを作ることが、これからの AI には必要だと説いています。

一言で言うと：
「魔法の箱に任せて『正解』をもらうのではなく、『なぜそう思ったか』がわかる透明なレシピ本を AI に作らせて、人間がそれをチェックして使う時代が来たよ！」というお話です。

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

🕵️‍♂️ 1. 問題：黒い箱（ブラックボックス）の探偵たち

🛠️ 2. 解決策：透明な「レシピ本」を作る

📊 3. 驚きの発見：「誰が料理するか」より「どんなレシピか」が重要

💡 4. 何がすごいのか？（透明性のメリット）

🎯 5. まとめ：比喩を見つける「正解」は一つじゃない

1. 研究の背景と課題

2. 提案手法：LLM 支援型ルールスクリプト生成パイプライン

実装された 4 つのプロトコル

システムアーキテクチャ

3. 実験設定とデータセット

4. 主要な結果

4.1 プロトコル内評価（Within-Protocol）

4.2 プロトコル間比較（Cross-Protocol）

4.3 解釈性評価

5. 考察と意義

6. 結論

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

🕵️‍♂️ 1. 問題：黒い箱（ブラックボックス）の探偵たち

🛠️ 2. 解決策：透明な「レシピ本」を作る

📊 3. 驚きの発見：「誰が料理するか」より「どんなレシピか」が重要

💡 4. 何がすごいのか？（透明性のメリット）

🎯 5. まとめ：比喩を見つける「正解」は一つじゃない

1. 研究の背景と課題

2. 提案手法：LLM 支援型ルールスクリプト生成パイプライン

実装された 4 つのプロトコル

システムアーキテクチャ

3. 実験設定とデータセット

4. 主要な結果

4.1 プロトコル内評価（Within-Protocol）

4.2 プロトコル間比較（Cross-Protocol）

4.3 解釈性評価

5. 考察と意義

6. 結論

関連論文

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance