Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

本論文は、10 言語にわたる多言語評価を通じて、事前学習済み言語モデルが文脈や明示的な指示を与えられても、借用語と固有語を区別する能力が欠如しており、むしろ借用語に対するバイアスを示すことを明らかにした。

Mérilin Sousa Silva, Sina Ahmadi

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI(言語モデル)は、外国から入ってきた『借用語(ロウワード)』と、元々その言語にあった『純粋な言葉』を見分けることができるのか?」**という問いに答えた研究です。

結論から言うと、**「残念ながら、今の AI はその区別がほとんどできません。むしろ、借用語を好む傾向さえあります」**というのがこの研究の発見です。

わかりやすく、いくつかの比喩を使って説明しましょう。

1. 研究の舞台:「言語の料理店」

言語は、まるで巨大な料理店のようなものです。

  • 純粋な言葉(ネイティブ語): その土地で昔から作られてきた伝統的な料理(例:日本の「おにぎり」や「味噌汁」)。
  • 借用語(ロウワード): 外国から持ち込まれて、すっかり定着した料理(例:日本の「カレーライス」や「パン」)。

歴史的に、言語は他の言語から「スパイス」や「食材」を盗み(借用し)、自分たちの料理に取り入れてきました。英語の「シュガー(砂糖)」や「チョコレート」も、元々は外国語ですが、今では英語の定番メニューです。

2. 実験:「AI 料理評論家」のテスト

研究者たちは、最新の AI(大規模言語モデル)を**「料理評論家」**として雇い、以下のテストを行いました。

  • テスト内容: 料理のメニュー(文章)を見せ、「ここにある『カレーライス』は、元々日本の料理ですか?それとも外国から来た借用語ですか?」と尋ねます。
  • 対象: 中国語、フランス語、ドイツ語など、10 種類の異なる言語(10 種類の異なる料理店)。
  • 方法:
    1. ゼロショット: 何も教えずに「見分けて」と頼む。
    2. ファインチューニング(学習): 正解例をたくさん見せてから「見分けて」と頼む。

3. 結果:AI は「借用語盲」だった

結果は衝撃的でした。

  • AI の失敗: どの AI も、借用語と純粋な言葉を見分けるのが非常に苦手でした。正解率は 50% 前後(ほとんど当てずっぽうに近い)でした。
  • AI の偏見: 面白いことに、AI は**「借用語」の方を好む傾向**がありました。
    • 例:フランス語で「契約(accord)」という純粋な言葉があるのに、AI は「ディール(deal)」という英語由来の言葉の方が「自然で正しいフランス語」だと感じてしまうのです。
    • 比喩: AI は「伝統的なおにぎり」よりも「カレーライス」の方が、より「本物の日本料理」だと勘違いしているような状態です。

4. なぜ失敗したのか?3 つの落とし穴

AI が間違えた理由を、3 つのシチュエーションで説明します。

  • ① 「観光客」と「定住者」の区別がつかない

    • 現象: 会話の中で一時的に外国語を使うこと(コードスイッチング)と、完全に定着した借用語を混同しました。
    • 例: クルド語の会話で「Really(本当に)」という英語を挟んだ場合、AI はこれを「借用語(定住者)」だと誤認しました。実際には、それは一時的な「観光客(コードスイッチング)」に過ぎないのです。
    • 比喩: 街中で一時的に訪れた観光客を、その街の住人だと勘違いしてしまうようなものです。
  • ② 「固有名詞」を「外国語」と誤解する

    • 現象: 国名や組織名(NASA など)を、外国から来た言葉だと誤って判定しました。
    • 例: ドイツ語の「PISA-Studie(PISA 調査)」という固有名詞を、AI は「外国語の借用語」としてマークしてしまいました。
    • 比喩: 「東京」という名前を見ても、「これは外国の地名だ!」と勘違いしてしまうような状態です。
  • ③ 「科学用語」のルーツに惑わされる

    • 現象: 科学用語はラテン語やギリシャ語由来が多いですが、それらはすでに完全にその言語に溶け込んでいます。しかし、AI は「語源が外国だから借用語だ!」と過剰に反応しました。
    • 例: 日本語の「科学」やフランス語の「哲学」のように、定着している言葉でも、AI は「これは外国語だ!」と誤判定しました。
    • 比喩: 何百年も前に輸入された「醤油」を見て、「これはまだ外国の調味料だ!」と騒いでいるようなものです。

5. 結論と今後の課題

  • 結論: 今の AI は、言葉の「ルーツ(歴史)」や「文脈(どう使われているか)」を深く理解できていません。表面的な文字の並びや、語源の知識だけで判断してしまい、「借用語」を見分けることができません。
  • 意味: 少数派の言語を守ろうとする際、AI ツールを使うと、逆に「外国語(借用語)」ばかりを推奨してしまい、純粋な言葉が失われる恐れがあります。
  • 今後の展望: AI に「借用語」を見分けさせるには、単に正解を教えるだけでなく、「その言葉がコミュニティでどう使われているか」という社会的な文脈まで理解させる必要があります。

まとめると:
今の AI は、言語の「歴史」や「文化」を深く理解する賢い学者ではなく、「外国っぽい言葉を見ると、ついついそれっぽく見えてしまう」という、少し偏見を持った初心者のような状態です。この「借用語盲」を治すことが、今後の AI 開発の重要な課題となっています。