Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

本論文は、n-gram 新奇性が創造性の評価指標として不適切であり、特に AI 生成テキストにおいて新奇性と実用性が逆相関する傾向があることを示し、人間の専門家による評価や LLM を評価者として用いる手法の重要性を提唱しています。

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan, Tuhin Chakrabarty

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が書いた文章の『創造性』を測る新しいものさし」**について書かれた、とても興味深い研究です。

タイトルを訳すと**「『新奇さ(新しいこと)』の死:n-gram(言葉の並び)の新しさを創造性の指標にするな」**となります。

これを、誰でもわかるような比喩を使って解説しますね。

🍳 料理の例え話:「新しい食材」だけが「美味しい料理」ではない

まず、この研究が問題にしているのは、現在の AI 評価の「勘違い」です。

  • これまでの考え方(n-gram 新奇さ):
    「その料理に使われている食材が、過去に誰も使ったことのない**『幻のキノコ』『宇宙の星屑』**なら、それは『創造的だ!素晴らしい!』」
    という考え方です。AI が「トレーニングデータ(過去の大量の文章)」にない、全く新しい言葉の並びを作れば、それを「創造的」と評価していました。

  • この論文が指摘する問題:
    「でも待って!その『幻のキノコ』と『星屑』を混ぜただけの料理が、食べられたらまずい(意味が通じない) なら、それは『創造的な料理』ではなく、ただの**『失敗作』**じゃないですか?」

論文の著者たちは、「創造性」には 2 つの柱が必要だと説いています。

  1. 新奇性(Novelty): 新鮮で、誰も見たことのないこと。
  2. 適切性(Appropriateness): 文脈に合っていて、意味が通じること(美味しく食べられること)。

🔍 研究の内容:プロの料理人(作家)に味見してもらった

著者たちは、26 人のプロの作家(小説家など)に、人間が書いた文章と AI が書いた文章を「スコープで覗くように(Close Reading)」詳しく読んでもらい、以下の 3 つを評価させました。

  1. 意味が通じるか?(文法的に正しいか)
  2. 文脈に合っているか?(話の流れが自然か)
  3. 創造的か?(新鮮で面白い表現か)

📉 驚きの発見:「新しいだけ」は危険な罠

研究結果は、AI 開発者にとって少しショッキングなものでした。

  • AI の「新しい言葉」は、91% が「創造的」ではなかった
    AI が「過去にない新しい言葉の並び」を作ろうとすると、**91% の確率で「意味が通じない」や「文脈がおかしい」**ものになっていました。

    • 例: 「椅子が恥ずかしがってささやいた」→ 言葉は新しいけど、意味が通じない(不適切)。
    • 例: 「悲しみの縫い目を縫い合わせた」→ 言葉は新しいけど、文脈が飛躍しすぎている。
  • 人間は「ありきたり」な言葉でも創造的になれる
    逆に、人間が書いた文章には、よくある言葉の並び(n-gram 新奇さが低い)でも、**「感情を深く突く」「文脈に完璧にフィットする」**ことで、プロの作家から「これは創造的だ!」と評価されるものがたくさんありました。

    • 例: 「心臓の底、血が集まる場所」→ 言葉自体は珍しくないけど、文脈の中で「悲劇の予感」として非常に創造的に機能している。

結論: 「新しい言葉」を無理やり並べただけの AI 文章は、**「奇抜なだけのおかしな料理」**でしかありません。本当の創造性は、「新鮮さ」と「美味しさ(意味の通じやすさ)」のバランスです。

🤖 AI は「料理人」としてまだ未熟

さらに、最新の AI(GPT-5 や Claude など)をプロの作家と比べたところ、AI が「創造的な文章」を書く確率は、人間よりも著しく低いことがわかりました。

AI は「新しい言葉」を出すことには長けていますが、**「その言葉が文脈の中でどう機能するか」**という、人間ならではの「勘」や「文脈理解」がまだ追いついていません。

🛠️ 今後の展望:AI に「料理の味見」をさせよう

最後に、この研究チームは「じゃあ、どうやって AI の文章の質を測ればいいの?」という問いに答えています。

  • n-gram 新奇さ(新しい言葉の量)だけで測るのはやめよう。
  • 代わりに、AI 自体に「プロの作家」になってもらって、文章の「新奇さ」と「不自然さ」を評価させる(LLM-as-a-Judge) 方法が有効だとわかりました。

最新の AI は、人間が「ここがおかしい」「ここが素晴らしい」と感じるポイントを、ある程度は理解して評価できるようになってきました。特に「不自然な部分(意味の通じない部分)」を見つけるのはまだ苦手ですが、人間のプロに近い感覚で「創造性」を測れる可能性を秘めています。

💡 まとめ

この論文が伝えたいメッセージはシンプルです。

「AI が『新しいこと』ばかり言うからといって、それが『創造的』だとは限りません。
本当の創造性とは、『新しい』だけでなく、『意味があって、しっくりくる』ことなのです。
今の AI は、まだ『変な料理』を作ってしまうことが多いので、新しい評価基準が必要です。」

私たちは、AI に「とにかく新しい言葉を使え」と命令するのではなく、「文脈に合った、意味のある新しい表現」を作れるように導いていく必要があります。