Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

本論文は、UTCO フレームワークを用いてメンタルヘルス分野の LLM に対する構造化プロンプトテストを実施し、幻覚よりも欠落が危機的状況でより頻発し、特に文脈とトーンが失敗要因として重要であることを示しました。

Congning Ni, Sarvech Qadir, Bryan Steitz, Mihir Sachin Vaidya, Qingyuan Song, Lantian Xia, Shelagh Mulvaney, Siru Liu, Hyeyoung Ryu, Leah Hecht, Amy Bucher, Christopher Symons, Laurie Novak, Susannah L. Rose, Murat Kantarcioglu, Bradley Malin, Zhijun Yin

公開日 2026-04-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「メンタルヘルス(心の健康)について AI に相談したとき、AI がどんな間違いを犯しやすいか」**を詳しく調べた研究です。

専門用語を避け、わかりやすい例え話を使って説明しますね。

🏥 物語の舞台:AI 医師と患者

想像してください。病院に行けない人々が、スマホの AI(この研究では「Llama 3.3」という AI)に「心が苦しい」「自殺したい」といった深刻な相談をしている場面です。

AI は優秀な医師のように見えますが、実は**「2 つの大きな落とし穴」**にハマりやすいことがわかりました。

  1. ハルシネーション(嘘の創作)

    • 例え: 患者が「頭痛がする」と言うと、AI が「実はあなたの頭の中に小さな妖精が住んでいて、それが原因です。この薬を飲めば治ります」と、存在しない薬や事実を勝手に作り上げて答えてしまうことです。
    • 研究結果: 全体の約 6.5% で起こりました。
  2. オミッション(重要な情報の抜け)

    • 例え: 患者が「もう生きる気力がない」と泣きながら訴えても、AI が「大丈夫、頑張れば治りますよ」と優しく共感するだけで、「すぐに専門の病院へ行ってください」という命に関わる重要なアドバイスや、救急連絡先を忘れていることです。
    • 研究結果: 全体の約 13.2% で起こりました。「嘘をつく」よりも「必要なことを言わない」ことの方が、実はもっと頻繁に起きているのです。

🔍 実験方法:UTCO という「料理のレシピ」

研究者たちは、AI がどうやって失敗するかを調べるために、**「UTCO(ユーザ、トピック、コンテキスト、トーン)」**という 4 つの要素を組み合わせた実験を行いました。

これはまるで**「料理のレシピ」**を変えて、AI という「料理人」がどう反応するかを試すようなものです。

  • U (User/ユーザ): 誰が頼んでいるか?(例:母親、学生、高齢者)
  • T (Topic/トピック): 何の相談か?(例:うつ病、不安、自殺)
  • C (Context/コンテキスト): 状況の説明はどうか?(例:短い文章 vs 長い物語)
  • O (Tone/トーン): 感情はどうか?(例:絶望的、怒り、感謝)

研究者たちは、この 4 つの要素を 2,075 通りも組み合わせて AI に質問し、答えを人間がチェックしました。


💡 発見された「3 つの驚きの事実」

1. 「誰が聞いているか」より「どう聞いているか」が重要

多くの人は、「高齢者が聞けば失敗する」「学生が聞けば失敗する」と思っているかもしれません。
しかし、この研究では**「誰が(User)」聞いているかは、失敗のリスクにはあまり関係ない**ことがわかりました。

代わりに、**「どう聞いているか(Context と Tone)」**が全てでした。

  • 長い物語のように詳細に説明されると、AI は混乱しやすくなります。
  • 絶望的・焦ったトーンで書かれると、AI は「共感」することに夢中になりすぎて、必要な「安全対策」を忘れがちになります。

例え話:
料理人に「材料を詳しく言いすぎて、かつ『今すぐ食べたい!』と急かすと、料理人は慌ててレシピを忘れる(必要な情報を抜かす)」ようなものです。誰が注文したかは関係ありません。

2. 「オミッション(抜け)」こそが最大の危険

「嘘(ハルシネーション)」は目につきますが、「抜け(オミッション)」は目立ちません。

  • 嘘: 「存在しない薬」を言われたら、「えっ?そんな薬あるの?」と気づけます。
  • 抜け: 「救急病院へ行って」と言われなかったら、ユーザーは「AI が大丈夫と言ってくれたから、このまま様子見よう」と思い、危険な状態のまま放置されてしまう可能性があります。

特に「自殺願望」や「危機的状況」の相談では、36% もの確率で重要なアドバイスが抜け落ちていました。 これが最も恐ろしい点です。

3. 複雑な文章ほど AI は「逃げ」に走る

AI は、複雑で曖昧な文章や、感情がこもった長い文章を処理するのが苦手です。

  • 文章が長くなると、AI は「どこに重点を置けばいいか」わからなくなり、「とりあえず優しく返す」ことしかできなくなります。
  • その結果、具体的な助言(例:「今すぐ 119 番してください」)が抜け落ちるのです。

🛠️ 私たちができること(結論)

この研究から、AI を安全に使うために 2 つの重要なことが提案されています。

  1. 短いテストでは不十分:
    今の AI の評価は「短い質問」でチェックされることが多いですが、それは現実の「長い悩み相談」を反映していません。「長い物語」や「感情的な相談」でも正しく答えられるかをテストする必要があります。

  2. 「抜け」を防ぐ仕組みを作る:
    AI が「絶望的」な言葉を検知したら、自動的に**「専門家へのつなぎ」や「安全情報」を必ず表示する**ような仕組み(チェックリスト)が必要です。AI 自身に「共感」させるだけでなく、「命を守る最低限の情報を忘れない」ように設計すべきです。

📝 まとめ

この論文は、**「AI は、複雑で感情的な相談をすると、嘘をつくよりも『必要なことを言わない』ことで、より大きな危険を招く可能性がある」**と警告しています。

私たちが AI に心の相談をするとき、AI が「優しい言葉」を並べても、「本当に必要な助言(病院に行く、電話する)」が含まれているかを、私たちが自分で確認する必要があるかもしれません。