Show Your Work: Verbatim Evidence Requirements and Automated Assessment for Large Language Models in Biomedical Text Processing

⚕️

これは査読を受けていないプレプリントのAI生成解説です。医学的助言ではありません。この内容に基づいて健康上の判断をしないでください。免責事項の全文を読む

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 物語：「証拠なしの探偵」vs「証拠付きの探偵」

想像してください。あなたが探偵（AI）に、ある事件（がんの臨床試験）の犯人（対象患者）を特定してほしいと頼んだとします。

パターンA（従来のやり方）：
探偵は「犯人は A さんです！」とだけ答え、なぜそう思ったかは言いません。
- 結果： 正解率が高いこともありますが、もし間違っていたら、なぜ間違えたのか、どこを勘違いしたのか、誰もわかりません。
パターンB（この研究のやり方）：
探偵に**「『犯人は A さんです』と答えるだけでなく、その根拠となる『事件報告書の原文』をそのままコピーして貼り付けなさい」**とルールを変えました。
- ルール： 貼り付けた文章は、報告書から一字一句変えずに取ってきたものでなければなりません（機械的にチェック可能）。

この研究は、この**「証拠（原文）を提示させるルール」**が、AI の性能や信頼性にどう影響するかを調べました。

🔍 実験の内容：3 人の「超天才探偵」

研究者たちは、最新の AI 3 社（OpenAI の GPT、Google の Gemini、Anthropic の Claude）を「探偵」として雇いました。
彼らに、がんの臨床試験の「タイトルと要約（アブストラクト）」だけを見せ、**「この試験は、がんが局所的な人向けか、転移している人向けか、両方か？」**を判断させました。

条件 1： 答えだけ出す。
条件 2： 答え＋「報告書から取ってきた証拠の文章」を出す。

さらに、AI が「証拠」を提示したとき、その文章が本当に報告書から取られたものか（コピペか）、そしてその文章が答えを正当に裏付けているかを、別の AI にチェックさせました。

📊 発見された驚きの結果

1. 「証拠を出せ」と言うと、AI は慎重になりすぎた

証拠を出すルールを設けると、AI は「証拠が見つからないかもしれない」と判断して、**「わかりません（辞退）」**と答える回数が増えました。

比喩： 以前は「なんとなく A さんだ！」と即答していたのが、「証拠が見つからないなら、無理に答えないでおこう」という慎重な姿勢になったのです。
メリット： 自信のない回答が減るため、「答えたもの」の信頼性は上がりました。
デメリット： 全体の回答数（カバー率）は少し減りました。

2. 「証拠」はあっても、嘘つきな場合がある

AI が提示した「証拠の文章」は、報告書からそのままコピーされた（機械的に正しい）ものでしたが、**「その文章が本当に答えを裏付けているか？」**という点では、半分くらいは怪しいことがわかりました。

比喩： 探偵が「犯人は A さんです！証拠は『A さんが現場にいた』という証言です」と言っても、実はその証言は「A さんが現場の近くを通りかかった」という意味で、犯人の証拠にはならない……といった**「文脈のズレ」**が起きました。
重要： 「証拠を提示できること」と「その証拠が正しいこと」はイコールではないのです。

3. AI によって性格が違った

GPT と Gemini： 証拠を出すルールで、少しだけ正解率が上がりました。
Claude： 逆に、証拠を出すルールで正解率が下がりました。
比喩： 探偵の性格がそれぞれ違うように、AI モデルによっても「証拠を出すこと」への適性が異なることがわかりました。

4. 「証拠チェック」をもう一人の探偵に任せる

研究では、最初の探偵の答えと証拠を、**「審査員（別の AI）」**にチェックさせました。

「この証拠、本当に答えを裏付けている？」と審査員に聞くと、**「審査員が OK と言ったものだけ」**を選り抜くと、正解率がさらに跳ね上がりました。
メリット： 間違いを減らせます。
デメリット： 審査員に「証拠不足」と判断されて却下されるものが増えるため、使える答えの数は減ります。

💡 この研究が教えてくれること（結論）

この研究は、医療 AI を使う上で重要な**「2 つの教訓」**を教えてくれます。

「証拠（引用）」は信頼の「お守り」になる
AI に「根拠を示せ」と言うだけで、AI は勝手に慎重になり、自信のない回答を減らします。また、人間が「なぜそう判断したのか」を確認できるため、「ブラックボックス（中身が見えない箱）」だった AI の判断が、透明になります。
「証拠がある＝正しい」ではない
証拠を提示できても、それが本当に意味をなしているかは別問題です。そのため、**「証拠の質をチェックするフィルター」**をもう一つ挟むことで、より安全で信頼性の高い「高品質な答え」だけを取り出すことができます。

🏁 まとめ：どう使うべきか？

この研究は、**「AI に『証拠を出せ』と命令し、さらに『その証拠が正しいか』をチェックする工程を入れる」**ことで、医療のような重要な場面で AI を使えるようにする道筋を示しています。

完璧な自動化は難しい： 100% 自動で全てを AI に任せるのはまだ危険です。
ハイブリッドな未来： AI が「証拠付きの答え」を出し、人間（または別の AI）が「証拠の質」をチェックする。そして、「自信があるもの」は自動処理し、「証拠が弱いもの」は人間がチェックするという仕組みが、最も安全で効率的な未来の形かもしれません。

つまり、**「AI に『Show Your Work（作業過程を見せろ）』とさせることは、AI の『嘘』を減らし、人間との信頼関係を築くための第一歩」**なのです。

Show Your Work: Verbatim Evidence Requirements and Automated Assessment for Large Language Models in Biomedical Text Processing

🕵️‍♂️ 物語：「証拠なしの探偵」vs「証拠付きの探偵」

🔍 実験の内容：3 人の「超天才探偵」

📊 発見された驚きの結果

1. 「証拠を出せ」と言うと、AI は慎重になりすぎた

2. 「証拠」はあっても、嘘つきな場合がある

3. AI によって性格が違った

4. 「証拠チェック」をもう一人の探偵に任せる

💡 この研究が教えてくれること（結論）

🏁 まとめ：どう使うべきか？

1. 研究の背景と課題 (Problem)

2. 研究方法 (Methodology)

データセット

評価モデルと条件

評価指標

3. 主要な結果 (Results)

精度とカバレッジへの影響

安定性とジェッジ評価

4. 主要な貢献 (Key Contributions)

5. 意義と結論 (Significance and Conclusion)

Show Your Work: Verbatim Evidence Requirements and Automated Assessment for Large Language Models in Biomedical Text Processing

🕵️‍♂️ 物語：「証拠なしの探偵」vs「証拠付きの探偵」

🔍 実験の内容：3 人の「超天才探偵」

📊 発見された驚きの結果

1. 「証拠を出せ」と言うと、AI は慎重になりすぎた

2. 「証拠」はあっても、嘘つきな場合がある

3. AI によって性格が違った

4. 「証拠チェック」をもう一人の探偵に任せる

💡 この研究が教えてくれること（結論）

🏁 まとめ：どう使うべきか？

1. 研究の背景と課題 (Problem)

2. 研究方法 (Methodology)

データセット

評価モデルと条件

評価指標

3. 主要な結果 (Results)

精度とカバレッジへの影響

安定性とジェッジ評価

4. 主要な貢献 (Key Contributions)

5. 意義と結論 (Significance and Conclusion)

関連論文

A case report on gendered biases in a Finnish healthcare AI assistant

An End-to-End Synthetic Oncology Clinical Trial Framework Integrating Radiographic Response, Circulating Tumor DNA, Safety, and Survival for Decision-Oriented Clinical Data Science

Who is leading medical AI? A systematic review and scientometric analysis of chest x-ray research

High-Throughput Observational Evidence Generation Using Linked Electronic Health Record and Claims Data

Perception of Safety in Behavioral Health Crisis Units among Patients and Care Partners versus Artificial Intelligence (AI): A Multimethod Study