原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。 免責事項の全文を読む
学生の成績を評価しようとしていると想像してください。昔は、学生に数学の問題を解かせると、いつも同じ答えを返してきました。そのため、「10 点満点中 10 点」といった単純なスコアを与えることができました。かつて私たちがコンピュータソフトウェアをテストしていたのもこの方法でした。ユーザーにボタンを押させ、動作すればポイントを与え、動作しなければ与えないというものです。このシステムは、A1 を押せば常にソーダが出てくる自動販売機のように予測可能でした。
しかし、今日ではコンピュータは異なります。人工知能(AI)を使用しているからです。AI は自動販売機ではなく、どちらかといえばおしゃべりで創造的な友人のようなものです。友人に同じ質問を二度しても、その時の気分や時間帯、直前の会話内容によって、わずかに異なる答えが返ってくるかもしれません。
この論文によると、問題は、私たちがまだこの「おしゃべりな友人」を、昔ながらの「自動販売機」テストで評価しようとしている点にあります。それは機能しません。古いテストは、コンピュータが常に同じ動作をすると仮定していますが、AI は不規則で予測不可能であり、時間とともに変化します。
これを解決するため、著者のハリシュ・ヴィジャヤクマールは、AI の使いやすさを測定する新しい方法を提案しています。彼はこれをADUX-Statと呼んでいます。単一の数値を与えるのではなく、この新しいシステムは AI の性格を理解するために 3 つの「ツール」を使用します。
以下に、簡単なアナロジーを用いて、この 3 つのツールの仕組みを説明します。
1. 「驚きメーター」(相互作用エントロピー指数)
問題点: 時には AI は親切で一貫性がありますが、他の時には無軌道で予測不可能です。音声アシスタントに天気について尋ねた際、毎回異なる答えが返ってきたら、あなたはイライラするでしょう。
解決策: このツールは、AI があなたをどれほど「驚かせる」かを測定します。
- 低い驚き(良い): AI は信頼できる司書のようになります。本を頼めば、いつも正しい本を手渡してくれます。
- 高い驚き(悪い、または混沌): AI は帽子から無作為に兎を引き出すマジシャンのようになります。時には素晴らしいですが、時には nonsensical(意味不明)です。
このツールは単に「動作した」と言うだけでなく、あなたの視点から見て AI の行動がどの程度変動するかを測定します。
2. 「タイムトラベルコンパス」(時間的ドリフト係数)
問題点: AI は静的ではありません。学習します。AI は出会った当初はひどくても、会話するにつれて賢くなるかもしれません。あるいは、最初は素晴らしいのに、混乱するにつれて徐々に悪化するかもしれません。
解決策: このツールは、単一の写真ではなく映画を見るように、AI のパフォーマンスを時間経過とともに観察します。
- ポジティブなドリフト: AI は良くなっています。週ごとに成績を向上させる熱心な勉強をする学生のように。
- ネガティブなドリフト: AI は悪くなっています。数ヶ月後に奇妙な異音を立て始める車のエンジンのように。
これにより、AI が「遅い学習者」なのか「遅い衰退者」なのかを、単一のテストでは決してわからないことを把握できます。
3. 「正直なバブル」(ベイズ的ユーザビリティ信頼スコア)
問題点: 古いテストは「満足度 85%」のような単一の数値を与えます。しかし、その数値はあまりにも精密に感じられます。「私は正確に 5 フィート 10.00 インチの身長です」と言うようなものです。実際には測定には誤差があり、AI には多くの不確実性があります。
解決策: このツールは、単一の数値ではなく範囲を与えます。「私はおそらく 5 フィート 9 インチから 5 フィート 11 インチの間でしょう」と言うようなものです。
- これは特別な数学的手法(ベイズ統計)を使用して、「100% 確実ではありませんが、これが最も可能性の高い範囲です」と認めます。
- データが少ない場合、範囲は広くなります(知らないことを正直に認める)。データが多い場合、範囲は狭くなります(より確信を持つ)。
これにより、実際以上に知っているふりをすることを防ぎます。
どのようにテストされたか
著者はまだ実在の人々でこれをテストしていません。代わりに、「思考実験」を行いました。これらの 3 つのツールが 5 種類の異なる AI 製品でどのように機能するかを想像しました。
- チャットボット: 多くの異なることを言い得るため、高い「驚き」を持つと予測しました。
- 推薦エンジン(Netflix のようなもの): 好みの学習に伴い、時間とともに良くなる(「ポジティブなドリフト」)と予測しました。
- フォーム入力ツール: 既知のデータフィールドを埋めるだけなので、低い「驚き」を持つと予測しました。
結論
この論文は、AI を単純な機械のように扱うのをやめる必要があると主張しています。AI は予測不可能であり、時間とともに変化し、不確実であるという理解に基づいた新しいツールが必要です。
著者は、これは新しい地図に過ぎず、まだ実在の旅人と共に旅に出たわけではないと認めています。将来、研究者たちがこれらの 3 つのツールを使って、実在の人々で AI 製品を実際にテストし、機械との対話を、固定されたボタン押しではなく、動的で進化する会話として、その実態に即して測定できることを願っています。
自分の分野の論文に埋もれていませんか?
研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。