The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate
この論文は、生成タスクに優れた大規模言語モデル(LLM)が評価タスクでも同様に優れているという仮説を検証し、実際には評価性能が生成性能より低く、さらにモデルが不十分な領域でも誤って自信を持って評価を行う「不誠実な評価」が発生する「生成 AI のパラドックス」が存在することを明らかにしています。
1074 件の論文
この論文は、生成タスクに優れた大規模言語モデル(LLM)が評価タスクでも同様に優れているという仮説を検証し、実際には評価性能が生成性能より低く、さらにモデルが不十分な領域でも誤って自信を持って評価を行う「不誠実な評価」が発生する「生成 AI のパラドックス」が存在することを明らかにしています。
この論文は、大規模言語モデル(ChatGPT)を活用して科学論文内の引用を感情分析し、潜在的なバイアスや利害関係の衝突を検出することで、学術研究の客観性と信頼性を高める手法を提案しています。
この論文は、自然言語処理と機械学習を用いて 2000 以上のフラメンコ歌詞を分析し、語彙パターンに基づくジャンル分類、各スタイルの意味領域の特定、およびジャンル間の距離測定によるネットワーク分析を通じて、フラメンコ音楽の歴史的つながりや進化を定量的に解明したものである。
本論文は、x ベクトルによるクラスタリングを用いた教師なし学習と、モンテカルロドロップアウトを応用したベイズ的バッチ能動学習を組み合わせた 2 段階の能動学習パイプラインを提案し、音声認識モデルの学習に必要なラベル付けコストを大幅に削減しながら精度を向上させる手法を確立したものである。
この論文は、具身的な心の理論に基づき、大規模言語モデル(LLM)が自律的な主体性を欠く「対話者」または「言語自動機」に過ぎないと結論づけつつも、その人間との結合が従来の補助的・拡張的枠組みを超えた新たな「中間的」主体性を生み出す可能性を論じています。
本論文は、LLM の予測に基づく資源配分における不公平(配分的害)を評価する際、従来のバイアス指標が実際の配分結果の格差を捉えきれないことを示し、意思決定プロセスを考慮した新たな評価の必要性を提唱しています。
この論文は、低資源言語において大規模な多言語モデルが基礎的な文法生成で苦戦していることを指摘し、350 言語向けに 125M パラメータ以下の小規模な単一言語モデル「Goldfish」を開発・公開することで、それらの言語における言語モデルのパフォーマンスを大幅に向上させたことを報告しています。
この論文は、大規模言語モデルのバイアスを軽減するために、小さなバイアスおよび反バイアス専門モデルから導出されたデバイアス信号をデコーディング時に追加する、計算効率と解釈性に優れたアプローチを提案し、多様なバイアス指標における軽減効果と性能維持を実証しています。
本論文は、推論中のモデル貢献度をタスク性能に応じて動的に調整し、スペキュレイティブデコーディングのアイデアを応用してセグメントレベルでモデル間を協調させることで、トレーニング不要かつリアルタイムな重み更新を実現する新しい LLM アンサンブル手法「SpecEM」を提案し、複数のベンチマークで最先端の手法を上回る性能向上を実証したものである。
本論文は、マルチモーダル大規模言語モデルにおける視覚理解を強化するため、複数の視覚エンコーダを効率的に統合する軽量なアーキテクチャ「LEO」を提案し、多様なベンチマークおよび自律走行分野において既存の手法を上回る性能と汎用性を示すことを実証しています。
この論文は、大規模言語モデルが科学文献の検索からアイデア生成、実験、コンテンツ作成、マルチモーダルな図表の作成、そして査読に至るまで、科学者の研究ライフサイクル全体を支援する新たなエコシステムを包括的に調査し、手法や評価、倫理的課題を概説するものである。
本論文は、英語とスペイン語のコードスイッチング(CS)テキスト生成のために、自然な CS 文を英語に逆翻訳して作成した平行コーパスを用いた LLM の微調整手法を提案し、その生成品質が人間の評価と高い相関を示す LLM による判断で確認されたことを報告しています。
この論文は、LLM の多様な文化への適合性を高めるため、情報理論に基づく目的関数を用いて文化的代表性と独自性を同時に最適化する新しいデータ最適化フレームワーク「CAReDiO」を提案し、少量のデータで高品質な文化適合を実現することを示しています。
この論文は、報酬モデルを推論タスクとして再定義し、高品質な推論チェーンの蒸留と検証可能な報酬による強化学習を通じて、より解釈性が高く高性能な「推論型報酬モデル(ReasRMs)」の一種である RM-R1 を提案し、既存の巨大モデルやプロプライエタリモデルを上回る性能を実証したものである。
本論文は、イベントカメラの非同期かつスパースなデータを言語モデルの技術(線形アテンションや自己教師あり学習)を応用して処理する新しいフレームワーク「EVA」を提案し、従来の手法を凌駕する認識・検出タスクでの性能向上を実現したことを報告しています。
この論文は、推論時の活性化制御(アクティベーション・ステアリング)技術、特に kNN ベースの条件付き手法「K-CAST」を導入することで、大規模言語モデルが内容の妥当性と論理的妥当性を混同するバイアスを軽減し、形式論理的推論の精度を最大 15% 向上させることを実証しています。
本論文は、既存の評価手法が抱える情報の非効率性という課題を解決するため、LLM の内部価値境界を探索して適応的にテスト質問を生成・拡張し、モデル間の価値差をより明確かつ有益に測定する新たなアルゴリズム「AdAEM」を提案し、その有効性を検証したものである。
この論文は、既存のベンチマークが抱える汚染やバイアスの問題を解決し、大規模言語モデルのドメイン専門知識を、他のモデルや人手に頼らず生データから自動的に生成された完成型タスクによって安価かつ公平に評価する決定論的パイプラインを提案するものです。
本論文は、大規模言語モデル(LLM)の重みを固定したまま、ユーザーの入力に応じてシステムプロンプトを適応的に調整する「Sysformer」というトランスフォーマーモデルを提案し、有害な入力への拒否率や安全な入力への対応精度を大幅に向上させ、高度な脱獄攻撃に対しても堅牢性を高めることを実証しています。
本論文は、視覚言語モデル(VLM)の活性化における「視覚トークンの過剰性」と「モダリティ間の分布ギャップ」という 2 つの課題を特定し、勾配駆動の重要度因子を用いて重要なトークンを優先的に保持するポストトレーニング量子化フレームワーク「VLMQ」を提案し、低ビット設定でも最先端の性能を実現したことを示しています。