Spilled Energy in Large Language Models
この論文は、LLM の最終的な softmax 分類器をエネルギーベースモデルとして再解釈し、追加の学習や活性化の除去を必要とせず、出力ログイットから直接導出される「溢れたエネルギー」と「周辺化エネルギー」という 2 つのトレーニングフリー指標を用いて、ハルシネーションや事実誤認を高精度に検出する手法を提案しています。
1898 件の論文
この論文は、LLM の最終的な softmax 分類器をエネルギーベースモデルとして再解釈し、追加の学習や活性化の除去を必要とせず、出力ログイットから直接導出される「溢れたエネルギー」と「周辺化エネルギー」という 2 つのトレーニングフリー指標を用いて、ハルシネーションや事実誤認を高精度に検出する手法を提案しています。
この論文は、20 以上の STEM 分野の大学試験問題から構成される多モーダルベンチマーク「CFE-Bench」を提案し、最先端の言語モデルが中間段階の推論を維持する点やステップ効率の面で依然として課題を抱えていることを示しています。
本論文は、マルチモーダル大規模言語モデルの推論能力向上に向け、報酬設計に焦点を当ててルブリックをモデルの能力に応じて階層化し、動的に重みを調整する「RuCL」という新しいフレームワークを提案し、視覚推論ベンチマークにおいて SOTA となる精度を達成したことを報告しています。
本論文は、画像データの制約を克服し大規模な言語カバレッジを実現するため、音声とテキストを融合して大規模言語モデルに統合し、自己進化メカニズムを用いて合成音声データで最適化する「音声ガイド機械翻訳(SMT)」フレームワークを提案し、多言語マルチモーダル翻訳および汎用翻訳タスクにおいて最先端の性能を達成したことを報告しています。
本論文では、LLM エージェントが科学文献にアクセスする際の非構造化データやトークン消費の課題を解決するため、ArXiv などの学術文献を構造化データに変換し、CLI や Python SDK などを介した多層的なデータインターフェース「DeepXiv-SDK」を提案しています。
この論文は、大規模言語モデルが複雑な研究タスクを解決する能力を評価するための新たなタスク「Super Research」と、多様なドメインにおける 300 の専門的な質問からなるベンチマーク、そして構造化された分解や広範・深掘り検索、グラフに基づく監査プロトコルを含む評価手法を提案するものである。
本論文は、異質な形式や注釈基準に起因する研究の断絶を解消するため、エンティティとイベントの両方のコリファレンスを統合し、一貫したフォーマットと評価プロトコルを提供する統一データセット「uCDCR」を構築・分析し、クロスドメインでのモデル汎化性能向上とイベントおよびエンティティの両方の解決の重要性を明らかにしています。
この論文は、医療概念のシグネチャに基づいて臨床的に意味のある Yes/No 質問を生成するオントロジーに基づくフレームワーク「QIME」を提案し、従来の解釈可能な埋め込み手法を凌駕しながらブラックボックス型モデルとの性能差を大幅に縮小し、かつトレーニング不要な戦略も可能にすることで、臨床意思決定に有用な解釈性のある医療テキスト埋め込みを実現することを示しています。
この論文は、臨床専門家の監修により予防から長期フォローアップまでの多様な症例とタスクを網羅し、rubric 評価と二重ジャッジフレームワークを用いて中国語医療大規模言語モデルの性能を包括的に評価する新しいベンチマーク「ClinConsensus」を提案し、モデル間の能力差や臨床的実行可能性における課題を明らかにしたものである。
本論文は、モデルの回答の確信度を評価するコンフィデンスジェネレーターと二つの報酬を用いて反復推論サイクルを可能にする効率的な「再帰的思考・回答プロセス(R-TAP)」を提案し、これにより大規模言語モデルおよび視覚言語モデルの推論精度を向上させ、自己反省的な誤り表現を減らしてより安定した推論を実現することを示しています。
この論文は、既存のモデルでは同時には実現できなかった語彙頻度分布(Zipf の法則)と長距離相関の両方を保持する、分数ガウスノイズを経験的ヒストグラムにマッピングする新しい置換モデルを提案し、英語・ラテン語のテキストやゲノム DNA などの記号系列の分析に有効であることを示しています。
この論文は、LLM の自己進化が単なる自己遊戯で停滞するのではなく、提案・解決・検証という三つの役割を持つ自己合成データパイプラインにおいて「学習可能な情報量」が反復ごとに増加するように設計された非対称共進化、容量増大、能動的な情報探索という 3 つのシステム設計によって初めて持続可能になることを示しています。
本論文は、スパースアテンションにおいて学習されたゲートがランダムなゲートと同等の性能しか示さない「ルーティング吸収」という現象を提唱し、Q/K/V 投影層との共適応が原因であることを示唆するとともに、表現学習とスパース化を分離する事後アプローチの有効性を論じています。
この論文は、LLM エージェントのポストトレーニングにおいて、安全性トレーニングがその後の有用性最適化によっても維持され、最終的にすべてのトレーニング設定が線形のパレートフロンティア上に収束し、「両方の世界を享受する」戦略が達成されないことを明らかにしています。
この論文は、早期融合と後期融合の限界を克服し、高度な推論タスクを支援するために、エッジベースのサブグラフ検索、クエリ関連ノードの拡張、および星グラフレベルでの LLM 推論を統合した新しいテーブル・テキスト検索フレームワーク「HELIOS」を提案し、OTTT-QA ベンチマークで既存の最先端モデルを大幅に上回る性能を示すことを報告しています。
本論文は、Meta の多言語翻訳モデル NLLB-200 の埋め込み空間を解析することで、モデルが言語間の系統関係や普遍的な概念の共起性を学習しており、その幾何学的構造が人間の多言語認知における言語中立の概念貯蔵庫と類似していることを示した。
本論文は、拡散言語モデル(DLM)の記憶化挙動を理論的・実証的に解明し、サンプリング解像度と完全な訓練データ抽出の確率との単調な関係を証明するとともに、自己回帰モデル(ARM)と比較して DLM が個人識別情報(PII)の漏洩リスクが低いことを示しています。
本論文は、放送ニュースやオーディオブックなど多様な分野から収集された 126 時間以上の音声データを含むローマニア語の新しいベンチマーク「RO-N3WS」を提案し、これを用いた微調整が低リソースおよび分布外条件下での音声認識モデルの汎化性能を大幅に向上させることを示しています。
本論文は、時間依存テキスト可視化の抽象モデルと合成データ生成手法を提案し、ユーザー研究を通じてその解釈の難しさと個人差を明らかにし、画一的なアプローチの限界と適応型可視化の必要性を指摘しています。
本論文は、メタデータ(座標など)に基づいて低ランク行列の寄与をゲート制御する「GLoRIA」というパラメータ効率の高い適応フレームワークを提案し、方言 ASR において既存手法を上回る性能と解釈可能性を実現したことを報告しています。