BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models
この論文は、トレーニングデータによる汚染を防ぎつつ言語モデルの推論能力を公平に評価するため、アルゴリズム的に動的に生成される数学的基盤を持つ問題セット「BeyondBench」を提案し、101 種類のモデルを対象とした評価を通じて複雑度の上昇に伴う推論能力の限界とツールの有用性を明らかにしたものである。
1723 件の論文
この論文は、トレーニングデータによる汚染を防ぎつつ言語モデルの推論能力を公平に評価するため、アルゴリズム的に動的に生成される数学的基盤を持つ問題セット「BeyondBench」を提案し、101 種類のモデルを対象とした評価を通じて複雑度の上昇に伴う推論能力の限界とツールの有用性を明らかにしたものである。
本論文は、ランダム・アダマール変換や確率的丸めなどの手法を組み合わせることで、120 億パラメータモデルを 10 兆トークンで NVFP4 精度で安定して学習させ、FP8 ベースラインと同等の性能を達成する新しいアプローチを提案し、大規模言語モデルの学習効率向上に貢献することを示しています。
本論文は、LLM がユーザーの個人差や文脈を自発的に特定し、それに応じて推論プロセスを適応させる「パーソナライズド推論」の必要性を指摘し、心理学的根拠に基づくペルソナを用いた対話型評価手法「PrefDisco」と、それに基づく微細なアライメント指標「PrefAlign」を提案することで、教育や医療など個人化が不可欠な分野におけるシステム開発の基盤を提供するものです。
本論文は、大規模言語モデルのハルシネーションやデータ間の関係性の欠如といった課題を解決するため、外部データソースから構築した知識グラフを活用して、意味的一貫性と解決可能性に優れたマルチモーダルエージェントタスクを自動生成するフレームワーク「Graph2Eval」およびその評価ベンチマーク「Graph2Eval-Bench」を提案し、既存手法よりもタスクの質とエージェント性能の識別力を大幅に向上させることを示しています。
本論文は、知識グラフを大規模言語モデルに統合する際、従来のプレフィックス結合の限界を克服し、局所的なグラフ構造を明示的な「グラフメモリ」として表現し、トランスフォーマー層におけるクロスアテンションを通じて生成時に微細な証拠を動的に検索可能にする「Graph-as-Memory Tuning (GMT)」という新しいパラダイムを提案し、知識グラフ補完タスクにおいて顕著な性能向上を実現したことを示しています。
本論文は、医療や法分野など実世界での利用が増える大規模言語モデル(LLM)の幻覚を検出するため、人工的なベンチマークではなく実際の LLM と人間の対話から構築された初のベンチマーク「AuthenHallu」を提案し、その中で幻覚が 31.4%(数学分野では 60.0%)発生していることと、既存の LLM による検出が実用レベルに達していないことを明らかにしています。
本論文は、狭いドメインでのファインチューニングがモデルの活性化値に明確なバイアスを残し、これを用いてファインチューニングの内容を解釈できることを示すとともに、そのバイアスが過学習に起因する可能性や、AI 安全性研究における狭いドメインモデルの代理利用の限界を指摘しています。
本論文は、従来の領域理解が欠落していたグローバルな文脈と複数領域間の相互作用を統合し、任意の領域に対する精密な知覚と高度な推論を可能にする「Grasp Any Region (GAR)」モデルと、その評価ベンチマーク「GAR-Bench」を提案し、小規模モデルでも大規模モデルや動画領域に特化したモデルを上回る性能を実証したものである。
本論文は、言語内容と非言語的な音声手掛かりの統合を評価する初の多段階ベンチマーク「EchoMind」を提案し、最先端の音声言語モデルが高度な表現力を持つ音声手掛かりの理解や共感的な応答生成において依然として課題を抱えていることを明らかにしています。
本論文は、7 世紀から 2025 年までの 1,300 年間にわたる 6 言語・19 種類のソースからなる大規模な公開ドメインテキスト「Open Korean Historical Corpus」を構築し、これを用いてハングルへの移行や北朝鮮の語彙の分岐など、韓国語の歴史的変遷を定量的に分析するとともに、大規模言語モデルの事前学習に資する基盤リソースを提供するものである。
この論文は、言語モデルがアクティベーション・ステアリング(潜在空間へのベクトル注入)の存在や注入された概念を検知する能力(ステアリング・アウェアネス)を獲得し得ることを実証し、その検知能力が安全性評価の信頼性や解釈技術の長期的な有効性に重大な影響を与える可能性を指摘しています。
本論文は、従来の「思考後生成」方式の長文生成における限界を克服し、並列推論と効率的な学習を可能にする「思考中生成」フレームワーク「FlyThinker」を提案し、個人化された高品質な長文生成を実現するものである。
本論文は、KV キャッシュの再利用と学習複雑性の低減を実現するために、シーケンス再編成を因果的注意フレームワークに統合し、トークンレベルからスロットレベルへの並列デコーディングを可能にする新たな拡散大規模言語モデル「ReFusion」を提案し、既存のマスク拡散モデルを大幅に上回る性能と高速化を達成したことを示しています。
本論文は、認知負荷理論に基づき、文脈内のトークン位置を学習可能なモジュールで動的に再配置する「RePo」を提案し、これによりノイズのある文脈や構造化データ、長いコンテキストにおける大規模言語モデルの性能を向上させることを示しています。
本論文は、LLM の外部ツール連携における新たな安全リスクを包括的に評価するため、実世界の MCP サーバーと 20 種類の攻撃タイプに基づき構築されたベンチマーク「MCP-SafetyBench」を提案し、主要な LLM が依然として脆弱であることを実証しています。
この論文は、テキストベースの環境において大規模言語モデルが世界モデルとして機能し得るかを検証し、その忠実性、スケーラビリティ、エージェントへの有用性を評価する枠組みを提示するとともに、十分な訓練と行動のカバレッジが条件となり、行動検証や合成軌道生成を通じてエージェントの学習を改善できることを示しています。
本論文は、ランダム性の発生源を事後サンプリングから入力変数へ移すことで単一のフォワードパスで複数のトークンを予測可能にし、言語モデルの推論速度を最大 2.4 倍向上させる汎用フレームワーク「Parallel Token Prediction (PTP)」を提案するものである。
この論文は、イベント中心の質問応答や説得的な回答生成といった実世界のタスクにおいて、LLM へのツールや計画の導入が精度向上をもたらす一方で、レイテンシやコストが劇的に増加し、タスクやモデル規模に応じて最適な戦略が異なることを示すベンチマーク結果を報告しています。
本論文は、LLM のタスクレベルの制御を可能にするため、生物学的な機能拮抗の原理に基づき、タスクを促進する「良いニューロン」と抑制する「悪いニューロン」を対照学習で同定し、偶然の正解による誤った帰属を軽減する新たなフレームワーク「NeuronLLM」を提案するものである。
本論文は、大規模な事前学習や多段階最適化を必要とせず、限られた計算資源で効率的に学習可能な、話者の声や話題、バックチャネルや割り込みなどの会話行動を明示的な指示で制御できる初のオープンなフルデュプレックス対話音声モデル「F-Actor」を提案するものである。