BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models
この論文は、トレーニングデータによる汚染を防ぎつつ言語モデルの推論能力を公平に評価するため、アルゴリズム的に動的に生成される数学的基盤を持つ問題セット「BeyondBench」を提案し、101 種類のモデルを対象とした評価を通じて複雑度の上昇に伴う推論能力の限界とツールの有用性を明らかにしたものである。
7443 件の論文
この論文は、トレーニングデータによる汚染を防ぎつつ言語モデルの推論能力を公平に評価するため、アルゴリズム的に動的に生成される数学的基盤を持つ問題セット「BeyondBench」を提案し、101 種類のモデルを対象とした評価を通じて複雑度の上昇に伴う推論能力の限界とツールの有用性を明らかにしたものである。
本論文は、ランダム・アダマール変換や確率的丸めなどの手法を組み合わせることで、120 億パラメータモデルを 10 兆トークンで NVFP4 精度で安定して学習させ、FP8 ベースラインと同等の性能を達成する新しいアプローチを提案し、大規模言語モデルの学習効率向上に貢献することを示しています。
本論文は、LLM がユーザーの個人差や文脈を自発的に特定し、それに応じて推論プロセスを適応させる「パーソナライズド推論」の必要性を指摘し、心理学的根拠に基づくペルソナを用いた対話型評価手法「PrefDisco」と、それに基づく微細なアライメント指標「PrefAlign」を提案することで、教育や医療など個人化が不可欠な分野におけるシステム開発の基盤を提供するものです。
本論文は、第一人称視点の観測ノイズに耐性を持つ軌道予測を実現するため、実世界ノイズを含む履歴とクリーンな未来軌道を対応させた初のベンチマーク「EgoTraj-Bench」を提案し、歴史的観測のノイズ除去と将来の運動予測を同時に行う双フローモデル「BiFlow」を開発して最先端の性能と堅牢性を示したものです。
本論文は、大規模言語モデルのハルシネーションやデータ間の関係性の欠如といった課題を解決するため、外部データソースから構築した知識グラフを活用して、意味的一貫性と解決可能性に優れたマルチモーダルエージェントタスクを自動生成するフレームワーク「Graph2Eval」およびその評価ベンチマーク「Graph2Eval-Bench」を提案し、既存手法よりもタスクの質とエージェント性能の識別力を大幅に向上させることを示しています。
脊椎疾患の AI 診断におけるレベル認識や多モーダル推論の課題を解決するため、臨床医と共同で脊椎専門の大規模データセット「SpineMed-450k」と評価基準「SpineBench」を構築し、これらを用いて微細な脊椎レベルの推論能力を飛躍的に向上させたことを示した論文です。
本論文は、異なる手の形状(モルフォロジー)を埋め込みと固有把持(eigengrasp)セットとして表現し、物体の点群と手首の姿勢に基づいて関節角度を直接生成するエンドツーエンドのフレームワーク「MachaGrasp」を提案し、これにより未知の物体や未学習のロボットハンドに対しても高い把持成功率と高速な推論を実現することを示しています。
本論文は、知識グラフを大規模言語モデルに統合する際、従来のプレフィックス結合の限界を克服し、局所的なグラフ構造を明示的な「グラフメモリ」として表現し、トランスフォーマー層におけるクロスアテンションを通じて生成時に微細な証拠を動的に検索可能にする「Graph-as-Memory Tuning (GMT)」という新しいパラダイムを提案し、知識グラフ補完タスクにおいて顕著な性能向上を実現したことを示しています。
本論文は、音声と視覚の相補性と論理的整合性に焦点を当て、1000 の高品質な QA ペアと詳細な推論トレースを含む大規模ベンチマーク「OmniVideoBench」を提案し、現在のマルチモーダル大規模言語モデルにおける真の音声・視覚推論能力の限界を明らかにするものです。
本論文は、3D 幾何学の事前知識や明示的な姿勢パラメータ化を一切用いずに、入力と出力の拡張とペアごとの姿勢推定を組み合わせることで、カメラ姿勢とシーン内容を分離し、異なる 3D シーン間での姿勢表現の転移を可能にする初の自己教師あり新規視点合成モデル「XFactor」を提案し、その転移性を新たな指標で実証したものである。
本論文は、狭いドメインでのファインチューニングがモデルの活性化値に明確なバイアスを残し、これを用いてファインチューニングの内容を解釈できることを示すとともに、そのバイアスが過学習に起因する可能性や、AI 安全性研究における狭いドメインモデルの代理利用の限界を指摘しています。
本論文は、強化学習の訓練段階に制御バリア関数(CBF)を組み込むことで、安全制約を方策自体に内包させ、実世界での展開時にオンラインの安全フィルタを不要としつつ、より安全かつ効率的な学習を実現する「CBF-RL」という枠組みを提案し、ヒューマノイドロボットなどでの実証を通じてその有効性を示したものである。
本論文は、2D 中心の事前学習に起因する 3D 理解の不足と冗長な情報による推論失敗という課題を解決するため、専門モデルからの 3D 知覚結果を最小かつ十分な情報集合(MSS)として選択的に抽出・洗練する双エージェントフレームワーク「MSSR」を提案し、複数のベンチマークで最先端の性能を達成したことを報告するものです。
本論文は、3D 大規模言語モデルの接地された推論能力を向上させるため、マルチモーダル専門モジュールを用いた視覚的手がかりに基づく「SceneCOT」という新しい推論フレームワークと、18.5 万件の高品質な事例からなる大規模データセット「SCENECOT-185K」を提案し、複雑な 3D シーン理解において人間のような段階的推論を可能にすることを示しています。
本論文は、シュレーディンガー・ブリッジの学習パラダイムとMamba アーキテクチャを統合した「Schrödinger Bridge Mamba (SBM)」を提案し、音声のノイズ除去と残響除去を 1 ステップで高精度かつリアルタイムに実現する手法を示しています。
本論文は、従来の領域理解が欠落していたグローバルな文脈と複数領域間の相互作用を統合し、任意の領域に対する精密な知覚と高度な推論を可能にする「Grasp Any Region (GAR)」モデルと、その評価ベンチマーク「GAR-Bench」を提案し、小規模モデルでも大規模モデルや動画領域に特化したモデルを上回る性能を実証したものである。
本論文は、モバイルエージェントの視覚的知覚を直接撹乱する「環境注入攻撃」の脅威を初めて体系的に評価するベンチマーク「GhostEI-Bench」を提案し、最先端のモデルが動的なデバイス環境における偽装 UI に対して脆弱であることを明らかにしています。
この論文は、大規模言語モデルの科学的知識と化学情報に基づく進化則、およびメモリに基づく改善を統合した「LLEMA」というフレームワークを提案し、多目的材料探索において従来の手法を上回る合成可能な候補物質の発見を可能にしたことを報告しています。
本論文は、従来の数値積分器の精度と計算効率のトレードオフを克服し、多様な確率微分方程式(SDE)のシミュレーションにおいて、粗い解の系列を文脈学習で補正するマルチモーダル基盤モデル「FMint-SDE」を提案し、その高い汎用性と精度 - 効率の両立を実証するものである。
本論文は、大規模マルチモーダルモデルによる長動画理解における視覚トークンの膨大さを解決するため、施設場所関数と遅延貪欲法を用いてトレーニング不要かつモデル非依存で効率的に代表的なトークンを選択する新しい圧縮フレームワーク「FLoC」を提案し、主要なベンチマークで既存手法を上回る性能を示したことを報告しています。