Interactive Benchmarks
この論文は、飽和や主観性などの問題を抱える従来のベンチマークに代わり、予算制約下での対話的プロセスを通じてモデルの推論能力を評価する「Interactive Benchmarks」という新たな枠組みを提案し、論理・数学の証明や戦略的ゲームにおける実験を通じて、対話的シナリオにおけるモデルの知能評価の重要性と改善余地を明らかにしています。
1726 件の論文
この論文は、飽和や主観性などの問題を抱える従来のベンチマークに代わり、予算制約下での対話的プロセスを通じてモデルの推論能力を評価する「Interactive Benchmarks」という新たな枠組みを提案し、論理・数学の証明や戦略的ゲームにおける実験を通じて、対話的シナリオにおけるモデルの知能評価の重要性と改善余地を明らかにしています。
この論文は、既存の評価手法の限界を克服し、複数の回答をリスト形式で評価する新たなメタ評価ベンチマーク「IF-RewardBench」を提案し、それが下流タスクのパフォーマンスとより強い相関を示すことを実証しています。
この論文は、統計的データ分布情報を関数メタデータと融合させる軽量な検索モデル「DARE」と大規模な R パッケージ知識ベース「RPKB」を提案し、R 生態系における LLM エージェントのコード生成精度と統計分析タスクの成功率を大幅に向上させることを示しています。
本論文は、長期的な旅行計画における制約条件の遵守と並列実行を可能にする階層型マルチエージェントフレームワーク「HiMAP-Travel」を提案し、TravelPlanner ベンチマークにおいて既存の手法を大幅に上回る性能を達成したことを示しています。
本論文は、単一の LLM レイヤーを圧縮器とデコーダーとしてスタックし、マルチスケールの自己注入と木構造に基づく効率的な情報取得を実現することで、8K トークンの学習データから 128K トークンを超える長文脈を高精度かつ高効率に処理する新たなフレームワーク「SharedLLM」を提案しています。
本論文は、マルチモーダル大規模言語モデルを汎用埋め込みモデルへ適応させる際に生じるタスク間の競合を、専門家の混合(MoE)と低ランク適応(LoRA)の組み合わせ、および専門家の活性化パターンを利用した新しい負のサンプリング手法(EANS)によって解決し、MMEB ベンチマークおよび実世界の産業データセットにおいて最先端の性能を達成する TSEmbed というフレームワークを提案しています。
本論文は、エッジデバイスで生画像を数学的に不可逆な抽象特徴ベクトルに変換し、クラウドで動的輪郭言語を用いて行動認識と意味的再構成を行う「AI Flow」パラダイムに基づく新たなプライバシー保護知覚フレームワーク「Privacy-Aware Camera 2.0」を提案し、プライバシー保護と証拠能力の両立を実現するものである。
本論文は、LLM が多ターン対話で過去の推論に固執する「文脈的慣性」の問題を、単一ターンでの優れた推論能力を報酬の基準(アンカー)として活用する強化学習手法「RLSTA」により解決し、外部検証器なしでも安定した対話と分野横断的な汎化性能を実現することを提案しています。
本論文は、大規模言語モデル(LLM)を用いた意味フィルタリングにおける逐次評価の非効率性を克服するため、クラスタリング・サンプリング・投票(CSV)という新しいフレームワークを提案し、LLM 呼び出し回数を部分線形に削減しながら高い精度を維持する手法を確立したものである。
本論文は、大規模言語モデルにおける位置関係の符号化とセマンティック埋め込みを分離し、ニュートンの万有引力の法則と実証的に整合する「アテンション重力場(AGF)」という概念を導入することで、モデルの最適化と解釈可能性の向上を実現したことを示しています。
本論文は、長文脈 LLM と Mem0 などの事実ベースの記憶システムを比較し、長文脈モデルは事実想起で優位だが、記憶システムはペルソナ一貫性で競争力があり、かつ対話回数が一定を超えるとコスト面で優位になるという精度とコストのトレードオフを明らかにした。
本論文は、890 の研究結果をメタ分析し、自動短回答採点における LLM の限界(難易度との非相関、デコーダ型とエンコーダ型の性能差、トークナイザーの限界、および教育現場における人種的バイアスなど)を明らかにし、より適切なシステム設計の必要性を提言するものである。
本論文は、LLM の学習過程における「未知から既知」への遷移に伴う勾配挙動の系統的差異に着目し、FFN や Attention モジュールにおける勾配プロファイルに基づく軽量分類器「GDS」を提案することで、既存手法の限界を克服し、高い転移性と性能を実現する事前学習データ検出手法を開発した。
この論文は、発話生成における脳、筋肉、および構音器官の動きを同時に捉えるため、リアルタイム MRI、EEG、表面筋電図の同時取得と、それらの相互干渉を抑制する新しいアーチファクト除去パイプラインを提案するものである。
本論文は、マルティンゲール分解を用いた勾配解析により、従来の RLHF による安全アライメントが「危害が決定された位置以降では勾配信号が消失する」ため本質的に浅いことを理論的に証明し、全位置で勾配を生成する新たな目的関数を提案するものである。
この論文は、スリランカの立法文書(1981 年から 2014 年の法律と法案)から約 200 万語を収集・精製し、情報抽出や要約などの自然言語処理タスクを支援するための大規模なシナ語専門コーパス「SinhaLegal」を提案し、その統計的特性や言語モデルへの適合性を評価したものである。
本論文は、教育理論と人口統計分布を厳密に制御可能なマルチエージェントフレームワーク「HACHIMI」を提案し、100 万人規模の合成学生ペルソナコーパスを生成して、教育 LLM のベンチマークや社会シミュレーションへの応用を可能にするものである。
本論文は、チャットアシスタント向けではなく企業や API 駆動型のアプリケーションにおける厳格な指示遂行能力を評価するため、実世界のユースケースに基づいた新しいベンチマーク「FireBench」を提案し、11 種類の LLM に対する評価結果を報告するものである。
この論文は、拡散言語モデルのサンプリング過程に既存のサンプルから特徴空間を反発させるような軽量な介入を導入することで、再学習やビームサーチを必要とせず、計算コストをほとんど増やさずに多様性を高め、Pass@性能を向上させる手法を提案しています。
本論文は、シュワルツの価値理論に基づく定性分析タスクにおいて、LLM が集合的な指標では人間に匹敵する精度を示す一方で、価値の厳密な順位付けや専門家の不確実性パターンとの整合性において課題を抱えており、Qwen モデルやアンサンブル手法が最も有望であることを示した研究である。