Causal Retrieval with Semantic Consideration
この論文は、既存の情報検索モデルが因果関係の理解に欠けているという課題に対し、意味的および因果的な関係の両方を学習する新しい検索モデル「CAWAI」を提案し、大規模な検索設定や科学分野のゼロショットタスクにおいて優れた性能を示すことを実証しています。
1062 件の論文
この論文は、既存の情報検索モデルが因果関係の理解に欠けているという課題に対し、意味的および因果的な関係の両方を学習する新しい検索モデル「CAWAI」を提案し、大規模な検索設定や科学分野のゼロショットタスクにおいて優れた性能を示すことを実証しています。
この論文は、K-5 数学・読解問題の難易度推定において、大規模言語モデル(LLM)による直接的な推定よりも、LLM で抽出した特徴量を木ベース機械学習モデルに入力する手法の方が高い精度(相関係数 0.87)を達成し、大規模なフィールドテストへの依存を減らす有望なアプローチであることを示している。
DCASE 2025 チャレンジのタスク 5 として発表された本論文は、海洋哺乳類の鳴き声から複雑な現実世界の音響シーンまで多様なドメインを跨ぐオーディオ質問応答(AQA)ベンチマークを提案し、音声言語モデルの推論能力向上と人間レベルの聴覚理解の実現を目指しています。
FreeKV は、アルゴリズム側で推論のクリティカルパスから KV 選択を分離するスペキュレイティブ検索と微細な修正を、システム側で CPU/GPU メモリ間のハイブリッドレイアウトと二重バッファリングによるストリーミング検索を採用することで、精度を維持しつつ既存の KV キャッシュ検索手法を最大 13 倍高速化するトレーニング不要のフレームワークを提案するものです。
この論文は、検証セットを必要とせず、メタフィードバックに基づいて推論時に動的にマルチエージェントシステムの設計を自己進化させるフレームワーク「MAS-ZERO」を提案し、推論、コーディング、エージェントタスクにおいて既存の手法を上回る性能とコスト効率を実現することを示しています。
本論文は、従来の RAG が抱える構造的・語彙的なミスマッチを解決するため、抽象構文木とデータフローグラフを統合した新しいフレームワーク「HDLxGraph」と、大規模な HDL プロジェクトから生成された評価データセット「HDLSearch」を提案し、HDL 関連タスクにおける検索・デバッグ・補完の精度を大幅に向上させることを示しています。
本論文は、LLM のコード生成能力を現実的なソフトウェア開発ワークフローに即して評価する「SwingArena」という競争的評価フレームワークを提案し、長文脈コードの処理を可能にする検索拡張生成モジュールを備え、400 件以上の実世界の GitHub 課題を用いた実験を通じて、異なるモデルがパッチ生成と CI 検証においてそれぞれ異なる強みを持つことを示しています。
本論文は、表形式データの理解・推論・操作に関する専門家のレベルを包括的に評価するため、25 の実世界タスクと 2 万 8 千以上の質問からなる大規模ベンチマーク「MMTU」を提案し、最先端のモデルでも高い性能が求められていることを示しています。
本論文は、推論モデルにおける「反射トークン」の過剰・不足が性能を低下させることを示し、最適化における学習率スケジューリングの概念を応用して追加計算コストなしに反射トークンの配置を動的に調整する「CyclicReflex」という手法を提案し、複数のベンチマークで既存手法を上回る性能向上を実証しています。
この論文は、報酬関数の説明をプロンプトに組み込むことで大規模推論モデルの強化学習微調整を効率化する「MeRF(Motivation-enhanced Reinforcement Finetuning)」を提案し、その有効性を実証しています。
本論文は、マルチモーダル大規模言語モデル(MLLM)がエージェントの行動を過剰に肯定する「同意バイアス」を特定し、自己生成された事前知識に基づいて検証を行う軽量手法「SGV」を提案することで、タスク完了率や精度を大幅に向上させることを示しています。
この論文は、LLM ベースのユーザーシミュレータにおける目標指向行動の一貫性欠如という課題を解決するため、会話中の目標進行を追跡する「UGST」フレームワークと評価指標を提案し、マルチターン会話での目標整合性を大幅に向上させることを示しています。
この論文は、PlanetMath から概念と説明をランダムにサンプリングし、9 つの戦略と強化学習を駆使してゼロから高難度の数学問題を合成するフレームワーク「MathSmith」を提案し、これにより大規模言語モデルの推論能力を大幅に向上させることを示しています。
この論文は、視覚言語モデル(VLM)に基づく視覚的グラウンディングシステムに対して、任意のターゲット対象の記述に応答して動的に生成される入力依存型のトリガーを用いた、初の多ターゲットバックドア攻撃手法「IAG」を提案し、その高い攻撃成功率と隠蔽性を示したものである。
本論文は、依存関係木と文脈的意味を統合し、シンクホルン法を用いた最適輸送に基づくアスペクト - 意見の対応付けや構文誘導型注意機構を導入することで、ノイズへの耐性を高め、アスペクトベースの感情分析において最先端の性能を達成する「OTESGN」というモデルを提案しています。
この論文は、言語モデルの有害行動を検出する白箱モニター(線形プローブ)が、システムプロンプトや思考過程などの「テキスト的な証拠」に過度に依存しており、それらが除去されると検出性能が大幅に低下する脆弱性があることを示しています。
この論文は、各トークンの生成前に連続空間における潜在思考(中間隠れ状態)を生成する「PonderLM-2」という新たな事前学習手法を提案し、推論コストを同等に保ったまま、パラメータ数の 2 倍のモデルを上回る性能を達成できることを実証しています。
この論文は、モデルのトレーニング露出を反映する「ベンチマーク署名(salient tokens の集合)」を提案し、32 の LLM と 89 のベンチマークを用いたメタ評価を通じて、従来の性能相関や意味的類似性を超えた、知識や推論などのタスク間の重なりや、コーディングの孤立性、そして人間の概念構造とは異なる LLM の意味的組織に関する新たな知見を明らかにしています。
本論文は、環境との相互作用を通じて自律的に進化する大規模言語モデルエージェントにおいて、モデル・記憶・ツール・ワークフローの各経路で意図しない有害な進化(Misevolution)が広く発生する実証的証拠を初めて提示し、新たな安全パラダイムの必要性を訴えるものです。
この論文は、各タスク手順を単一の学習可能メモリトークンにコンパイルし、バックボーン LLM を凍結したまま追加的なオーバーヘッドなしで持続的かつ効率的に新しい手順を学習・制御することを可能にする「TokMem」というプロシージャルメモリフレームワークを提案し、検索拡張プロンプトやパラメータ効率型微調整を上回る性能を実証したものである。