Self-Indexing KVCache: Predicting Sparse Attention from Compressed Keys
この論文は、1 ビットの符号ベースベクトル量子化を用いて圧縮キー表現を自己インデックス構造として機能させ、外部インデックスや学習型予測器を不要にすることで、LLM の推論における KV キャッシュのメモリボトルネックを効率的に解決する新しい手法を提案しています。
12985 件の論文
この論文は、1 ビットの符号ベースベクトル量子化を用いて圧縮キー表現を自己インデックス構造として機能させ、外部インデックスや学習型予測器を不要にすることで、LLM の推論における KV キャッシュのメモリボトルネックを効率的に解決する新しい手法を提案しています。
この論文は、自律型コーディング支援ツールの利用に伴うソフトウェアエンジニアの認知的関与の低下を調査し、その設計が検証や意味付けを促す機能に欠けていることを明らかにした上で、より深い思考を維持するための具体的な設計機会を提案しています。
本論文は、構造化データと非構造化ドキュメントを融合したハイブリッドデータレイクにおける自然言語質問応答の課題を解決するため、クエリを有向非巡回グラフ(DAG)実行計画に変換し、マルチホップ推論と並列処理を可能にする「A.DOT Planner」というエージェント型フレームワークを提案し、その有効性を示したものである。
この論文は、大規模なオープンソース RTL を活用した RTL 接地の双方向データ合成フレームワークを提案し、これにより生成されたデータで学習させた専用モデル「CodeV-SVA」が、自然言語からハードウェアアサーション(SVA)を生成するタスクにおいて、GPT-5 や DeepSeek-R1 などの最先端モデルと同等かそれ以上の性能を達成したことを報告しています。
この論文は、Q 値に基づく条件付き VAE 事前分布を導入して生成の初期点を最適化し、エントロピー正則化によりオンライン探索を可能にすることで、フローマッチング方策の推論効率と探索性能を大幅に向上させる「GoldenStart」という教師あり学習手法を提案しています。
LLM ベースの Web エージェントの失敗要因を特定するため、高レベル計画・低レベル実行・再計画の 3 層からなる階層的計画の視点で分析し、構造化された計画言語が戦略を改善しても実行段階の認識と制御の課題がボトルネックとなっていることを明らかにしました。
この論文は、推論経路の逸脱と高エントロピー遷移トークンの発生を監視する指標を用いることで、追加のトレーニングコストや推論スループットの低下を招かずに大規模推論言語モデルの「過剰思考」を効果的に抑制し、性能と効率を向上させる早期終了手法を提案するものである。
本論文は、生成型推薦モデルが抱える新規アイテムへの対応困難(コールドスタート問題)を、自然言語処理のモデル編集技術に着想を得た「GenRecEdit」というフレームワークにより、再学習なしで効率的かつ高精度に解決することを提案しています。
この論文は、自己教師あり音声トークン上のマスク付き離散拡散モデルに基づき、ソーストークンの選択的再利用とフローマッチングに基づく持続時間予測を導入することで、アクセントの強さを制御可能にしつつ単語誤り率を最小化できる新しいアクセント正規化システム「DLM-AN」を提案しています。
本論文は、異なる環境間での継続学習における忘却問題を解決するため、高次テンソルと Tucker 分解を用いて共有サブ空間とシナリオ固有の専門家を分離する「Tucker Adaptation (TuKA)」を提案し、これにより多様なシナリオにわたる全天候型・多シーン対応の視覚言語ナビゲーションを実現する「AlldayWalker」を開発したことを報告しています。
本論文は、ホスト型大規模言語モデル(LLM)の API 境界において、クライアントからのリクエストと返答の対応関係を非侵襲的に証明し、信頼できる仲介者による変換やストリーミング処理の完全性を保証する新しいアテステーション拡張「AEX」を提案するものである。
この論文は、SIREN オートデコーダーを用いた潜在ベクトル表現により、地震速度モデルを高忠実度で圧縮・復元し、滑らかな補間や追加学習なしの超解像といった利点を示す新しいフレームワークを提案しています。
この論文は、事前学習済み拡散トランスフォーマーの中間特徴量に物理的妥当性を予測する信号が埋め込まれていることを発見し、これを活用した推論時の軌道選択手法により、物理的整合性を向上させつつ推論コストを削減できることを示しています。
本論文は、幾何学・運動・意味情報を単一の表現で構造的に結合し、オブジェクト単位で分解された運動とキネマティクス条件付きの言語フィールドを同時学習することで、可解釈な運動プリミティブと時間的根拠を持つ言語クエリを可能にする「4D Synchronized Fields」を提案し、既存手法を大幅に上回る性能を達成したことを報告しています。
この論文は、300 以上の相互運用可能な科学スキル、計算の完全な系譜を記録する DAG 型のアーティファクト層、およびプロベナンスを考慮したガバナンスを備えた「ScienceClaw + Infinite」という自律的科学調査フレームワークを提案し、中央集権的な調整なしに自律エージェントが分散的に発見を協調し、多様な科学分野における自律的な研究サイクルと traceable な推論を実現することを示しています。
この論文は、医療画像の解釈において最先端のマルチモーダル大規模言語モデル(MLLM)が臨床的に重要な領域への視覚的グラウンディングに失敗していることを初めて体系的に実証し、追加学習なしに推論時の注意分布を最適化する「VGRefine」という手法を提案することで、複数の医療 VQA ベンチマークで最先端の性能を達成したことを報告しています。
この論文は、多モーダル大規模言語モデルが心電図解釈において表面的な視覚的手がかりに依存し、実際の視覚的証拠に基づいた段階的な臨床推論を行うことができていないことを示す新たな評価基準「ECG-Reasoning-Benchmark」を提案し、医療 AI の推論中心のトレーニングの必要性を浮き彫りにしています。
本論文は、多視点農業画像におけるスケール混乱や論理の偏りを解消するため、大規模な多視点データセット「AgroOmni」を構築し、視覚的知覚と推論を分離する新アーキテクチャ「AgroNVILA」を提案することで、高度な農業空間計画を実現したことを報告しています。
この論文は、自動運転の生涯学習における忘却や偽相関を解決するため、ディリクレ過程混合モデルと因果推論のフロントドア調整を組み合わせて動的知識空間を構築し、適応的な知識拡張と因果表現の強化を実現する「DeLL」フレームワークを提案しています。
本論文は、Transformer の計算複雑性の限界を克服し、行列値状態を持つ非線形 RNN である M²RNN を提案することで、大規模言語モデルにおいて効率的な長期依存関係の追跡と高い性能を実現することを示しています。