FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling
本論文は、動的なアテンションパターンの瞬時発見と閾値処理を活用し、ソートや累積のオーバーヘッドを回避することで、長文脈から短文脈まで広範なシーケンス長において極めて高速なプレフィル処理を実現する「FlashPrefill」というフレームワークを提案しています。
7354 件の論文
本論文は、動的なアテンションパターンの瞬時発見と閾値処理を活用し、ソートや累積のオーバーヘッドを回避することで、長文脈から短文脈まで広範なシーケンス長において極めて高速なプレフィル処理を実現する「FlashPrefill」というフレームワークを提案しています。
この論文は、階層的事象グラフ(HEG)に基づく「事象の連鎖(Chain-of-Events)」を導きとして、ドメイン固有の教師データなしに動画、テキスト、画像を統合的に理解し、最先端の手法を上回る精度でマルチモーダル要約を実現するトレーニングフリーのフレームワーク「CoE」を提案するものです。
この論文は、アジャント AI を活用した双方向の自然言語対話により、需要応答におけるアグリゲーターとプロシューマーの協調を自動化の効率性と人間の自律性の両立で実現する「対話型需要応答(CDR)」を提案し、その有効性とオープンソース化を報告するものである。
本論文は、自動運転における可変長の観測履歴に対応し、過去情報の明示的な補完と段階的知識蒸留を統合した「TaPD」フレームワークを提案し、特に短い観測データにおいても高精度な軌道予測を実現するものです。
本論文は、冻结されたビジョン基盤モデルから視線目標に関連する手がかりを混合エキスパート(MoE)モジュールを通じて選択的に活用し、クラス不均衡を克服しながらロボットが人間の注目を理解するための最先端性能を達成するエンドツーエンドのフレームワーク「GazeMoE」を提案するものです。
この論文は、時間制約付きオリエントリング問題(OPTWVP)の離散・連続変数を効率的に解くために、サービス時間ガイダンス付き軌道を用いた二段階の学習ベース最適化手法「DeCoST」を提案し、既存の手法よりも高い解の品質と計算効率を実現することを示しています。
本論文は、視覚言語モデルの剪定をマルチ目的の条件付きリソース配分問題として定式化し、視覚感度シグナルと多目的 GRPO を活用して、ハルシネーション耐性とタスク性能のバランスを制御可能な階層的剪定フレームワーク「HiPP-Prune」を提案するものである。
本論文は、放射線学における質問応答タスクにおいて、アージェント検索拡張推論がモデル間の変動下での意思決定の分散を減少させ、合意の強化と正答の堅牢性の向上をもたらすことを示し、信頼性の評価には精度や合意度だけでなく、安定性や臨床的影響の分析も不可欠であると結論付けています。
この論文は、ファジー認知図(FCM)を模倣し、ランジュバン微分ダイナミクスを用いて過学習を防ぎながら因果パターンを学習し、出力ノードの逆解を通じて修正基準を導き出すニューラル実装 FHM の設計とその評価について述べている。
この論文は、因果制約下でのトークンの累積的依存関係を考慮し、位置依存のトップk 選択と出力感知メトリックを導入することで、長文脈におけるスパースアテンションの計算効率と精度を両立させる新しいモジュール「Stem」を提案しています。
この論文は、気候変動による都市交通システムの洪水リスクに対処するため、強化学習を用いて投資コストと被害回避のトレードオフを最適化する適応戦略を学習する意思決定支援フレームワークを提案し、コペンハーゲンの事例研究を通じて従来の手法よりも優れたレジリエントな適応経路を発見できることを示しています。
この論文は、物理情報に基づく極端学習機械(PIELM)のランダムな初期化という限界を克服し、重み付き EM アルゴリズムを用いて誤差の大きい領域に適応的にラジアル基底関数の中心を配置する確率的枠組み「GMM-PIELM」を提案することで、急峻な勾配を持つ剛性 PDE の高精度かつ高速な解決を実現したものである。
この論文は、ユーザーデータの断片化と非構造化ベクトル検索の限界を克服するため、多様なデータを意味トリプルに変換し、グラフ検索と深視覚的再照合を統合した神経記号アーキテクチャ「EpisTwin」を提案し、信頼性の高いパーソナル AI の実現に向けた新たな方向性を示すものです。
この論文は、従来の手法では扱いが難しかった自己回帰型ビジョン・ランゲージモデルの意思決定プロセスを、トークンごとの生成過程における注意マップの勾配を計算し、動的なヘッドフィルタリングとシーケンスレベルの集約によって画像領域の重要度を可視化する新しい説明可能性手法「DEX-AR」を提案し、ImageNet、VQAv2、PascalVOC での評価で既存手法を上回る性能を示したことを述べています。
この論文は、LLM の応答に対する解釈可能で較正された不確実性を、埋め込み空間におけるエントロピースコアの計算、プラットスケーリングによる較正、そして強化学習による事後学習という 3 段階のパイプラインで効率的に推論できるようにする手法を提案し、既存の事後推定手法よりも優れた較正性と汎化性能を実証しています。
この研究は、身体活動意欲を高めるための 4 週間のフィールド調査を通じて、行動変容技法の選択における構造化された探索(バンディット)と生成の柔軟性(LLM)を比較し、LLM による文脈に応じた応答がユーザーの支援感を高めた一方で、LLM 単独とバンディット最適化の組み合わせに有意な差は見られなかったことを明らかにしています。
本論文は、再帰的自己改善におけるアライメントのドリフトを防止し、コード生成や推論タスクでの性能向上を可能にするため、目標ドリフト指数、制約保持チェック、回帰リスク定量化の 3 つのセーフガードを組み合わせた実用的なフレームワーク「SAHOO」を提案するものである。
この論文は、CT 画像と構造輪郭から直接実行可能な放射線治療計画を 1 秒未満で生成する深層学習フレームワーク「AIRT」を提案し、1 万例以上の前立腺症例を用いた訓練により、従来の RapidPlan Eclipse と同等の品質を達成したことを報告しています。
K-MaT は、臨床テキストにアンカーされたプロンプトと融合グロモフ・ワシュタイン最適輸送を用いて高解像度画像モデルの決定構造を低解像度画像へ転送し、トレーニングデータなしで医療 VLM のクロスモーダル適応と性能向上を実現する手法です。
この論文は、大規模言語モデルにおける混合専門家(MoE)の推論時に生じる専門家間の負荷偏りを解消し、レイテンシを 43%、コストを 84% 削減することを可能にする、初のサーバーレス MoE 推論フレームワーク「MoEless」を提案するものである。