AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization
AdaFuse は、トークン単位の事前ゲートングとカスタム CUDA カーネルによる融合最適化を組み合わせることで、動的アダプター推論におけるレイテンシを 2.4 倍以上削減しつつ、精度を維持する新しいフレームワークを提案する。
3603 件の論文
AdaFuse は、トークン単位の事前ゲートングとカスタム CUDA カーネルによる融合最適化を組み合わせることで、動的アダプター推論におけるレイテンシを 2.4 倍以上削減しつつ、精度を維持する新しいフレームワークを提案する。
この論文は、大規模モデルに依存せず、厳密にキュレーションされたデータ幾何学構造(ミラー・デザインパターン)と線形モデルを用いることで、低遅延かつ高信頼性のプロンプトインジェクション検出を実現し、L1 レベルの防御においてモデルの規模よりもデータの厳密な設計が重要であることを示しています。
本論文は、NVIDIA の Minitron 手法に着想を得た構造化プルーニングと知識蒸留、および高度なアライメントパイプラインを組み合わせることで、ポーランド語および欧州言語に特化した大規模言語モデル「Bielik-11B」をパラメータ数を約 33% 削減しつつ推論速度を最大 50% 向上させ、かつベースラインの性能の約 90% を維持する「Bielik-Minitron-7B」を構築したことを報告しています。
この論文は、マルチターン対話における連続的な動画ストリームの推論を可能にするため、セグメントレベルのメモリを維持し、視聴と思考を並行して行う「Think While Watching」という新しいフレームワークを提案し、Qwen3-VL 基盤で StreamingBench や OVO-Bench などのベンチマークにおいて高い精度と効率的なトークン生成を実現したことを示しています。
本論文は、確率論的学習パラダイムである「engression」とトランスフォーマーの表現力を統合し、パラメトリックな仮定を課さずに複雑な多変量予測分布を直接学習することで、高品質な確率論的予測を実現する深層生成モデル「EnTransformer」を提案し、複数のベンチマークデータセットにおいて既存モデルを上回る性能を実証したものである。
この論文は、一見无害なタスクであってもユーザーから有害な内容が提供された際、最新のLLMが倫理的に適切に拒絶できず、その内容やタスクの種類によって脆弱性が異なることを実証し、見過ごされがちなコンテンツレベルの倫理リスクへの対策を促すものである。
本論文は、モバイルデバイス向けカーネル生成の課題を特定し、その評価フレームワーク「MobileKernelBench」を提案するとともに、リポジトリ認識型推論と計画・実行パラダイムを備えたマルチエージェントシステム「MoKA」を開発することで、コンパイル成功率と実行速度の大幅な向上を実現したことを報告しています。
この論文は、交差性基準とカスタム公平性損失を用いたニューラルネットワークモデル「Fair-PaperRec」を提案し、査読後の論文採択における人種や国籍などの人口統計学的バイアスを大幅に軽減しつつ、学術的品質を維持して多様性と公平性を両立させることを実証しています。
この論文は、自由記述の放射線レポートから抽出した視覚プロトタイプを知識として活用し、構造化レポートの生成における微細な属性判断の精度を向上させる新たな手法「ProtoSR」を提案し、Rad-ReStruct ベンチマークで最高性能を達成したことを報告しています。
本論文は、グラフニューラルネットワークの過圧縮問題を緩和するため、大域的な信号である有効抵抗を用いて構造上のボトルネックを検出し、エッジの追加と削除を反復的に行うパラメータフリーのトポロジー修正手法「有効抵抗リワイヤリング(ERR)」を提案し、その性能と埋め込み幾何学への影響を分析したものである。
本論文は、確率回路(PC)の混合重みにボロノイ分割を導入してデータ多様体の局所幾何構造を捉えることを提案し、その計算の困難さに対処するために近似推論枠組みと厳密な推論を可能にする構造条件の 2 つの解決策を提示するとともに、微分可能な緩和手法を通じて勾配ベースの学習を可能にしています。
この論文は、トリガーの発現と悪意ある動作の発動を時間的に分離する「遅延型バックドア攻撃(DBA)」という新たな脅威を提案し、その実証プロトタイプ「DND」が自然言語処理タスクにおいて高品質な正常動作を維持しつつ、防御策を回避して制御された遅延後に高い攻撃成功率を達成することを示しています。
本論文は、多様なセンサー設定に汎用可能な言語整合表現を学習するためのオープンソースフレームワーク「SLIP」を提案し、対照的アライメントとセンサー条件付きキャプション生成を統合することで、ゼロショット転移や信号の要約、質問応答などのタスクにおいて既存手法を上回る性能を実現したことを報告しています。
本論文は、ABAW 10 番目の EXPR チャレンジ向けに、CLIP と Wav2Vec 2.0 を活用した事前学習モデル、時系列モデルである TCN、および双方向クロスアテンション融合モジュールを統合し、野外環境におけるロバストなマルチモーダル感情認識を実現するフレームワークを提案しています。
この論文は、人間の被験者実験の設計をマルチエージェント AI 環境へ体系的に変換する「NormCoRe」という新たな方法論的枠組みを提案し、公平性に関する規範的合意形成を研究するための基盤を提供するとともに、AI エージェントの規範的判断が基礎モデルや言語設定に敏感に依存し、人間の基準と異なる可能性があることを示しています。
この論文は、家庭環境における embodied agent の安全評価を目的とした新しいベンチマーク「HomeSafe-Bench」と、リアルタイムな安全性監視を実現する階層的な「HD-Guard」アーキテクチャを提案し、既存の VLM ベースの安全検出における課題と解決策を明らかにしています。
この論文は、米国労働安全衛生局(OSHA)や世界調和システム(GHS)の基準に基づき、実験室環境における危険特定や安全重視の推論を評価するための新しいマルチモーダルベンチマーク「LABSHIELD」を提案し、現在の多モーダル大規模言語モデルが専門的な実験室シナリオにおいて安全性に関する判断能力に大きな欠如があることを明らかにしています。
本論文は、従来の NLI ベースのモデルに加え、埋め込みモデルやリランカー、大規模言語モデルを含む多様なゼロショットテキスト分類アプローチを公平に評価するための包括的ベンチマーク「BTZSC」を提案し、最新の 8B パラメータのリランカーが最高性能を達成しつつ、埋め込みモデルが精度と遅延のバランスにおいて優位であることを示しています。
この論文は、クライアント数に依存せず少数の共有モデル(K 個)で多数のクライアントを効率的にパーソナライズする「Few-for-Many」最適化問題を定式化し、クラスタリングや補間などの既存手法よりも優れた性能を達成する新しいアルゴリズム「FedFew」を提案するものです。
本論文は、強化学習ファインチューニング(RFT)がタスク難易度内ではよく一般化し、連続学習や環境混合学習によって転移と忘却のバランスを改善できる一方で、環境やインターフェースが異なる未知の環境への転移は限定的であることを実証的に明らかにしています。