RSH-SpMM: A Row-Structured Hybrid Kernel for Sparse Matrix-Matrix Multiplication on GPUs
本論文は、実世界の疎行列における極端な不規則性に対応し、Tensor Core の利用率とスループットを最大化するため、適応的な行分割と RS-Tile 表現を採用したハイブリッドカーネル「RSH-SpMM」を提案し、最先端の手法と比較して最大 6.13 倍の高速化を実現したことを報告しています。
3462 件の論文
本論文は、実世界の疎行列における極端な不規則性に対応し、Tensor Core の利用率とスループットを最大化するため、適応的な行分割と RS-Tile 表現を採用したハイブリッドカーネル「RSH-SpMM」を提案し、最先端の手法と比較して最大 6.13 倍の高速化を実現したことを報告しています。
この論文は、曖昧な仕様や形式保証の欠如といった産業規模のハードウェア設計における課題を克服するため、ソフトウェア参照モデルを形式仕様として統合し、計画・合成・形式等価性検査を密接に連携させる新しいマルチエージェントフレームワーク「FormalRTL」を提案し、大規模な産業グレードのベンチマークによる評価でその有効性を示したものです。
この論文は、LLM 推論における KV キャッシュのオフロードを多目的最適化問題として定式化し、非解析的な目的関数と複雑な変数結合を効率的に処理する「Kareto」という適応型最適化ツールを提案することで、コスト、スループット、レイテンシのバランスを最適化し、固定構成に比べて最大 9.3% のスループット向上や最大 58.3% のレイテンシ削減を実現することを示しています。
この論文は、安全クリティカルシステム向けに開発された機械学習用 C 言語コード生成フレームワーク「ACETONE」を、マルチコアアーキテクチャに対応させるため、プロセッサ割り当て問題の定義や既存手法の調査を通じて並列コード生成機能の拡張を提案するものである。
本論文は、計算内蔵メモリ(CIM)アクセラレータの設計空間探索を自動化し、大規模言語モデル(LLM)エージェントと設計空間剪定技術を用いてシミュレーションから最適化までのワークフローを効率化し、DNN ワークロードに対する最適構成の迅速な特定を可能にする「ChatNeuroSim」というフレームワークを提案するものである。
本論文は、有権者の分布シナリオに基づいて複数の選挙制度をシミュレーションし、その結果と有権者分布の幾何学的中央値との距離を評価するオープンソースの Python フレームワーク「electoral_sim」を提案し、既存の制度から理論的な上限性能を示す仮想的な新方式までを比較検証したものである。
複数の ML モデルをタスクグラフとして構成する化合物推論システムに対し、モデルのバリエーション選択と GPU の空間的パーティショニングを統合的に最適化することで、既存の手法と比較して最大 11.3 倍のサービス処理能力を実現し、高い精度と低遅延を維持しながら GPU リソースを大幅に削減する「JigsawServe」という新しい推論サービスフレームワークを提案する論文です。
この論文は、CLIP ベースの視覚エンコーダが抱える細粒度理解の課題と DINOv3 が持つ粗粒度抽象化の欠点を補うため、テキスト入力に応じて視覚抽象化レベルを動的に調整する「Granulon」という新しいマルチモーダル大規模言語モデルを提案し、単一のフォワードパスでピクセルから粗粒度までを統合的に推論可能にすることで、精度の向上とハルシネーションの削減を実現したことを示しています。
任意の距離空間に値を持つ時系列のマッチング問題に対し、ヘリングカーネルを伸縮ペナルティとして用いる最適化手法「弾性時間歪み(Elastic Time Warping)」アルゴリズムを提案し、その計算量を立方(O(n³))に抑えている。
この論文は、3D ガウススプラッティングの品質を損なわずにロバストな透かし埋め込みを実現し、どのガウスプリミティブに情報を埋め込み、なぜそれが選択されたかを説明可能な「Trio-Experts」モジュールと「SBAG」ゲートを用いた新しいフレームワークを提案するものです。
この論文は、高齢者が日常生活支援を行う社会ロボットからの視線手がかりを若年層と比較してどのように知覚するかを調査し、加齢に伴う変化を考慮した適応的な非言語キューの設計に貢献することを目的としています。
本論文は、視覚生成エージェントにおける中間エラー修正のための体系的なリフレクション機構の欠如を解決するため、リフレクションと計画の非対称性を踏まえた「リフレクション・プラン共最適化(RPCO)」トレーニング手法を提案し、これにより単一画像および複数画像タスクにおいて既存のベンチマークで Gemini2.5 Pro を凌駕する VisionCreator-R1 を開発したことを報告しています。
本論文は、視覚言語モデルを用いた階層的なマッサージロボット「HMR-1」を提案し、12,190 枚の画像と 17 万 4,177 組の QA ペアからなるマルチモーダルデータセット「MedMassage-12K」および評価ベンチマークを構築することで、医療分野における身体知能の課題を解決し、実機実験を通じてその実用性を検証したものです。
この論文は、HCI と高齢化研究の分野への参入障壁をテーマに、高齢者ニーズと技術設計の乖離を指摘するとともに、シニアコミュニティでのボランティア活動を通じて培った共感や理解の深まりを、2 人の研究者が自らの経験に基づき振り返った内容を示しています。
この研究は、オンライン動画実験を通じて、ロボットが失敗した際の種類(ミス、スリップ、凍結)が人間の信頼度に与える影響が異なり、ミスはスリップや凍結よりも信頼回復に寄与しやすく、その後の成功が信頼を回復させることを明らかにしました。
この論文は、存在量化変数の数 をパラメータとする d-QBF 問題において、一般には ETH 仮説の下で $2^{2^{o(k)}}\forall\exists$-QBF)に限定された場合にはより効率的なアルゴリズムとほぼ最適な下界を示すことで、既存研究のギャップを埋める結果を報告しています。
この論文は、4 台のカメラからの画像を逆透視写像(IPM)で統合し、YOLOv8 を用いた物体検出と 3D 座標プロットによる空きスペースの可視化を実現する、コスト効果が高く実装容易なコンピュータビジョンベースのスマート駐車割当システムを提案しています。
本論文は、異質なデータ分布を持つ水平フェデレーテッド学習環境において、従来の手法が抱えるバイアスや過剰なノイズの問題を解決し、中央集権的な合成と同等の有用性を達成する新たな差分プライバシー対応表形式データ合成フレームワーク「HeteroFedSyn」を提案するものです。
本論文は、視覚障害者向けに高精度な視覚位置推定技術とエージェント型アーキテクチャを組み合わせ、音声による場所の注釈作成と精密なナビゲーションを可能にする「NaviNote」を開発し、その有効性をユーザー評価で実証したものである。
大規模言語モデル(LLM)の批判的思考への影響は時間制約に依存し、時間的制約がある場合は初期段階での LLM 利用がパフォーマンスを向上させるが、十分な時間があれば逆に阻害するという逆転現象が実験(n=393)で示されました。