Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search
本論文は、拡散モデルの段階ごとのスパース性スケジュールを進化探索で最適化し、モデル複製なしにメモリ効率よく実行する「Diff-ES」という構造剪定フレームワークを提案し、DiT や SDXL における生成品質を維持しつつ大幅な高速化を実現するものです。
5475 件の論文
本論文は、拡散モデルの段階ごとのスパース性スケジュールを進化探索で最適化し、モデル複製なしにメモリ効率よく実行する「Diff-ES」という構造剪定フレームワークを提案し、DiT や SDXL における生成品質を維持しつつ大幅な高速化を実現するものです。
本論文は、NK 細胞と腫瘍細胞の相互作用から細胞死の帰結を時間経過とともに予測し、解釈可能な行動モードを抽出するための、軌跡ベースの再帰的状態空間モデル「BLINK」を提案するものである。
本論文は、異なるモダリティや属性定義を単一のモデルで統合的に処理し、既存の手法に匹敵する性能と優れた汎化能力を実現する歩行者属性認識のための統一フレームワーク「UniPAR」を提案するものです。
本論文は、勾配の不安定性や鋭い極小値への収束といった既存の手法の課題を克服するため、グローバルな意味情報に基づいて不整合なクリップを特定・再配向し、多目的最適化関数を用いて視覚的差異を最大化しつつ意味的一貫性を保つ「SRasP」という新たな敵対的スタイル摂動手法を提案し、ドメイン間少ショット学習の汎化性能を向上させることを示しています。
この論文は、人間の認知に着想を得て、タスクの複雑さに応じて即座に行動するか推論するか、あるいは異常検知時に実行を中止するかを動的に選択する適応型フレームワークを提案し、視覚情報のみを用いることで少量のデータでも高い精度でタスク複雑性を検出できることを実証しています。
本論文は、複雑な照明下での光沢のある表面の再構築を可能にするため、直接反射と間接反射をそれぞれモデル化し、幾何学的な事前知識を活用して反射領域のフォトメトリック損失を調整する「SSR-GS」と呼ばれる新しいフレームワークを提案し、合成および実世界のデータセットにおいて最先端の性能を達成することを示しています。
本研究は、胸部 X 線画像の診断モデルにおける人種的バイアス(ショートカット学習)を抑制しつつ診断精度を維持するために、単純な肺領域の切り出し(クロッピング)が効果的な前処理手法であることを明らかにしました。
この論文は、モーションブラーを含むぼやけた画像からジェネリックカメラを較正する際、幾何学的制約と局所的なパラメトリック照明モデルを用いて特徴点位置と空間的に変化する点広がり関数を同時に推定し、従来の画像復元では無視される並進の曖昧さを解決する手法を提案し、その有効性を実験で検証したものである。
本論文は、マルチモーダルグラフの構造的関係性を活用し、クロスモーダル整合性の欠如と異種モダリティの偏りを解決するために、グラフ条件付き VLM とモダリティ適応型インストラクションチューニングを導入した LLM 向け統合理論フレームワーク「Mario」を提案し、多様なベンチマークで最先端の性能を達成したことを報告しています。
本論文は、視覚的手がかりから学習可能な論理ルールを符号化し、患者の活動認識において「なぜ」そのリスクが発生するかを説明可能な推論と介入シミュレーションを可能にする、初の論理統合型フレームワーク「Logi-PAR」を提案し、臨床ベンチマークで最先端の性能を達成したことを報告しています。
この論文は、医療画像セグメンテーションにおけるクラス不均衡とバイアス問題に対処するため、クラス条件付き特徴分布の学習を通じて教師あり・表現バイアスを軽減するプラグアンドプレイモジュール「SCDL」を提案し、Synapse および AMOS データセットでの実験により、特に少数クラスの性能向上を含む最先端の結果を実証したものである。
本論文は、衛星画像と物理モデル(表面エネルギー収支や移流拡散反応方程式)を統合し、半教師あり学習と物理ガイド付き注意機構を用いて、地上観測点の不足を補いながら近地表気温を物理的に整合性のある高精度で推定する「SPyCer」という手法を提案し、その有効性を示したものである。
この論文は、視覚言語モデル(VLM)による意味推論、多モーダル知覚、およびデジタルツイン技術を活用し、変形する衣類と異物の認識・分類を可能にする自律的なテキスタイル選別ロボットシステムの開発とその実用性を示したものである。
本論文は、多施設・多プロトコルにわたる大規模な ASL 脳血流データを用いた自己教師あり学習(3D マスクドオートエンコーダー)により、従来の手法を上回る汎用性と頑健性を持つ ASL 脳血流マップの表現学習アプローチ「ICHOR」を提案し、下流の診断タスクや品質予測タスクで高い性能を発揮することを示したものである。
本論文は、リアルタイム性やノイズといった実世界の課題を解決するため、非同期な特徴ストリームの同期、ノイズ除去、および適応的な特徴選択を行う「CATNet」と呼ばれる協調知覚フレームワークを提案し、その有効性を検証したものである。
本論文は、知識ベースの視覚的質問応答(KB-VQA)において、外部知識の統合を伴う推論能力を向上させるため、学習段階に応じてデータ難易度を制御し、有益なサンプルを選択的に学習させる「Wiki-R1」という強化学習フレームワークを提案し、主要ベンチマークで最先端の性能を達成したことを報告しています。
本論文は、事前学習と下流タスク間の分布シフトが Vision Transformer の深い層の性能低下の主要因であることを示し、分布シフトの強さに応じてフィードフォワードネットワーク内の活性化またはマルチヘッド自己注意モジュールの正規化出力をそれぞれプローブすることで、分布外(OOD)検出を最適化できることを明らかにしています。
WebChain は、視覚・構造・行動データの三重アライメントを備えた大規模な人間注釈付き Web 操作データセットであり、これを用いたデュアル・ミッドトレーニング手法が Web エージェントの性能向上に貢献する研究です。
本論文は、LiDAR と RGB データを融合する 3D 物体検出において画像情報の活用が不十分という課題に対し、コントラストアライメントやカメラ補助ブランチ、事前学習済み重みの活用などを組み合わせた「Fusion4CA」を提案し、nuScenes データセットで既存手法を大幅に上回る精度を極めて少ないエポック数とパラメータ増加で達成したことを報告しています。
この論文は、拡散トランスフォーマー(DiT)の推論コストを削減するために、時間・深さ・特徴量の非均一性を考慮した「SpectralCache」という新しいキャッシング手法を提案し、既存の手法よりも 16% 高速化しながら同等の画質を維持できることを示しています。