Cross-Resolution Distribution Matching for Diffusion Distillation
本論文は、拡散モデルの推論高速化において低解像度生成と高解像度教師モデル間の分布ギャップを解消し、高忠実度を維持しながら SDXL や Wan2.1-14B などで最大 33.4 倍の高速化を実現する「クロス解像度分布整合蒸留(RMD)」という新たな蒸留フレームワークを提案するものである。
4718 件の論文
本論文は、拡散モデルの推論高速化において低解像度生成と高解像度教師モデル間の分布ギャップを解消し、高忠実度を維持しながら SDXL や Wan2.1-14B などで最大 33.4 倍の高速化を実現する「クロス解像度分布整合蒸留(RMD)」という新たな蒸留フレームワークを提案するものである。
本論文は、マルチモーダル大規模言語モデル(MLLM)の環境認識推論能力を活用し、「思考してから配置する」パラダイムと閉ループ反復最適化を導入することで、物理的な整合性を保った高品質な動画オブジェクト挿入を実現するフレームワーク「Place-it-R1」を提案するものです。
本論文は、空間色混合による歪みを用いた視覚言語モデルの知覚的脆弱性を評価し、人間との性能差を明らかにするとともに、人間の知覚に着想を得た前処理がモデルの頑健性向上に有効であることを示しています。
本論文は、非小細胞肺癌(NSCLC)患者の放射線治療中の腫瘍進化を予測するため、投与線量や臨床変数を条件としたマルチモーダル生成モデル(特に拡散モデル)を用いた「仮想治療(VT)」フレームワークを提案し、その有効性を検証したものである。
本論文は、視覚言語モデル(VLM)が標準的な高品質データでは高い性能を発揮する一方で、現実世界の画像歪み、特に低強度の空間的変換や幾何学的歪みに脆弱であることを示す包括的なベンチマーク「VLM-RobustBench」を提案し、現在のモデルが意味理解は優れているものの空間的頑健性に課題があることを明らかにしています。
この論文は、従来の拡散モデルでは機能しにくいフローマッチングモデル(FLUX など)向けに、理論的根拠に基づきトレーニング不要で生成品質とプロンプト整合性を向上させる「Reflective Flow Sampling」という新しい推論強化フレームワークを提案し、その有効性とテスト時スケーリング能力を実証しています。
この論文は、事前学習済み基盤モデルを活用して学習なしで多視点画像からセマンティックおよびパノプティックな占有予測を可能にする「FreeOcc」を提案し、教師なしおよび弱教師あり設定において最先端の性能を達成することを示しています。
本論文は、視覚言語モデルを用いたトレーニング不要の疑似ラベル生成とラベル精緻化を組み合わせた半教師あり学習フレームワークを提案し、限られたアノテーションデータでも乳房超音波画像のセグメンテーションにおいて完全教師ありモデルに匹敵する性能を達成することを示しています。
この論文は、3D ポイントクラウドとパノラマ画像の両方から基礎的なビジョン・言語特徴を抽出・整合させることで、自然言語クエリに基づいたオープンボキャブラリー意味セグメンテーションを実現し、既存の最先端手法を大幅に上回る性能を示す「JOPP-3D」という新しいフレームワークを提案しています。
この論文は、2D スライス評価と 3D 体積分析を統合した多スケール報酬を用いた強化学習(PPO)により 3D 拡散モデルを微調整し、医療画像生成の品質向上と下流タスクでの実用性を高める手法を提案しています。
既存のトレーニング不要な拡散セグメンテーション手法が、強力な生成モデルの性能向上に比例して精度が向上しない原因となる「アテンションマップの統合欠如」と「スコア不均衡」という 2 つの課題を、自動集約とピクセルごとの再スケーリングという 2 つの手法で解決し、生成能力を最大限に活用した高精度なセグメンテーションを実現する研究です。
この論文は、人工文字体系の教師あり学習で得られた識別特徴を、歴史的に実証された文字体系への教師あり学習なしの知識蒸留に転用する二段階フレームワークを提案し、明確な境界と潜在的な歴史的関連性の両方を捉えた文字類似性学習を実現するものである。
この論文は、人間の動きとヒューマノイドロボットの動きを視覚情報なしで区別する「モーション・チューリング・テスト」の枠組みを提案し、その評価に特化した大規模データセット「HHMotion」を構築するとともに、既存のマルチモーダル大規模言語モデルよりも優れた人間の動きらしさの自動評価モデルを開発したことを報告しています。
本論文は、胸部 X 線レポート生成の評価において、診断の正確性や患者の安全性を重視し、臨床的コンテキストやガイドラインに基づいてエラーの重大度を重み付けする新しいメトリクス「CRIMSON」を提案し、複数のベンチマークで専門医の判断と高い一致を示したことを報告しています。
この論文は、組織画像と空間トランスクリプトミクスデータを深層学習で融合し、異なるサンプルやプラットフォーム間でも高精度にがん領域を検出する転移学習ベースの手法「SpaCRD」を提案し、23 のデータセットを用いた検証で既存の最先端手法を上回る性能を実証したものである。
複雑な反射の除去において、不正確な言語入力の悪影響を軽減しつつ言語と視覚特徴の整合性を高める適応的言語認識ネットワーク「ALANet」を提案し、新たに作成した CRLAV データセットによる実験で最先端の性能を達成したことを示しています。
この論文は、フレームレベルの注記を必要とする従来の完全教師あり手法の課題を解決するため、各動作セグメントに単一のフレームのみをラベル付けするポイント教師ありフレームワークを提案し、マルチモーダル骨格データと擬似ラベル生成技術を活用して、注記コストを大幅に削減しながらも完全教師あり手法に匹敵する、あるいは凌駕する動作セグメント性能を達成することを示しています。
この論文は、ビジョン基盤モデル(VFM)から得られる強力な幾何学的事前知識を階層的幾何特徴アダプターを通じて注入し、3D ガウススプラッティングの精度を大幅に向上させる新しい「VG3S」と呼ばれるセマンティック占有予測フレームワークを提案しています。
この論文は、階層的事象グラフ(HEG)に基づく「事象の連鎖(Chain-of-Events)」を導きとして、ドメイン固有の教師データなしに動画、テキスト、画像を統合的に理解し、最先端の手法を上回る精度でマルチモーダル要約を実現するトレーニングフリーのフレームワーク「CoE」を提案するものです。
本論文は、3D ガウシアンスプラッティングにおいて、共分散行列の固有値から算出される固有エントロピーを用いて局所構造の秩序度を評価し、低秩序領域を優先的に増密・高秩序領域を剪定する「EntON」という幾何学的に正確かつ高品質な 3D 再構成を実現する新たな適応的増密戦略を提案し、幾何精度とレンダリング品質の向上、およびガウス数と訓練時間の削減を同時に達成することを示しています。