TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation
この論文は、教師-学生蒸留アプローチ、アイデンティティ固定、時間的正則化、および視覚音素に基づく音声条件付けを統合した「TempoSyncDiff」を提案し、低遅延かつ時間的に一貫した高品質な音声駆動トークングヘッド生成を実現する軽量潜在拡散フレームワークを提示しています。
4146 件の論文
この論文は、教師-学生蒸留アプローチ、アイデンティティ固定、時間的正則化、および視覚音素に基づく音声条件付けを統合した「TempoSyncDiff」を提案し、低遅延かつ時間的に一貫した高品質な音声駆動トークングヘッド生成を実現する軽量潜在拡散フレームワークを提示しています。
本論文は、ロボティクスや自動運転で収集された既存の全方向 RGB-LiDAR ログを、歪み補正や効率的なサンプリング、マルチモーダル登録などの処理を経て 3D ガウススプラッティング(3DGS)の初期化資産へと変換し、高品質なデジタルツイン構築を可能にするパイプラインを提案するものです。
この論文は、テキストと変化する感情記述を入力として、自然な感情の連続的な変化を反映したリアルな喋り顔動画を生成する新たなタスク「EC-TFG」と、そのための時感情変動モデリングを採用したモデル「TIE-TFG」を提案し、滑らかな感情遷移と高品質な視覚的・運動的実在性を達成することを示しています。
この論文は、LLM や MLLM のハルシネーション検出を動的システム安定性理論の観点から捉え、事実知識を安定な平衡点、ハルシネーションを不安定な領域の境界とみなすことで、入力摂動に対する信頼度の単調減少を強制する軽量な「Lyapunov Probes」を提案し、既存の手法を上回る検出性能を実現したことを報告しています。
本論文は、RGB 画像の符号化に代わって深度画像の特性を活用し、専用データセットと改良されたエンコーダを導入することで、3 次元シーン理解を飛躍的に向上させた初の深度特化型マルチモーダル大規模言語モデル「DeepSight」を提案するものである。
この論文は、監視映像やビデオ通話などの静止シーン動画において、短期間の時間的変化を「ポジティブ・インセンティブ・ノイズ」として再解釈し、モデルの微調整に活用することで、従来のニューラル動画圧縮が抱える課題を克服し、画素レベルの忠実度を維持しながら帯域幅を大幅に削減する手法を提案しています。
FedARKS は、個人再識別におけるフェデレーテッドドメイン汎化の課題である、局所的な詳細の欠如と高品質クライアントの貢献の希薄化を克服するため、頑健な知識と選択的統合の二つのメカニズムを導入した新しいフレームワークを提案するものです。
本論文は、拡散モデルの推論高速化において低解像度生成と高解像度教師モデル間の分布ギャップを解消し、高忠実度を維持しながら SDXL や Wan2.1-14B などで最大 33.4 倍の高速化を実現する「クロス解像度分布整合蒸留(RMD)」という新たな蒸留フレームワークを提案するものである。
本論文は、マルチモーダル大規模言語モデル(MLLM)の環境認識推論能力を活用し、「思考してから配置する」パラダイムと閉ループ反復最適化を導入することで、物理的な整合性を保った高品質な動画オブジェクト挿入を実現するフレームワーク「Place-it-R1」を提案するものです。
本論文は、空間色混合による歪みを用いた視覚言語モデルの知覚的脆弱性を評価し、人間との性能差を明らかにするとともに、人間の知覚に着想を得た前処理がモデルの頑健性向上に有効であることを示しています。
本論文は、非小細胞肺癌(NSCLC)患者の放射線治療中の腫瘍進化を予測するため、投与線量や臨床変数を条件としたマルチモーダル生成モデル(特に拡散モデル)を用いた「仮想治療(VT)」フレームワークを提案し、その有効性を検証したものである。
本論文は、視覚言語モデル(VLM)が標準的な高品質データでは高い性能を発揮する一方で、現実世界の画像歪み、特に低強度の空間的変換や幾何学的歪みに脆弱であることを示す包括的なベンチマーク「VLM-RobustBench」を提案し、現在のモデルが意味理解は優れているものの空間的頑健性に課題があることを明らかにしています。
この論文は、従来の拡散モデルでは機能しにくいフローマッチングモデル(FLUX など)向けに、理論的根拠に基づきトレーニング不要で生成品質とプロンプト整合性を向上させる「Reflective Flow Sampling」という新しい推論強化フレームワークを提案し、その有効性とテスト時スケーリング能力を実証しています。
この論文は、事前学習済み基盤モデルを活用して学習なしで多視点画像からセマンティックおよびパノプティックな占有予測を可能にする「FreeOcc」を提案し、教師なしおよび弱教師あり設定において最先端の性能を達成することを示しています。
本論文は、視覚言語モデルを用いたトレーニング不要の疑似ラベル生成とラベル精緻化を組み合わせた半教師あり学習フレームワークを提案し、限られたアノテーションデータでも乳房超音波画像のセグメンテーションにおいて完全教師ありモデルに匹敵する性能を達成することを示しています。
この論文は、3D ポイントクラウドとパノラマ画像の両方から基礎的なビジョン・言語特徴を抽出・整合させることで、自然言語クエリに基づいたオープンボキャブラリー意味セグメンテーションを実現し、既存の最先端手法を大幅に上回る性能を示す「JOPP-3D」という新しいフレームワークを提案しています。
この論文は、2D スライス評価と 3D 体積分析を統合した多スケール報酬を用いた強化学習(PPO)により 3D 拡散モデルを微調整し、医療画像生成の品質向上と下流タスクでの実用性を高める手法を提案しています。
既存のトレーニング不要な拡散セグメンテーション手法が、強力な生成モデルの性能向上に比例して精度が向上しない原因となる「アテンションマップの統合欠如」と「スコア不均衡」という 2 つの課題を、自動集約とピクセルごとの再スケーリングという 2 つの手法で解決し、生成能力を最大限に活用した高精度なセグメンテーションを実現する研究です。
この論文は、人工文字体系の教師あり学習で得られた識別特徴を、歴史的に実証された文字体系への教師あり学習なしの知識蒸留に転用する二段階フレームワークを提案し、明確な境界と潜在的な歴史的関連性の両方を捉えた文字類似性学習を実現するものである。
この論文は、人間の動きとヒューマノイドロボットの動きを視覚情報なしで区別する「モーション・チューリング・テスト」の枠組みを提案し、その評価に特化した大規模データセット「HHMotion」を構築するとともに、既存のマルチモーダル大規模言語モデルよりも優れた人間の動きらしさの自動評価モデルを開発したことを報告しています。