See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement
この論文は、音声のみから統計的な顔の事前知識や領域強化モジュール、およびトランスフォーマーベースの離散コードブックを活用して、高解像度かつ高品質な話者動画を生成する新規手法を提案し、既存の手法を上回る性能を実証したものです。
5770 件の論文
この論文は、音声のみから統計的な顔の事前知識や領域強化モジュール、およびトランスフォーマーベースの離散コードブックを活用して、高解像度かつ高品質な話者動画を生成する新規手法を提案し、既存の手法を上回る性能を実証したものです。
本論文は、言語と視覚を補完的に活用する「思考の連鎖」を学習させることで、視覚タスクにおいて大幅な性能向上と未習の視覚操作能力などの創発的知能を実現する統合モデル「ThinkMorph」を提案しています。
本論文は、医療画像セグメンテーションの性能がデータ量に対してべき乗則に従いつつも解剖学的構造に起因する誤差の下限が存在することを示し、トポロジーを考慮した拡張手法がその下限を低下させてデータ効率を向上させることを実証しています。
Flow Matching の安定性と生成品質、特に低ステップ数や軽量設定における性能向上を目指し、予測ベクトル場を安定な目標方向に引き寄せると同時にデータ多様体から外れた方向に斥くことで双方向の指導を行う「Velocity Contrastive Regularization (VeCoR)」を提案する研究です。
本論文は、動画拡散トランスフォーマーの学習長を超えた外挿における品質劣化と周期性の反復という 2 つの失敗モードが、位置符号に起因するアテンションの分散に統一的に起因することを発見し、学習不要なプラグイン手法「UltraViCo」を提案することで、外挿限界を 2 倍から 4 倍に引き上げ、既存手法を大幅に凌駕する性能を実現した。
本論文は、リモートセンシング画像におけるドメインシフトとアノテーション不足の問題を解決するため、点注釈のみを用いて「精緻化・再照会・強化」のループにより SAM を適応させる自己プロンプトフレームワーク「ReSAM」を提案し、複数のベンチマークで既存手法を上回る性能を実証したものである。
本論文は、AI エージェントの解決策の正しさだけでなくアプローチの独自性も評価する初のベンチマーク「InnoGym」を提案し、創造性と実用性の間に存在するギャップを明らかにしています。
この論文は、人間の能動的視覚に着想を得て、低解像度の画像から必要な領域を動的に選択して追加情報を取得する強化学習ベースの新しい視覚言語モデル「AdaptVision」を提案し、既存の手法よりも少ない視覚トークンで高い精度を達成することを示しています。
本論文は、画像の構造的特徴(位相スペクトル)とスタイル特徴(振幅スペクトル)をフーリエ解析を用いて明示的に分離し、双方向のクロスアテンション機構を通じて視覚言語モデルに注入することで、少数ショット汎化性能を向上させる「Fourier-Attentive Representation Learning (FARL)」という新たなフレームワークを提案しています。
本論文は、スーダンの紛争地域における火災を近リアルタイムで検出するため、4 バンドの Planet Labs 衛星画像を用いた軽量な教師なし深層学習モデル(VAE)を開発し、既存の手法よりも高い精度と再現率で 24〜30 時間以内に被害範囲を特定できることを実証したものである。
本論文は、継続的テスト時適応(CTTA)において、既存研究が固定化してきたマスキングの「家族(空間的か周波数的か)」を体系的に評価し、トランスフォーマーアーキテクチャでは空間的マスキングが安定性を保つ一方、CNN や微細なタスクでは周波数マスキングが有効となるなど、アーキテクチャとタスクの整合性に応じた最適なマスキング戦略を明らかにした。
本論文は、脳機能ネットワークを構成するノイズの多い fMRI 信号を堅牢な意味トークンに集約し、自己蒸留と学習カリキュラムを用いて安定した抽象表現を学習する自己教師ありフレームワーク「Brain-Semantoks」を提案し、これにより少量のラベル付きデータやドメイン適応なしでも多様な下流タスクで高い性能を発揮できることを示しています。
この論文は、画像とテキストの多段階的な粒度(文やフレーズなど)を階層的に整合させるために、動的なプーリングと新しい対照損失関数(β-CAL)を導入した新しいフレームワーク「β-CLIP」を提案し、ハードネガティブなしで学習する手法の中で最先端の密な視覚言語対応を実現したことを示しています。
CRISP は、単眼動画から物理的に妥当な人間運動とシミュレーション対応の環境幾何学を復元し、接触ガイダンスと強化学習を用いることで、従来の手法に比べてモーション追跡の失敗率を大幅に低減し、リアルからシミュレーションへの応用を可能にする手法です。
本論文は、拡散モデルやフローマッチングの多段階サンプリングに伴う非効率性を解消するため、ヤコビアン・ベクトル積の計算を不要としながら Classifier-Free Guidance を活用して ImageNet 256x256 において MeanFlow よりも優れた性能を達成する、ゼロから学習可能なワンステップ生成フレームワーク「SoFlow」を提案しています。
本論文は、深層学習による画像解析と家族歴データを統合した解釈可能な AI 枠組みを開発し、皮膚疾患の診断精度向上と臨床実装への道筋を示すことを目的としている。
本論文は、限られたラベル付きデータにおける3D物体検出の精度向上を目指し、教師モデルの幾何学的知識を学生モデルへ転送するキーポイントベースの幾何関係監視モジュールと、距離減衰メカニズムを備えたボクセル単位データ拡張戦略を提案する「GeoTeacher」を提案し、ONCEおよびWaymoデータセットで最先端の結果を達成したことを報告しています。
本研究は、深層学習モデルとオブジェクトベース画像解析を統合した「ForCM」手法を提案し、アマゾン熱帯雨林のマルチスペクトル・センチネル 2 画像を用いた森林被覆マッピングにおいて、従来の手法よりも高い精度を達成したことを示しています。
Diffusion Transformer の推論高速化におけるキャッシュ誤差を最小化し、既存の誤差補正手法に追加の計算コストなしに統合可能な動的計画法ベースのプラグイン「CEM」を提案し、これにより生成忠実度を大幅に向上させることを示した。
この論文は、予測の根拠となる説明を設計段階で保証する「説明の整合性」を実現するため、統計的知能と疑似線形構造を融合させた新しい深層学習フレームワーク「PiNets」を提案し、画像分類やセグメンテーションタスクにおいてその有効性を示しています。