FC-4DFS: Frequency-controlled Flexible 4D Facial Expression Synthesizing
本論文は、周波数制御型 LSTM とマルチレベルアイデンティティ認識変位ネットワークを組み合わせることで、滑らかで柔軟な 4D 表情合成を実現する新しい手法「FC-4DFS」を提案し、CoMA および Florence4D データセットにおいて最先端の性能を達成したことを報告しています。
44 件の論文
本論文は、周波数制御型 LSTM とマルチレベルアイデンティティ認識変位ネットワークを組み合わせることで、滑らかで柔軟な 4D 表情合成を実現する新しい手法「FC-4DFS」を提案し、CoMA および Florence4D データセットにおいて最先端の性能を達成したことを報告しています。
本論文は、異なる人物の同一性を維持しつつ中立ランドマークに基づいて 4 次元の表情を合成する新しい生成モデル「LM-4DGAN」を提案し、アイデンティティ判別器、ランドマーク自動符号化器、およびクロスアテンション機構を組み合わせて既存手法の課題を克服したものである。
この論文は、Clough-Tocher 法と多二次関数 RBF 法を用いた多変数表面解析の再現性ある比較を通じて、ノイズのある観測データを単純に棄却するのではなく構造化して補間することで、熱力学プロセスシステムにおいて物理的に意味のある挙動を回復できることを示しています。
本論文は、構造レイアウトとクロスフィールドを同時に予測する学習ベースのフレームワーク「TopGen」を提案し、高品質な四角形メッシュ生成において既存の手法を上回る幾何学的忠実度とトポロジーの合理性を実現するとともに、大規模データセット「TopGen-220K」を公開したものである。
本論文は、単一の正射画像と標高モデルのみから、合成データを用いた学習により、種別ラベルや地上レーザー走査データなしに詳細な 3 次元樹木点群を再構築するニューラルネットワークフレームワーク「TreeON」を提案し、既存手法を上回る再構築品質と実世界への汎化性能を実証しています。
本論文は、RGB 深度画像を表面光場のサンプリングとして捉え、これをコンパクトな潜在ベクトルに符号化することで幾何形状と視点依存の見た目を統合的に表現する「LiTo」を提案し、単一画像から照明や材質を考慮した高品質な 3D 物体を生成する手法を示しています。
この論文は、大規模言語モデル(LLM)とグリッドベースの整数計画法を組み合わせ、テキストプロンプトから構造化された制約を抽出し、粗い解から詳細な解へと段階的に最適化する「Co-Layout」という枠組みを提案し、既存の2段階パイプラインよりも優れた室内レイアウトと家具配置の自動生成を実現するものです。
この論文は、大規模言語モデルと描画ロボットを統合した「Companion」システムが、双方向の対話を通じて人間と機械が協働する視覚的物語創作を実現し、専門家による評価でその芸術的価値が確認されたことを報告しています。
本論文は、大規模な非構造化データや基盤モデルの普及に伴う不確実性やスケーラビリティの課題に直面する AI 時代における人間・データ相互作用の現状を分析し、従来の効率性指標を超えて認知・知覚・デザイン原則を統合した新しい人間中心の分析システム構築の方向性を示唆しています。
本論文は、深層学習を用いた既存の空モデルが抱える高ダイナミックレンジにおける太陽領域の再現性不足を克服し、ユーザーが太陽や雲の配置を直感的に制御できる完全ダイナミックレンジ対応の物理的忠実度を持つ新しい空モデル「Icarus」を提案し、画像ベースライティングにおける画期的な写実性と照明精度の実現を示すものです。
PixARMesh は、単一の RGB 画像から自己回帰的に完全な 3D 室内シーンのメッシュを直接再構成し、従来の手法とは異なり、レイアウトと幾何形状を統合モデルで同時に予測することで、高品質かつ軽量なメッシュを単一のフォワードパスで生成する手法です。
この論文は、フォントスタイルと使用ケースを明示的に記述した大規模な注釈付きデータセット「FontUse」を構築し、既存の画像生成モデルをアーキテクチャ変更なしで微調整することで、提示されたテキストの視覚的スタイルと用途を高精度に反映させるデータ中心のアプローチを提案しています。
この論文は、拡散モデルで生成された動画に物理シミュレータを統合して物体の運動軌跡を物理法則に準拠させ、さらにテスト時のテクスチャ最適化手法により一貫性を高めることで、物理的に整合性が高く視覚的品質も保たれた動画生成を実現する「PSIVG」という新しいフレームワークを提案しています。
本論文は、テキストから物理的に整合性のある高品質な 3D 構成シーンを生成するために、3D ガウススプラッティングとシーングラフに基づく物理・レイアウト制約を統合した新しいフレームワーク「LayoutDreamer」を提案し、T3Bench などのベンチマークで最先端の性能を達成したことを示しています。
本論文は、単一の RGB 画像や動画から MiDaS による深度推定や画像修復、高速な 3D 投影アルゴリズムを活用して、自由視点表示に対応する光場画像や動画を含む没入型 3D 体験を生成する拡張ライブラリ「altiro3D」を提案するものである。
本論文は、拡散モデルのノイズ過程で位相成分を保持し振幅のみをランダム化することで、アーキテクチャの変更なしに幾何学的整合性を保つ構造整合生成を実現する「位相保存拡散(Phase-Preserving Diffusion)」を提案し、画像・動画の再レンダリングやシミュレーションから実世界への転移タスクにおいて高い性能を示すことを示しています。
本論文は、多視点動画から身体と形状に依存しない複数の衣類レイヤーを分解して表現する「Gaussian Wardrobe」を提案し、高忠実度な動的アバターの生成と、異なる人物間での衣類の自由な転送を可能にする仮想試着を実現するものです。
本論文は、3D ガウススプラッティングの学習中に SfM 特徴量トラックを明示的に維持し、フォトメトリック勾配と幾何学的な再投影損失を組み合わせることで、姿勢と外観を同時に最適化し、COLMAP 不要かつ高精度な 3D 再構築を実現する「GloSplat」というフレームワークを提案しています。
本論文は、ヘッドマウントカメラなどで撮影された近接映像におけるパースペクティブ歪みを効果的に捉えるため、従来の正射投影モデルに擬似パースペクティブ効果をもたらす新しい縮小パラメータを導入し、既存の 3D モデルを微調整可能にした新しいカメラモデルを提案するものである。
本論文は、方向領域における歪みや不連続性を解消し、空間および方向の両方の高周波信号を効率的に表現する新しい 5 次元の空間・方向符号化手法を提案し、ニューラルパスガイディングにおいて既存の手法を最大 2 倍の分散低減で凌駕することを示しています。