Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control
本論文は、参照ベースの注意共有メカニズムと深度マップの活用によるビュー一貫性の向上、およびセグメンテーションマスクに基づく多領域スタイル転送を可能にする新しい損失関数の導入を通じて、テキスト駆動型の 3D シーンスタイライゼーションの品質と一貫性を大幅に改善する手法を提案しています。
5768 件の論文
本論文は、参照ベースの注意共有メカニズムと深度マップの活用によるビュー一貫性の向上、およびセグメンテーションマスクに基づく多領域スタイル転送を可能にする新しい損失関数の導入を通じて、テキスト駆動型の 3D シーンスタイライゼーションの品質と一貫性を大幅に改善する手法を提案しています。
LADB は、部分的な対データを用いて事前学習済み拡散モデルと潜在空間の整合性を保つことで、データ不足や完全な対データが不要な状況でも高品質なドメイン変換を可能にする半教師ありフレームワークです。
本論文は、多様な撮影条件下で収集された包括的なデータセット「TrueSkin」を提案し、既存の大規模マルチモーダルモデルや生成モデルにおける肌色認識・生成のバイアスを解明するとともに、本データセットを用いた学習により認識精度と生成忠実度を大幅に向上させることを示しています。
この論文では、拡散トランスフォーマー(DiT)の推論遅延を削減し、中間ステップにおける特徴量の高い類似性を利用したブロック単位キャッシング(BWCache)を提案することで、視覚品質を維持したまま最大 6 倍の高速化を実現するトレーニング不要な手法を提示しています。
脳機能ネットワークの階層的な構造を歪みなく表現するために双曲幾何学に基づく「Brain-HGCN」を提案し、精神疾患の分類タスクにおいて既存のユークリッド空間ベースの手法を大幅に上回る性能を達成したことを示した。
この論文は、3D 手のポーズ解析と新規な記述子 IHSE を活用した多段階フレームワーク「I2S」を提案し、AR 環境におけるリアルタイムかつ軽量なユーザー認証を可能にする高精度な人間 - 物体相互作用認識を実現したものである。
この論文は、深層特徴の内在的な幾何学構造を拡散マップと微分可能なニュートロム補間を用いてモデル化し、可視的かつ解釈可能な細粒度認識においてユークリッド距離に基づくプロトタイプ手法を大幅に上回る性能を達成する「GeoProto」という新たな手法を提案するものである。
既存のテキスト生成画像モデルが持つ物理的・解像度の事前知識を、学習不要のフレームワーク「SHINE」を用いて活用し、複雑な照明や反射を考慮した高品質な画像合成を実現するとともに、その評価基準となる新しいベンチマーク「ComplexCompo」を提案する論文です。
本論文は、既存の三角形メッシュ変換方式の課題を克服し、混合トポロジーのトークン化と tDPO と呼ばれる強化学習微細化手法を採用することで、四角形メッシュを直接生成する初の自己回帰型フレームワーク「QuadGPT」を提案し、幾何学的精度とトポロジー品質の両面で大幅な改善を実現したことを示しています。
本論文は、有限速度の確率流と減衰波動方程式に基づく Kac 表現を導入し、終点のみでの蒸留と速度空間におけるクラスラフリーガイダンスを組み合わせることで、極めて少ない関数評価回数で高品質な画像を生成しつつ数値的安定性を維持する「DistillKac」と呼ばれる高速画像生成モデルを提案しています。
本論文は、既存の評価手法の限界を克服し、自動化パイプラインを用いた「感情ステートメント判定」タスクを提案することで、マルチモーダル大規模言語モデルの視覚的感情認識能力をオープンボキャブラリーかつ多角的に評価する新たな枠組みを構築し、現状のモデルと人間の間に依然として大きなギャップがあることを明らかにしています。
この論文は、医療画像セグメンテーションから導出されるメトリック(例:臓器の大きさ)の不確実性を効率的に保証するために、深層学習モデルの中間特徴量空間を利用した新しい共形予測フレームワーク「COMPASS」を提案し、従来の手法よりも狭い信頼区間を実現しつつ、共変量シフト下でも目標カバレッジを維持できることを示しています。
本論文は、視覚的認識から記号的推論に至るまでエンジニアリング設計の階層的プロセスを評価する新たなベンチマーク「CircuitSense」を提案し、既存のマルチモーダル大規模言語モデルが視覚情報の数式化において重大な限界を抱えていることを明らかにした。
この論文は、中間特徴空間を介さずに脳活動から直接画像を生成するフレームワーク「NeuroAdapter」と、拡散モデルの生成過程における脳領域の寄与を可視化する解釈性フレームワーク「IBBI」を提案し、脳信号に基づく視覚復元の透明性と解釈可能性を向上させたことを示しています。
本論文は、文字レベルの生成に依存する既存手法の課題を解決し、OCR 損失とスタイル分類損失による二重正則化を備えた InkVAE と、潜在拡散トランスフォーマーである InkDiT を組み合わせた「DiffInk」を提案することで、テキストから高品質かつ効率的な全行のオンライン手書き生成を実現するものです。
本論文は、教師あり学習と強化学習を反復的に組み合わせる「SMART-R1」という新しい微調整手法を提案し、Waymo Open Sim Agents Challenge でリアルタイムシミュレーションの性能を大幅に向上させ、首位を獲得したことを報告しています。
この論文は、大規模な人間評価データセットを用いて訓練された新しい報酬モデル「EditReward」を提案し、指示に基づく画像編集タスクにおける人間の嗜好との高い整合性を示すことで、高品質な合成学習データの拡張や編集モデルの性能向上に貢献することを報告しています。
Stylos は、ポーズ情報やシーンごとの最適化を必要とせず、単一の画像から多視点の 3D 画像まで、参照スタイル画像に基づいて幾何学的忠実性と視点一貫性を両立したゼロショット 3D 様式変換を実現する、単一フォワードの 3D ガウススプラッティングフレームワークです。
この論文は、既存のベンチマークが抱える難易度や多言語性の課題を克服し、多文化・多言語・多タスクな漫画データを用いて Multimodal Large Language Models の文化的意識能力を評価する新たなベンチマーク「CB」を提案し、現在のモデルと人間の間に大きな性能差があることを示したものです。
本論文は、動画の時間的整合性を明示的に捉える Video Consistency Models(VCM)を活用し、自動微分を不要としつつ少数の推論ステップで高解像度動画復元において最先端の画質と計算効率を実現する、初のゼロショット・プラグアンドプレイ型逆問題ソルバー「LVTINO」を提案するものである。