MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model
本論文は、事前学習済みの拡散モデルを活用し、画像経路とテキスト経路を統合することで、複数の前景オブジェクトに対して幾何学的・位置的に整合性の取れた物理的に妥当な影を生成する「MultiShadow」という手法を提案し、単一・複数オブジェクト両方の設定で最先端の性能を達成することを示しています。
5333 件の論文
本論文は、事前学習済みの拡散モデルを活用し、画像経路とテキスト経路を統合することで、複数の前景オブジェクトに対して幾何学的・位置的に整合性の取れた物理的に妥当な影を生成する「MultiShadow」という手法を提案し、単一・複数オブジェクト両方の設定で最先端の性能を達成することを示しています。
本論文では、複雑な座標変換や IoU 指標による検証の難しさを克服し、SSD や YOLO などのアンカーベース物体検出モデルのロバスト性を初めて正式に検証可能にする新しいフレームワーク「IoUCert」を提案しています。
本論文は、希少な対データに依存せず超低磁場 MRI の画質を向上させるため、拡散モデルによる分布整合と解剖学的構造保存正則化を組み合わせた、多段階改良型非対照ニューラルシュレーディンガーブリッジ手法を提案し、現実性と構造的忠実性の両立を実現したことを報告しています。
本論文は、生物物理学的な腫瘍成長モデルと生成モデルを統合し、患者固有の脳 MRI 画像からグリオーブラストーマの時間的進行と浸透を現実的に合成・可視化する「TumorFlow」フレームワークを提案するものである。
本論文は、未整列画像からピクセルアライメントに依存しないグローバルなシーン表現を学習し、可視・不可視領域を含む完全な物理的に妥当な 3 点群を生成する新しいアモダル 3 次元復元手法「NOVA3R」を提案し、既存の最良手法を上回る精度と完全性を達成したことを示しています。
この論文は、脳小血管病変の重要なマーカーである拡大血管周囲腔とラクナ梗塞の放射学的類似性による検出の難しさを解決するため、モルフォロジー分離アーキテクチャと混合教師学習、解剖学的推論較正を組み合わせた統合フレームワークを提案し、VALDO 2021 および EPAD コホートデータで最先端の性能を実証したものである。
本論文は、多視点動画から身体と形状に依存しない複数の衣類レイヤーを分解して表現する「Gaussian Wardrobe」を提案し、高忠実度な動的アバターの生成と、異なる人物間での衣類の自由な転送を可能にする仮想試着を実現するものです。
本研究は、言語による視覚特徴の再調整(Semantic Anchoring)が、犬とヒトの病理画像における種間・癌種間転移学習における埋め込み空間の崩壊を克服し、従来の視覚言語モデルの限界を超えた汎化性能を実現することを示しています。
本論文は、マルチモーダルタスクにおける推論の有用性を定量化し、「思考境界」を確立することで、すべてのタスクに推論を適用するパラダイムを見直し、リソース効率のよい適応型システムの開発を促す「Dual Tuning」というフレームワークを提案しています。
本論文は、AI エージェントが過去の経験を体系的に蓄積・再利用し、タスク実行の効率と安全性を大幅に向上させるために、20 万を超えるスキルを管理・評価・接続する大規模インフラ「SkillNet」を提案し、その有効性を複数のベンチマークで実証したものである。
本論文は、3D CNN、3D 人体ポーズ、および物体検出情報をクロスアテンション機構で統合するマルチモーダル深層学習アプローチを提案し、高齢者の見守り支援システム(AAL)における日常生活動作認識の精度向上と、高齢者の安全・自立の促進に貢献するものである。
この論文は、圧縮イメージングにおける演算子不整合が深層学習手法の性能を大幅に低下させることを初めて包括的に検証し、演算子条件付きアーキテクチャや盲推定キャリブレーションの重要性を明らかにした「InverseNet」という新しいベンチマークを提案するものです。
本論文は、So2Sat LCZ42 データセットを用いて、CNN ベースの深層学習モデルにおけるマルチモーダルリモートセンシングデータの融合戦略(ハイブリッド融合、アテンション機構、マルチスケール処理、重み付き決定レベル融合)とデータ・ラベルのグループ化手法を分析し、ハイブリッド融合とグループ化の組み合わせが全体的な精度を 76.6% に向上させ、過小表現クラスの予測精度改善に特に有効であることを示しています。
本論文は、マルチクラス核の重心を空間的指標として用い、2 つのタスク固有 LoRA アダプターを共有バックボーンに統合する「Dual-LoRA 制御拡散モデル」を提案し、単一モデルで組織の局所構造復元と全体的構造合成の両方を高精度かつ生物学的に整合性のある形で実現する手法を確立したものである。
本論文は、任意の形状の欠損データを扱うための部分畳み込みの原理を状態空間モデル(Mamba)に適用した「Partial Vision Mamba(PVM)」を提案し、深度補完や画像修復などのタスクにおける有効性を示しています。
既存の合成画像検索ベンチマークの限界を克服し、複数の正解、明示的なハードネガティブ、多様な指示パラフレーズ、複数画像クエリ、公平性評価に対応した大規模な実世界ベンチマーク「PinPoint」を提案し、既存手法の課題を特定するとともに、オフザシェルフのMLLMを用いたトレーニング不要の再ランク付け手法を提案する。
本論文は、3D 再構成を不要とし、ColPali 型のクロスモーダル検索と重み付きパッチ類似度選択メカニズムを用いてマルチモーダル大規模言語モデルを拡張する「SGR3 モデル」を提案し、訓練不要でありながら GNN ベースの専門モデルに匹敵する 3D シーングラフ生成を実現することを示しています。
本論文は、拡散 MRI 信号から微細構造の境界を明示的に復元するために、四面体グリッド上の面透過性を学習可能なパラメータとして扱う完全微分可能な Bloch-Torrey シミュレータ「Spinverse」を提案し、幾何学的事前知識と多段階最適化により、トポロジーを固定せずに多様な微細構造を高精度に再構成する手法を示しています。
本論文は、GPT-4.1-nano を用いてデータ可視化リテラシーテストの項目難易度を予測する研究において、視覚とテキストの両方の特徴を組み合わせたマルチモーダル手法が、単一のモダリティを用いる手法よりも高い精度を達成し、LLM の心理計測分析および自動項目作成への可能性を実証したことを報告しています。
この論文は、医療画像復元における深層学習モデルの出力に生じるハルシネーション(幻覚)を検出するための新しい手法「sFRC」を提案し、その数学的定式化と、CT や MRI の様々な復元タスクにおける有効性を実証しています。