Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising
本論文は、拡散モデルに基づく構造表現プロンプトとスケール再生トレーニング機構を導入し、教師なし学習で構造情報を保持しながら高品質な単一画像ノイズ除去を実現する「Prompt-SID」を提案するものである。
2789 件の論文
本論文は、拡散モデルに基づく構造表現プロンプトとスケール再生トレーニング機構を導入し、教師なし学習で構造情報を保持しながら高品質な単一画像ノイズ除去を実現する「Prompt-SID」を提案するものである。
この論文は、大規模言語モデル(LLM)を用いて脳活動に対応する画像の自然言語キャプションを生成する「LaVCa」という手法を提案し、従来の手法よりも正確かつ詳細に視覚野のボクセル選択性を記述し、脳内表現の微細な機能分化の解明に貢献することを示しています。
本研究は、BraTS データセットの多モーダル MRI 画像を前処理し、2D と 3D の UNET によるセグメンテーション結果を重み付き平均で融合して ResNet50 に投入する手法を提案し、99.25% の分類精度を達成することで、グリオーマのサブクラス分類の精度を大幅に向上させたことを示しています。
この論文は、拡散モデルの微調整におけるサンプル効率と性能のバランスを改善するため、REINFORCE の分散低減技術と PPO のロバスト性を組み合わせた新しい強化学習手法「LOOP」を提案し、その有効性を示したものです。
この論文は、解剖学的ランドマークを組み込んだトランスフォーマーベースの幾何学的深層学習モデルを提案し、侵襲的で高価なPETスキャンに頼らずにアルツハイマー病の診断精度を向上させ、中リスク群における脳アミロイド陽性性の予測を可能にするものである。
本論文は、ユーザーの自撮り写真をガウス領域適応技術を用いて3Dアバターに変換し、さらにユーザーのアイデンティティを保持したまま二次的なスタイルを付与する「デュアル・スタイライゼーション」プロセスを通じて、モバイル端末で30〜40 FPS のアニメーション再生を可能にする即時生成型アバターシステム「Snapmoji」を提案するものです。
本論文は、テキスト条件付き 3D 室内シーン生成の評価における既存手法の限界を克服するため、明示的な要件と暗黙的な期待の両方を測定する新たな評価フレームワーク「SceneEval」と、それを支えるベンチマークデータセット「SceneEval-500」を提案し、現在の生成手法が実用性と制御可能性において依然として課題を抱えていることを明らかにしています。
本論文は、従来のバックワードコンパチブル学習における厳密なアライメント制約が新モデルの識別能力を損なう問題を解決するため、旧モデルの原型に摂動を導入して制約を緩和し、ランドマークおよび商品データセットにおいて最先端の手法を上回る性能を示す「原型摂動」アプローチを提案するものである。
本論文は、視覚基盤モデルからの多様な 2D 事前知識を統合して構造整合性を確保し、衝突勾配に基づく生成拡散モデルを用いて物理的に妥当な 3D 両手姿勢を生成することで、単眼画像からの両手再構成における複雑な姿勢や重度の遮蔽、手同士の貫通問題を解決する手法を提案しています。
この論文は、既知のシーン制約を考慮して任意のスケールと姿勢で物体を補完する新しい点群ベースのインスタンス補完モデルと、その評価用の新しいデータセット「ScanWCF」を提案し、既存の手法よりも高い忠実度と完成品質を実現することを示しています。
本論文は、トランスフォーマーの注意機構やスペクトル抽出などのモジュールにリプシッツ連続性制約を課し、学習可能なアンサンブル融合戦略を組み合わせることで、脳波に基づく感情認識の安定性、精度、およびロバスト性を向上させる新しいフレームワーク「LEL」を提案し、複数のベンチマークデータセットで優れた性能を実証したものである。
本論文は、哺乳類の空間認知に着想を得て、直交制約付き変分情報ボトルネック(O-VIB)エンコーダを導入し、冗長な特徴を剪除することで帯域幅制約の厳しい都市環境における高精度な視覚的局所化を実現するタスク指向のセマンティック圧縮フレームワークを提案するものである。
本論文は、低線量かつ高品質な CBCT 画像再構成を実現するため、多視点・多スケール特徴を統合した DiCE ネットワークと大規模データを用いた HyViP 事前学習フレームワークを備えた、初の CBCT 用基盤モデル「DeepSparse」を提案し、既存手法を上回る性能を実証したものである。
本論文は、単車および複数車両の協調自律走行研究を促進するために、204 シーケンス・3 万フレームのマルチモーダルデータを含む包括的なベンチマーク「M3CAD」を提案し、ネットワーク帯域制約を考慮した適応的融合手法による新たな基線性能を確立したことを報告しています。
本論文は、キーポイント駆動のアセット合成と KG-DAgger による失敗回復用デモンストレーション生成を活用し、15 万の軌跡を用いた閉ループ模倣学習によって、実世界で 75% の成功率を達成する汎用的な衣類折り畳みロボット制御ポリシーを提案する。
本論文は、従来の 2D ポーズ画像に依存せず、3D 運動シーケンスを直接モデル化する「4DMoT」と「MV-DiT」を導入した MTVCraft を提案し、任意のキャラクターや非人間オブジェクトに対する高精度かつ汎用性の高いゼロショット動画生成を実現したことを報告しています。
この論文は、未収データや欠落モダリティの問題に対処するため、収束性が保証された最適化アルゴリズムをニューラルネットワークに展開し、メタ学習を統合することで、多コイル・多モダリティ MRI の高速再構成と合成を可能にする統合フレームワークを提案しています。
Apple Vision Pro を活用して、3D 手の動きと指の追跡データが同期して記録された、これまでにない大規模かつ多様な巧緻な操作データセット「EgoDex」を構築し、模倣学習の政策評価やロボティクス・コンピュータビジョン分野の進展を促進する基盤を提供した論文です。
本論文は、大規模インターネットデータで事前学習された動画拡散モデルを、アーキテクチャと学習目的の再設計、および因果的な動作ガイダンスの導入を通じて、ロボット操作やゲームシミュレーションなど多様な領域で高忠実度な未来予測を可能にするインタラクティブな世界モデルへと転用する「Vid2World」という手法を提案しています。
この論文は、事前学習された 3 次元生成事前知識と境界積分方程式ソルバーを結合した「ソルバー内ループ」フレームワークを提案し、物理法則を厳密に満たしつつデータ駆動型正則化により、電気インピーダンストモグラフィ(EIT)における複雑な 3 次元界面の高精度かつ効率的な再構築を実現するものである。