A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning
この論文は、拡散モデルの微調整におけるサンプル効率と性能のバランスを改善するため、REINFORCE の分散低減技術と PPO のロバスト性を組み合わせた新しい強化学習手法「LOOP」を提案し、その有効性を示したものです。
2384 件の論文
この論文は、拡散モデルの微調整におけるサンプル効率と性能のバランスを改善するため、REINFORCE の分散低減技術と PPO のロバスト性を組み合わせた新しい強化学習手法「LOOP」を提案し、その有効性を示したものです。
この論文は、解剖学的ランドマークを組み込んだトランスフォーマーベースの幾何学的深層学習モデルを提案し、侵襲的で高価なPETスキャンに頼らずにアルツハイマー病の診断精度を向上させ、中リスク群における脳アミロイド陽性性の予測を可能にするものである。
本論文は、ユーザーの自撮り写真をガウス領域適応技術を用いて3Dアバターに変換し、さらにユーザーのアイデンティティを保持したまま二次的なスタイルを付与する「デュアル・スタイライゼーション」プロセスを通じて、モバイル端末で30〜40 FPS のアニメーション再生を可能にする即時生成型アバターシステム「Snapmoji」を提案するものです。
本論文は、テキスト条件付き 3D 室内シーン生成の評価における既存手法の限界を克服するため、明示的な要件と暗黙的な期待の両方を測定する新たな評価フレームワーク「SceneEval」と、それを支えるベンチマークデータセット「SceneEval-500」を提案し、現在の生成手法が実用性と制御可能性において依然として課題を抱えていることを明らかにしています。
本論文は、従来のバックワードコンパチブル学習における厳密なアライメント制約が新モデルの識別能力を損なう問題を解決するため、旧モデルの原型に摂動を導入して制約を緩和し、ランドマークおよび商品データセットにおいて最先端の手法を上回る性能を示す「原型摂動」アプローチを提案するものである。
本論文は、視覚基盤モデルからの多様な 2D 事前知識を統合して構造整合性を確保し、衝突勾配に基づく生成拡散モデルを用いて物理的に妥当な 3D 両手姿勢を生成することで、単眼画像からの両手再構成における複雑な姿勢や重度の遮蔽、手同士の貫通問題を解決する手法を提案しています。
この論文は、既知のシーン制約を考慮して任意のスケールと姿勢で物体を補完する新しい点群ベースのインスタンス補完モデルと、その評価用の新しいデータセット「ScanWCF」を提案し、既存の手法よりも高い忠実度と完成品質を実現することを示しています。
本論文は、トランスフォーマーの注意機構やスペクトル抽出などのモジュールにリプシッツ連続性制約を課し、学習可能なアンサンブル融合戦略を組み合わせることで、脳波に基づく感情認識の安定性、精度、およびロバスト性を向上させる新しいフレームワーク「LEL」を提案し、複数のベンチマークデータセットで優れた性能を実証したものである。
本論文は、哺乳類の空間認知に着想を得て、直交制約付き変分情報ボトルネック(O-VIB)エンコーダを導入し、冗長な特徴を剪除することで帯域幅制約の厳しい都市環境における高精度な視覚的局所化を実現するタスク指向のセマンティック圧縮フレームワークを提案するものである。
本論文は、低線量かつ高品質な CBCT 画像再構成を実現するため、多視点・多スケール特徴を統合した DiCE ネットワークと大規模データを用いた HyViP 事前学習フレームワークを備えた、初の CBCT 用基盤モデル「DeepSparse」を提案し、既存手法を上回る性能を実証したものである。
本論文は、単車および複数車両の協調自律走行研究を促進するために、204 シーケンス・3 万フレームのマルチモーダルデータを含む包括的なベンチマーク「M3CAD」を提案し、ネットワーク帯域制約を考慮した適応的融合手法による新たな基線性能を確立したことを報告しています。
本論文は、キーポイント駆動のアセット合成と KG-DAgger による失敗回復用デモンストレーション生成を活用し、15 万の軌跡を用いた閉ループ模倣学習によって、実世界で 75% の成功率を達成する汎用的な衣類折り畳みロボット制御ポリシーを提案する。
本論文は、従来の 2D ポーズ画像に依存せず、3D 運動シーケンスを直接モデル化する「4DMoT」と「MV-DiT」を導入した MTVCraft を提案し、任意のキャラクターや非人間オブジェクトに対する高精度かつ汎用性の高いゼロショット動画生成を実現したことを報告しています。
この論文は、未収データや欠落モダリティの問題に対処するため、収束性が保証された最適化アルゴリズムをニューラルネットワークに展開し、メタ学習を統合することで、多コイル・多モダリティ MRI の高速再構成と合成を可能にする統合フレームワークを提案しています。
Apple Vision Pro を活用して、3D 手の動きと指の追跡データが同期して記録された、これまでにない大規模かつ多様な巧緻な操作データセット「EgoDex」を構築し、模倣学習の政策評価やロボティクス・コンピュータビジョン分野の進展を促進する基盤を提供した論文です。
本論文は、大規模インターネットデータで事前学習された動画拡散モデルを、アーキテクチャと学習目的の再設計、および因果的な動作ガイダンスの導入を通じて、ロボット操作やゲームシミュレーションなど多様な領域で高忠実度な未来予測を可能にするインタラクティブな世界モデルへと転用する「Vid2World」という手法を提案しています。
この論文は、事前学習された 3 次元生成事前知識と境界積分方程式ソルバーを結合した「ソルバー内ループ」フレームワークを提案し、物理法則を厳密に満たしつつデータ駆動型正則化により、電気インピーダンストモグラフィ(EIT)における複雑な 3 次元界面の高精度かつ効率的な再構築を実現するものである。
本論文は、視覚と触覚のモダリティを効果的に融合し、タスクに依存しない汎用的な表現学習とゼロショット一般化を実現するために、局所および大域の位置符号化を段階的に注入するトランスフォーマーベースのアーキテクチャ「ViTaPEs」を提案し、実世界データセットおよびロボティクスタスクにおいて最先端の性能を示すことを報告しています。
この論文は、農業分野における密集・自己遮蔽物体のインスタンスセグメンテーション課題を解決するため、最小限の人手注釈で形状やテクスチャに焦点を当てた「GLMask」を用いた半自己教師あり学習アプローチを提案し、小麦の穂の検出で mAP@50 98.5% の最高精度を達成したことを報告しています。
本論文は、ピラミッド型 pix2pix の損失関数に分散ペナルティを導入してモード崩壊を抑制し、H&E 染色画像から高忠実度の HER2 免疫組織化学画像を生成する深層学習フレームワークを提案することで、乳がん診断の精度向上とコスト削減を実現するものである。