AdaGen: Learning Adaptive Policy for Image Synthesis
画像合成の反復生成プロセスにおけるステップ固有のパラメータ調整を、強化学習に基づく適応型ポリシー(AdaGen)と敵対的報酬設計により自動化し、多様な生成モデルにおいて低コストで高品質かつ多様性に優れた結果を実現する手法を提案する論文です。
1910 件の論文
画像合成の反復生成プロセスにおけるステップ固有のパラメータ調整を、強化学習に基づく適応型ポリシー(AdaGen)と敵対的報酬設計により自動化し、多様な生成モデルにおいて低コストで高品質かつ多様性に優れた結果を実現する手法を提案する論文です。
本論文は、ロボティック手術における器具と組織の相互作用認識の精度向上を目指し、軌道情報を活用して時間的運動の手がかりを取り込み、視覚とテキストの微細なアライメントを改善する新しいフレームワーク「TrajPred」を提案し、CholecT50 ベンチマークでの実験によりその有効性を実証しています。
本論文は、DEIMv2 フレームワークを基盤とし、クエリ補完戦略と複数の訓練サンプルを構造化グリッドに合成する「GridSynthetic」というデータ拡張手法を導入することで、リアルタイム性と高精度を両立し、特に希少カテゴリでの性能を飛躍的に向上させた新たなオープンボキャブラリー物体検出モデル「OV-DEIM」を提案するものである。
この論文は、テキストから動画を生成するモデルが、有害な内容を含む中間フレームを自主的に生成してしまう「時間的軌道補間」の脆弱性を発見し、これを悪用して安全性フィルタを回避する新たな攻撃手法「TFM」を提案し、その有効性を複数のモデルで実証したものである。
本論文は、マクロ表情の事前知識を活用した動的符号化モジュールと、2D 運動・顔の事前知識・3D 幾何学情報を統合した動的ガイドメッシュ変形モジュールを導入することで、微細で一時的なマイクロ表情の 3D 再構成における精度と細部表現を飛躍的に向上させる手法を提案しています。
この論文は、マルチ画像タスクにおける大規模視覚言語モデルの幻覚を軽減するため、画像間の注意メカニズムを調整し、真の視覚証拠に基づく選好学習を行う構造化フレームワーク「CAPL」を提案し、マルチ画像の性能向上と単一画像タスクへの汎化能力の維持を実現したことを示しています。
Diffusion Transformer の推論効率と生成品質の両立を課題とし、固定されたヒューリスティック手法の限界を克服するため、微細な感度に基づいてキャッシュ間隔を動的計画法で最適化し、トークンごとの剪定を適応的に制御する「SODA」という新しい手法を提案し、複数のモデルで最先端の性能を達成したことを示す論文です。
MedSteer は、拡散トランスフォーマーのクロスアテンション層における活性化操作を用いて、トレーニング不要で解剖学的構造を維持したまま病変概念のみを反転させる対照的エンドスコピック画像合成フレームワークを提案し、既存手法を上回る構造保存性と臨床概念の転換精度を達成したことを示しています。
本論文は、長動画理解における不確実性下でのモデルの信頼性を評価し、推測ではなく誠実な拒否を促す新たなベンチマーク「VirtueBench」を提案し、既存モデルの拒否行動に大きなばらつきがあることを明らかにしています。
本論文は、視覚言語モデル(VLM)のセマンティックな事前知識を物理的散乱パラメータに変換し、連続的な信頼度マップを用いて物理的反転と時系列参照復元を適応的に統合することで、明示的な境界線なしに高忠実度かつ一貫性のある全雲除去を実現する「PhyVLM-CR」という新規手法を提案し、実世界の Sentinel-2 画像による実験で既存手法を上回る精度とハルシネーションの抑制を実証したものである。
本論文は、物理モデルと大規模な画像・テキストデータセット、そして CLIP を活用した言語情報に基づくガイダンスを統合し、既存の手法の限界を克服する新しい水中画像強調ネットワーク「PSG-UIENet」を提案するものです。
本論文は、脳信号と深層視覚モデルの中間層を対応させる「神経可視性」の概念と、多段階視覚処理を統合する階層的補完融合フレームワークを提案し、ゼロショット視覚デコーディングの精度を大幅に向上させたことを示しています。
本論文は、既存の音声・動画分離型透かし技術が抱える「交換攻撃」の脆弱性を克服し、音声と動画の潜在空間を暗号的に紐付けることで、生成モデルの著作権保護と真正性保証を可能にする、Joint Audio-Visual 生成モデル専用に設計された新しい透かしフレームワーク「mAVE」を提案するものです。
この論文は、話者の多モーダル信号を基にリスナーの表情を生成する際に、視覚的バイアスを排除した行動学習プロセスと人間のフィードバックに基づく強化学習を組み合わせることで、自然な双方向対話において人間の好みに合致した表情生成を実現する手法を提案しています。
本論文は、組織病理画像における核検出を「次の点の予測」として再定式化し、多モーダル大規模言語モデルを用いて厳密な中心点一致を緩和する教師あり学習と分布一致報酬を用いた強化学習の 2 段階トレーニングにより、9 つのベンチマークで既存手法を上回る性能を実現する NuNext を提案しています。
本論文は、マスク画像モデルの計算コストや対照学習の過剰なデータ拡張の問題を解決し、単一の胸部 X 線画像を意味的に分割して部分情報から全体構造を推論させる「意味分割対照学習(S-PCL)」を提案することで、低計算コストかつ高精度な自己教師あり学習を実現する手法を提示しています。
生成画像におけるテキスト描画の品質を人間の知覚と整合的に評価する新たなタスク「TIQA」と、それを高精度に予測する軽量手法「ANTIQA」を提案し、人間の評価との相関向上や生成パイプラインでの実用的な価値を実証した。
この論文は、実際の多焦点画像の訓練データが不要な「画像間ピクセルシャッフル(IPS)」手法を提案し、シャープな画像とローパスフィルタ処理画像のピクセルをランダムに混合して生成した合成データで深層学習モデルを訓練することで、既存手法を凌駕する高品質な多焦点画像融合を実現するものです。
本論文は、一般目的の視覚エンコーダの限界と言語モデルのハルシネーションという 2 つの課題を解決するため、専門家の知識を深層に注入し、網膜画像の微細な病変信号を強化して推論を視覚証拠に厳密に固定するデータ効率型フレームワーク「EyExIn」を提案し、眼科 VQA において最先端の精度を達成したことを報告しています。
この論文は、追加の目的関数やアノテーションなしに標準的な次トークン予測損失のみで学習可能な軽量な「AutoSelect」を提案し、視覚トークンの重要度に基づいたノイズゲート制御により、視覚言語モデルの推論コストを大幅に削減しつつ精度をほぼ維持する自動トークン選択手法を確立したことを報告しています。