Score-Regularized Joint Sampling with Importance Weights for Flow Matching
この論文は、フローマッチングモデルからの期待値推定における高分散問題を解決するため、スコア正則化による多様性確保と、残差速度場に基づく重要度重み付けを組み合わせた非独立同分布サンプリング手法を提案し、高品質な多様なサンプルと正確な推定値の両立を実現するものです。
6621 件の論文
この論文は、フローマッチングモデルからの期待値推定における高分散問題を解決するため、スコア正則化による多様性確保と、残差速度場に基づく重要度重み付けを組み合わせた非独立同分布サンプリング手法を提案し、高品質な多様なサンプルと正確な推定値の両立を実現するものです。
本論文は、限られた脳 MRI 画像データを用いた腫瘍分類タスクにおいて、医療ドメインで事前学習された RadImageNet DenseNet121 よりも、大規模な汎用データセットで事前学習された最新の一般目的 CNN(特に ConvNeXt-Tiny)の方が高い性能を発揮することを示しています。
本論文は、生成動画の評価において視覚的・動的・テキスト整合性の 3 次元を統合的に定義し、約 1 万件のアノテーション付きデータセットと、Chain-of-Thought による段階的学習を採用した統一評価モデル「Q-Save」を提案し、高精度な品質予測と解釈可能な理由付けを両立させることを示しています。
本研究は、700 万件のデータセットと段階的なトレーニングパイプライン(模倣学習と新たに提案されたフローベース強化学習 SAFE-GRPO)を活用し、社会的規範を理解して人間のような行動を生成する基盤モデル「SocialNav」を開発し、既存の最良手法と比較して成功率と社会的適合性を大幅に向上させたことを報告しています。
本論文は、冗長なマルチモーダルコンテキストによる効率性のボトルネックを解消するため、軽量ドラフトモデルと強力なターゲットモデルの協調により時間的知覚と推論を分離する強化学習ベースの「SpecTemp」フレームワークと、それに対応するデータセットを提案し、長動画理解における推論速度の大幅な向上と精度の維持を実現したことを報告しています。
本論文は、放射線被曝制限や撮影プロトコルの不一致により生じる造影 CT の時間相欠損問題を解決するため、時間不変の解剖学情報と時間依存の血流動態情報を分離・復元する物理学的知見に基づく「TARDis」と呼ばれる新しい深層学習フレームワークを提案し、大規模データセットにおいて既存手法を大幅に上回る腫瘍セグメンテーションおよび分類性能を実証したものである。
本論文は、AI 生成画像の検出において既存手法の限界を克服するため、カメラメタデータ(EXIF)を自己教師あり学習に活用し、写真本来の特徴を抽出することで、未知の生成モデルや自然な画像改変に対しても高い汎用性と頑健性を示す新たな検出手法を提案しています。
本論文は、地図の凡例やスケール、方位、幾何学的情報を統合して多段階の推論を行う「地図的推論」能力を評価するため、GIS 文献に基づいた空間関係(位相的、計量的、方向的)を網羅し、現状の最先端 Vision-Language モデルが人間に比べて著しく低い性能しか示さないことを明らかにした新たなベンチマーク「FRIEDA」を提案するものです。
この論文は、単一の画像から 1 秒未満でメトリックな 3D ガウス表現を推定し、リアルタイムで高解像度のフォトリアリスティックな近傍ビューを合成する新手法「SHARP」を提案し、既存の最良モデルと比較して合成時間を 3 桁短縮するとともに画質指標(LPIPS、DISTS)を大幅に改善したことを報告しています。
本論文は、イベントカメラの微細な時間情報を活用し、幾何学と放射輝度のレンダリングを分離する新しいアプローチを提案することで、事前情報や COLMAP 初期化を必要とせず、高精度かつ高速なイベントベースの 3D ガウススプラッティングを実現する手法を提示しています。
本論文は、視覚言語モデルの推論能力を連続制御に効率的に統合し、遅延を削減しながら安全かつ高精度な軌道計画を実現する新たなフレームワーク「ColaVLA」を提案し、nuScenes ベンチマークで最先端の性能を達成したことを報告しています。
本論文は、潜在世界モデル(VJEPA-2)の物理的事前知識を報酬として利用し、推論時に複数の生成軌道を探索・誘導する「WMReward」を導入することで、動画生成モデルの物理法則への整合性を大幅に向上させ、ICCV 2025 の物理推論チャレンジで優勝を果たした手法を提案しています。
本論文は、多変量時系列予測においてチャネル順序に依存しない構造をデータから学習し、チャネルの追加や順序変更、未見チャネルへの適応を可能にする「CPiRi」という新しいフレームワークを提案し、理論的裏付けと複数のベンチマークでの最先端性能を実証しています。
本論文は、自然画像の輪郭と人工的なラップ不連続性を区別し、高ダイナミックレンジのモジュロ画像を高精度に復元するために、露光変化に対するスケール共変正則化と、生モジュロ画像・包み込み差分・閉形式初期化を統合した特徴量リフティングを導入した学習ベースの復元フレームワークを提案するものである。
本論文は、自然言語による指示に基づき、構造的整合性と視覚的整合性を確保するための教師あり微調整と強化学習を段階的に適用する「CityGenAgent」というフレームワークを提案し、高品質で編集可能なプロシージャルな 3D 都市の自動生成を実現するものです。
この論文は、既存の機械的忘却手法が抱える「表面的な忘却(ロジットレベルでの忘却は達成されるが内部特徴表現は残存する)」という課題を解決するため、ネットワークの全階層にわたって忘却を強制するプラグイン型フレームワーク「Erase at the Core (EC)」を提案し、中間層における表現の類似性を大幅に低減しつつ保持データでの性能を維持することを示しています。
本論文は、従来のトレーニング不要アプローチが抱える計算コストの課題を解決し、パッチベースの推論を低ステップ数で実行可能にする「PixelRush」を提案することで、4K 画像を約 20 秒で生成する超高速かつ高品質なテキスト画像生成フレームワークを実現したことを報告しています。
本論文は、GNSS 信号が弱い環境での無人航空機(UAV)向けに、新しい特徴量抽出モジュールと座標不変な位置エンコーディングを導入して高精度な地図不要 LiDAR 再局所化を実現する「MAILS」フレームワークと、実飛行特性を反映した大規模データセットを提案するものである。
本研究は、時間的連続性を活用して環境の動的変化を捉え、静的な情報を削減する適応型データ選択フレームワーク「COOPERTRIM」を提案し、自律走行の協調知覚において大幅な帯域幅削減を実現しながら精度を維持することを示しています。
本論文は、拡散モデルの推論時にトランスフォーマーブロックとノイズ除去の各段階に応じてテキストと画像の相互作用を適応的に調整する軽量プラグイン「Diff-Aid」を提案し、複雑なプロンプトへの追従性や視覚的品質の向上、および生成プロセスの解釈可能性を実現するものです。