Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models
本論文は、拡散モデルのサンプリング品質を向上させるため、モデル自身のサブネットワークを確率的に構築して低品質な予測を回避する「Stochastic Self-Guidance(S²-Guidance)」という新しい学習不要の手法を提案し、既存の CFG 法や他の先進的な手法を上回る性能をテキストから画像・動画生成タスクで実証しています。
5498 件の論文
本論文は、拡散モデルのサンプリング品質を向上させるため、モデル自身のサブネットワークを確率的に構築して低品質な予測を回避する「Stochastic Self-Guidance(S²-Guidance)」という新しい学習不要の手法を提案し、既存の CFG 法や他の先進的な手法を上回る性能をテキストから画像・動画生成タスクで実証しています。
本論文は、宇宙探査機の厳しい計算リソース制約下でリアルタイムなクレーター検出を可能にするため、低精度量子化ニューラルネットワークと適応的多センサー融合を統合した「適応量子化惑星クレーター検出システム(AQ-PCDSys)」のアーキテクチャと数学的根拠を提案する概念論文である。
本論文は、手術器具の局所化におけるアノテーション効率と情報量のバランスを改善するため、既存の ROBUST-MIS データセットから派生し、骨格ポーズとインスタンスセグメンテーションの両方を統合した新しいデータセット「ROBUST-MIPS」と、それに対応するベンチマークモデルおよび注釈ソフトウェアを公開するものである。
本論文は、文書画像から非情報領域を事前にフィルタリングし、テキスト領域の空間的整合性を高める軽量トークンプルーニング手法を提案することで、文書理解における視覚言語モデルの計算コストを大幅に削減しつつ精度を維持することを示しています。
QDFlow は、量子ドットデバイスの物理シミュレーションを通じて、機械学習の開発やベンチマークに不可欠な大規模で多様な合成データセットを生成するオープンソースパッケージです。
本論文は、従来のスキップ接続が抱える特徴間の静的制約と内部特徴の多スケール相互作用の不足という課題を解決するため、推論時の適応的調整を行うテスト時学習モジュールと、文脈に応じた動的なカーネルサイズ選択を行う動的マルチスケールカーネルモジュールを統合した「動的スキップ接続(DSC)ブロック」を提案し、多様な U 型ネットワークにおいて汎用的かつ効果的に機能することを示しています。
本論文は、動作に基づく動画物体分割におけるテキストプロンプトとマスク注釈のノイズ問題に初めて取り組むため、ActiSeg-NL というベンチマークと評価プロトコルを確立し、並列マスクヘッド機構(PMHM)を含むノイズ耐性学習戦略の包括的解析を提案するものである。
本論文は、カテゴリレベルの事前知識と学習されたセマンティックキーポイントを用いて、100 マイクロ秒未満で形状と姿勢を推定し、固有値問題に基づく自己無撞着場反復法により大域的最適性の証明を可能にする高速な局所ソルバーを提案するものです。
本論文は、RAW 画像を標準的な JPEG 形式で高効率に圧縮しつつ、JPEG のコメントフィールドに格納された軽量な学習可能変換を用いて高精度に再構成可能にする「Raw-JPEG Adapter」を提案するものである。
Vision-Zero は、任意の画像から生成された戦略的ゲームを用いたマルチエージェント自己対戦と反復自己プレイ方策最適化(Iterative-SPO)を組み合わせることで、人間の注釈なしに視覚言語モデルを自律的に進化させ、推論やチャート理解などのタスクにおいて既存の注釈ベース手法を上回る性能を実現するスケーラブルなフレームワークです。
この論文は、拡散モデルの逆過程を制御可能な軌道とみなし、随伴状態を反復更新する軌道最適制御の枠組みを導入することで、学習不要かつ報酬ハッキングを回避しつつ、ソース画像の忠実性を保ちながら目的の報酬を最大化する画像編集手法を提案しています。
この論文は、チャートや図表などの構造化された視覚情報の生成・編集における事実性の課題に対処するため、大規模データセット、統合モデル、および評価ベンチマーク「StructBench」を包括的に構築・提案し、推論時の思考プロセスが事実精度の向上に寄与することを示しています。
本論文は、視覚言語モデルに外部ツールによる正確な幾何学計算を可能にする「TIGeR」フレームワークと大規模データセットを提案し、ロボット操作においてセンチメートルレベルの精度を実現する新しいアプローチを提示しています。
本論文は、多言語マルチモーダルデータにおけるグローバルな幾何学的構造の欠如を解決するため、パーシステントホモロジーに基づくトポロジカル制約を導入し、多言語表現の構造的整合性とゼロショット性能を向上させる「ToMCLIP」と呼ばれる新しいフレームワークを提案するものである。
この論文は、限られた種子質問を素因に分解・再構成することで合成データを生成し、強化学習を通じてチャートやウェブページなどの人工画像ドメインにおける多モーダル大規模言語モデルの推論能力を飛躍的に向上させる「COGS」というデータ効率型フレームワークを提案しています。
本論文は、Mahalanobis 距離に基づく OOD 検出の性能が特徴空間の幾何学的性質に依存することを示し、クラス内スペクトル構造と局所内次元という 2 つの指標を特定するとともに、特徴ベクトルの半径を制御する新しい正規化手法を提案することで、OOD 検出の安定性と精度を向上させることを明らかにしています。
Kaleido は、多様な高品質なトレーニングデータの構築と参照画像を安定して統合する「参照回転位置エンコーディング(R-RoPE)」の導入を通じて、複数の参照画像に基づく一貫性のあるマルチ被写体動画生成を実現するオープンソースのフレームワークです。
本論文は、医療画像診断における解釈性の高い予測を実現するため、概念アノテーションを不要としクラスレベルの事前知識を活用した弱教師あり学習フレームワーク「Prior-guided Concept Predictor (PCP)」を提案し、複数の医療データセットにおいてゼロショット手法を大幅に上回る概念予測精度と、完全教師ありモデルに匹敵する分類性能を達成したことを示しています。
この論文は、幾何学と外観の最適化を統合し、ガウス分布に基づくメッシュ可微分レンダリングとテクスチャガイドを活用して、高品質な3D 再構築と編集タスクへの対応を実現する新しいフレームワークを提案しています。
この論文は、極限環境下におけるイベント-RGB セグメンテーションの課題を解決するため、両モダリティの「エッジ」特性を活用して不確実性を考慮した特徴再符号化と統合を行う「エッジ意識セマンティック・コンコルダンス」フレームワークを提案し、既存手法を上回る性能と耐性を示すことを報告しています。