Toward Early Quality Assessment of Text-to-Image Diffusion Models
本論文は、拡散モデルやフローマッチングモデルの生成過程における早期の中間活性化値から最終的な画像品質を予測する「Probe-Select」というモジュールを提案し、生成コストを 60% 以上削減しながら高品質な画像を選択的に生成することを可能にすると述べています。
5521 件の論文
本論文は、拡散モデルやフローマッチングモデルの生成過程における早期の中間活性化値から最終的な画像品質を予測する「Probe-Select」というモジュールを提案し、生成コストを 60% 以上削減しながら高品質な画像を選択的に生成することを可能にすると述べています。
本論文は、従来の 3D ガウススプラッティングの画像形成モデルを非指数関数的な放射伝達に一般化し、より少ないオーバードローで 4 倍の高速化を実現する新しいバリエーションを提案するものである。
本論文は、複雑なクエリに対して構造化された推論(Chain-of-Thought)を生成し、それを圧縮して埋め込み表現に統合する「TRACE」という新しいユニバーサルマルチモーダル検索フレームワークを提案し、M-BEIR ベンチマークで最先端の性能を達成するとともに、推論の必要性に応じた自動的な経路選択と優れたゼロショット転移能力を実現したことを示しています。
本論文は、CLIP モデルの汎化能力を維持しつつ、画像パッチの特性に基づいて動的に専門家の LoRA にルーティングし、直交特徴分離と ETF 損失によって冗長性を抑制する MoECLIP を提案することで、ゼロショット異常検出の性能を大幅に向上させることを示しています。
本論文は、U-Net のスキップ接続におけるノイズや無関係な特徴量の伝播を解決するため、デコーダの文脈に基づいて特徴量選択を明示的にスパース化し、 近接演算子を用いた軟しきい値ゲートとチャネルゲーティングを導入した「ProSMA-UNet」を提案し、特に 3D セグメンテーションタスクで大幅な性能向上を実現したことを報告しています。
本論文は、オープンワールド設定における微細な画像分類において、推論型マルチモーダルモデルが汎用的な予測に陥る問題を解決するため、正解性と具体性のバランスを最適化する新しい強化学習フレームワーク「SpeciaRL」を提案し、その有効性を示したものである。
本論文は、人工知能の進展により革新された深層学習を用いたスケッチベースの 3D モデリング(DS-3DM)の最新動向を、人間中心の創造プロセスを支援する新たな設計空間「MORPHEUS」の枠組みを用いて包括的に調査し、今後の学際的研究の機会と課題を明らかにする。
この論文は、Google Mediapipe と深層学習モデルを用いた実験を通じて、中国語からアラビア語、ギリシャ語からフランダース語への象徴的な手話記号の転移学習が、それぞれ 7.02% および 1.07% の認識精度向上をもたらすことを示しています。
本論文は、深層学習における新しい残差結合手法である多様体制約ハイパー結合(mHC)を hyperspectral image(HSI)分類に特化して改良し、クラスタリング誘導型 Mamba モジュール、物理的スペクトル知識に基づく並列ストリーム、および可解釈性を高める残差行列の実装を組み合わせた「mHC-HSI」を提案し、既存手法を上回る精度と説明可能性の実証を示すものである。
この論文は、医療マルチモーダル推論における精度のみを評価する手法の限界を指摘し、反事実的評価フレームワークを用いて、視覚的依存度を無視した学習がモデルのハルシネーションを助長し、視覚的根拠を損なうことを実証している。
本論文は、低遅延推論、自律的な応答判断、リアルタイム制約下でのコンテンツ制御という課題を解決し、人間のような能動的な AI コンパニオンを実現する「Proact-VL」フレームワークと、その評価のための大規模ベンチマーク「Live Gaming Benchmark」を提案するものである。
本論文は、オンライン HD 地図構築においてローカライゼーション誤差がラベル品質に与える影響を分析し、位置誤差よりも角度誤差が遠距離のラベル歪みに与える影響が大きいこと、およびノイズの増加に対してモデル性能が非線形的に低下することを明らかにした。
この論文は、既存のインタラクティブな世界モデルが抱える 3 次元の一貫性や空間的記憶の欠如を解決するため、潜在空間における 3 次元シーンの進化をシミュレートすることで、持続的な空間記憶と幾何学的整合性を実現する新しい世界モデル「PERSIST」を提案し、長期的な安定性や 3 次元空間での環境編集といった新たな能力を実証したものである。
本論文は、大規模な疑似教師あり事前学習、シミュレーションに基づく教師あり微調整、そして強化学習という 3 段階のトレーニング手法を採用し、動画拡散モデルから物理的に整合性の高い 4 次元世界表現を学習する「Phys4D」を提案し、従来の外観中心のモデルを超えた細かな物理的整合性と生成性能の実現を示しています。
本研究は、Sentinel-1、RCM、AMSR2 のマルチソースデータを融合し、地理的加重弱教師あり学習とベイズ的拡張を備えた高解像度トランスフォーマーモデルを提案することで、200 メートル解像度のパン・アーктиック海氷濃度マッピングとその不確実性推定を高精度に実現する手法を開発した。
本論文は、物理法則を遵守するテキストから動画生成を可能にするため、強化学習と動的な報酬カリキュラムを用いてプロンプトを自動最適化するフレームワーク「PhyPrompt」を提案し、大規模な汎用モデルを上回る物理的妥当性と意味的忠実度の両立を実現したことを示しています。
Pinterest は、VLM(視覚言語モデル)の強みを推薦システムに統合し、画像とテキストの整合性学習と隣接アライメント目的を備えたハイブリッド Vision Transformer 構造「PinCLIP」を開発することで、検索精度の向上、コールドスタート問題の解決、そしてエンゲージメントの大幅な増加を実現しました。
画像、動画、3D データを統合的に処理する大規模視覚モデルにおいて、異なる視覚モダリティ間の相補的な事前知識を活用した「クロスビジョン・シナジー」を実現するため、動的モダリティルーターを備えたスパースな混合专家モデルとシナジー意識型の学習手法を提案する PolyV は、10 のベンチマークで既存モデルを大幅に上回る性能を示しました。
本論文は、煙や反射などのアーティファクトに強い信頼性評価機能を備えた新しい単眼深度推定フレームワークを提案し、腹腔鏡下手術における深度推定の精度向上と臨床応用の信頼性確保を実現したことを示しています。
この論文は、提案ベースの手法の限界を克服し、テンプレート画像とクエリ画像の密なパッチマッチングから候補点を生成し、それを基に拡張された Segment Anything Model(SAM)を誘導することで、開かれた世界における新規物体インスタンスの検出とセグメンテーションを可能にする「L2G-Det」と呼ばれるローカルからグローバルへの検出フレームワークを提案するものである。