When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On
この論文は、正解が一意に定まらないタスクにおける強化学習の課題を解決するため、正解との比較ではなく「誤りを列挙・重み付けする Implicit Error Counting (IEC)」手法を提案し、バーチャル試着領域での評価基準としてその有効性を示しています。
4140 件の論文
この論文は、正解が一意に定まらないタスクにおける強化学習の課題を解決するため、正解との比較ではなく「誤りを列挙・重み付けする Implicit Error Counting (IEC)」手法を提案し、バーチャル試着領域での評価基準としてその有効性を示しています。
この論文は、動画時刻定位タスクにおいて、クエリに不可欠なエビデンスとフレーム間接続性を維持する「エビデンス保持」と「接続強度」という 2 つの原則に基づき、学習不要でトークン剪定を行う新たなフレームワーク「SemVID」を提案し、大幅な推論高速化を達成しながら高い精度を維持することを示しています。
本論文は、心臓 cine MRI の高速再構築において、高周波成分の表現を可能にするガボールプリミティブと、心臓運動とコントラスト変化を低ランク基底で分解する時空間冗長性の活用を提案し、既存手法を上回る性能と物理的に解釈可能なパラメータを提供する手法を提示しています。
本論文は、静止環境やカメラ運動の事前知識を必要とせず、視覚運動の手がかりのみからリアルタイムでスケーリングされた 3 次元再構成やカメラの進行方向を推定できる新たな知覚関数「OWL」を提案し、ロボットや自律ナビゲーションにおける次世代システムの実現に貢献する可能性を示しています。
この論文は、異なる時点の MRI 画像から病変領域を 3D 解剖学的連続性を保ちながら高精度かつ効率的に補完する、新しい縦断的 3D 領域認識拡散モデル(RAD)に基づくフレームワークを提案し、既存手法を大幅に上回る性能と処理速度を実証したものである。
本論文は、大規模な異種マルチモーダルコーパスからの情報検索と推論を同時に評価する初のベンチマーク「MultiHaystack」を提案し、既存のモデルが証拠を直接提供された場合と比較して、コーパスからの検索を必要とするタスクでは性能が著しく低下する課題を明らかにしたものです。
この論文は、視覚情報の曖昧さを補完する解釈可能な聴覚知覚と推論を組み合わせた新しいフレームワーク「Audiovisual Geolocation」を提案し、大規模な音声・動画ベンチマーク「AVG」と GRPO による多モーダル推論、リーマン流マッチングを用いた高精度な予測により、従来の単一モーダル手法を大幅に上回るグローバルな位置特定を実現したことを示しています。
本論文は、事前学習された単眼深度推定モデルをスケーリングプロンプトで適応させるワンステージのフレームワーク「Any2Full」を提案し、既存の手法よりも高いロバスト性と効率性で深度補完を実現するものである。
本論文は、2 次元と 3 次元の DHoGM 特徴量を統合した軽量かつ解釈可能なフレームワークを提案し、学習済みデータや未知の施設からのデータにおいても高い精度で脳 MRI のモーションアーチファクトを検出する手法を開発したものである。
この論文は、自己教師ありビジョントランスフォーマーを用いた自動パイプラインを開発し、人間の注釈なしで ImageNet 訓練セットをマルチラベル形式に変換することで、単一ラベル仮説の限界を克服し、分類精度と転移学習能力の両方を向上させることを提案しています。
この論文は、CLIP ベースの多モーダルフレームワークを用いて手術動画を自動解析し、手技やフェーズをテキスト記述と整合させることで、外科医による手動注釈や曖昧な術後報告に代わる構造化された手術タイムラインとナラティブを生成する手法を提案しています。
本論文は、信頼性の低い参照フレームに対しても適応的に動作し、単一モデルで低遅延およびランダムアクセスの両方に対応する、学習型動画圧縮の新しい統一手法「Uni-LVC」を提案し、従来の手法を上回る圧縮効率を実現することを示しています。
本論文は、深層学習を用いた既存の空モデルが抱える高ダイナミックレンジにおける太陽領域の再現性不足を克服し、ユーザーが太陽や雲の配置を直感的に制御できる完全ダイナミックレンジ対応の物理的忠実度を持つ新しい空モデル「Icarus」を提案し、画像ベースライティングにおける画期的な写実性と照明精度の実現を示すものです。
この論文は、異なるドメインで微調整されたモデルの合併時に生じる特異部分空間の競合を、すべてのモデルの主要特異ベクトルを結合して共通直交基底を求め、競合する特異方向を剪除する「SCORE」という手法で解決し、ドメイン一般化性能を向上させることを提案しています。
本論文は、拡散トランスフォーマーにおいてトレーニング不要でプラグアンドプレイ方式で動作し、画像生成の初期段階における潜在構造の再構成とレイヤーごとの注意機構強化を通じて、領域ごとの制御と奥行き順序(遮蔽関係)の正確な制御を可能にする「LayerBind」という手法を提案するものである。
この論文は、ビジョントランスフォーマーのパッチ特徴から学習したスパースオートエンコーダの視覚単語活性化に BM25 スコアリングを適用した「BM25-V」を提案し、その高い解釈性と効率的な 2 段階検索パイプラインにより、密なリランキングと同等の精度を維持しつつ大規模画像検索を可能にすることを示しています。
この論文は、2D から 3D へのシーン再構築における特徴量アップサンプラーの性能を評価するスペクトル診断フレームワークを提案し、空間的な詳細の強調よりもスペクトル構造の保存が再構築品質を決定づける重要な要因であることを示しています。
本論文は、イベントカメラのスパース性と高時間分解能を活用し、事前学習済み ViT と MaxViT、および深度推定モデルを組み合わせたグローバル・ローカル特徴融合パイプライン「EventGeM」を提案し、リアルタイムかつ高精度な視覚的場所認識を実現するものです。
この論文は、動画生成モデルの計算遅延を軽減するため、学習不要でフレーム間の重複潜在パッチを剪定し、注意機構の回復メカニズムによって視覚的アーティファクトを抑制する「LIPAR」フレームワークを提案し、生成品質を維持しつつ処理速度を約 1.45 倍に向上させることを示しています。
この論文は、分類マージンの拡大と入力摂動に対する予測の一貫性を同時に強制する新しい正則化フレームワーク「MaCS」を提案し、既存のアーキテクチャや追加データなしで、視覚モデルの較正精度とロバスト性を向上させつつ精度を維持または改善できることを示しています。