Texture Vector-Quantization and Reconstruction Aware Prediction for Generative Super-Resolution
本論文は、超解像における欠損テクスチャの事前分布をコードブックでモデル化する「テクスチャベクトル量子化」と、画像レベルの教師信号を用いてインデックス予測器を直接学習する「再構成認識予測」を提案し、低計算コストでフォトリアリスティックな超解像を実現する生成モデル(TVQ&RAP)を開発したものである。
10077 件の論文
本論文は、超解像における欠損テクスチャの事前分布をコードブックでモデル化する「テクスチャベクトル量子化」と、画像レベルの教師信号を用いてインデックス予測器を直接学習する「再構成認識予測」を提案し、低計算コストでフォトリアリスティックな超解像を実現する生成モデル(TVQ&RAP)を開発したものである。
本論文は、姿勢や被写界深度、画角、遮蔽などが不規則な野生の 2D 写真集合から、チューニング不要で数分以内に高忠実度な 3D 着衣人物を再構築する初の手法「UP2You」を提案し、既存手法を上回る幾何学的精度とテクスチャ忠実度を実現するとともに、任意のポーズ制御やトレーニング不要のバーチャル試着など実用的な応用を可能にすることを示しています。
本論文は、従来の拡散モデルが抱える推論時間の遅延と忠実性の低下という課題を解決し、ブランク制御ネットワークと適応的タイムステップ予測を組み合わせた単一ステップの拡散モデル「FideDiff」を提案することで、高忠実度かつ効率的な画像モーションデブラーリングを実現する手法を提示しています。
この論文は、単一の画像と物体の速度指定から物理的に妥当な剛体相互作用を含む動画を生成し、合成データを用いた段階的学習戦略と低・高レベルの条件付けを組み合わせることで、既存の動画生成モデルの物理的妥当性と制御性を大幅に向上させる「KineMask」という手法を提案するものである。
本論文は、外部知識源を必要とせず、記号的関係パスと視覚的根拠に基づく自然言語説明という二重経路の構造化推論トレースを用いて自己教師あり学習を行うことで、暗黙的知識に基づく視覚的質問応答(IK-KVQA)の精度と推論の透明性を大幅に向上させる「StaR-KVQA」というフレームワークを提案するものです。
この論文は、動画言語モデルにおける時間的論理的一貫性の欠如がクロスマーダル注意機構の時間的識別能力の低さに起因することを発見し、注意の区別に基づいた強化手法「TCAS」を提案することで、モデルの時間的理解と論理的一貫性を大幅に向上させることを示しています。
本論文は、視覚的予測と計画を単一のマルチモーダル自己回帰モデルに統合し、階層的メモリ機構を備えた「UniWM」を提案することで、従来のモジュール型システムに比べて視覚ナビゲーションの成功率を最大 30% 向上させ、未知環境へのゼロショット汎化能力や高次元のヒューマノイド制御へのスケーラビリティを実現したことを報告しています。
この論文は、大規模言語モデルの推論能力と画像理解・生成を統合したマルチモーダルモデルの性能を、理解と生成の一貫性、論理的制約に基づくテキストから画像への生成、および多段階推論を要する画像編集という3つの観点から厳密に評価するための包括的なベンチマーク「GIR-Bench」を提案し、既存モデル間に理解と生成の間に依然としてギャップが存在することを示しています。
本論文は、拡散モデルに代わる効率的で説明可能な生成分類器として、可視自己回帰(VAR)モデルを基盤とした「A-VARC+」を提案し、その高い推論速度、トークンごとの相互情報量による視覚的説明性、およびクラス増分学習における忘却耐性を実証しています。
本論文は、視覚言語モデルが抱える肯定バイアスという課題に対処するため、否定文を構造的に生成する新規データセット「CoVAND」と、否定の文脈を維持するトークン結合モジュール「NegToMe」を提案し、物体検出タスクにおける否定理解の精度を大幅に向上させる手法を提示しています。