Your VAR Model is Secretly an Efficient and Explainable Generative Classifier
本論文は、拡散モデルに代わる効率的で説明可能な生成分類器として、可視自己回帰(VAR)モデルを基盤とした「A-VARC+」を提案し、その高い推論速度、トークンごとの相互情報量による視覚的説明性、およびクラス増分学習における忘却耐性を実証しています。
10079 件の論文
本論文は、拡散モデルに代わる効率的で説明可能な生成分類器として、可視自己回帰(VAR)モデルを基盤とした「A-VARC+」を提案し、その高い推論速度、トークンごとの相互情報量による視覚的説明性、およびクラス増分学習における忘却耐性を実証しています。
本論文は、視覚言語モデルが抱える肯定バイアスという課題に対処するため、否定文を構造的に生成する新規データセット「CoVAND」と、否定の文脈を維持するトークン結合モジュール「NegToMe」を提案し、物体検出タスクにおける否定理解の精度を大幅に向上させる手法を提示しています。
この論文は、動的なシーンにおけるカメラ姿勢推定と幾何学復元という競合するタスクの矛盾を、動的領域を認識して情報を分離するアグリゲータを導入することで解決し、VGGT を拡張した PAGE-4D を提案するものです。
この論文は、追加の複雑な学習テクニックを必要とせず、敵対的学習と組み合わせることで、拡散モデルの ODE サンプリングの計算コストを削減しつつ、高品質で詳細な画像生成を実現する「Generalized Adversarial Solver(GAS)」を提案するものです。
本論文は、テスト時適応(TTA)において既存の正規化層ベースのアプローチが抱えるバッチサイズへの依存性や構造的制約を克服し、事前学習モデルの整合性を保ちながらカタストロフィック・フォージングを回避する「バッファ層」という新たなパラダイムを提案し、その有効性と汎用性を示したものである。
本論文は、ピクセルレベルの推論とマルチモーダルなプロンプト対応を可能にする新しい視覚運動指示微調整フレームワークと大規模データセット「Pixel-160K」を提案し、既存の VLA モデルを大幅に上回る操作成功率と低コストな学習を実現する「PixelVLA」を開発したことを報告しています。
この論文は、既存のバックボーン構造を変更せずに畳み込み層を簡易に修正し、過去の画像復元タスクから得た知識を共有することで、計算コストや推論時間を大幅に増やすことなく、新しい復元タスクへの適応と既存タスクの性能維持を両立させる継続的学習手法を提案しています。
本論文は、視覚的フロンティア情報を活用して潜在ベースの探索を駆動し、自己再考メカニズムを通じて意思決定の信頼性を高めるゼロショットフレームワーク「SCOPE」を提案し、実体視覚ナビゲーションタスクにおいて最先端の手法を上回る精度を達成したことを報告しています。
本論文は、画像品質メトリクスを用いて各層の最適なランクを自動決定し、スタイル固有と共有のハイブリッドルータリングを備えた混合専門家(MoE)LoRA 構造を導入することで、限られたペアデータから高品質な多様スタイル編集を可能にする「StyleQoRA」という新しいフレームワークを提案するものです。
この論文は、偏りや誤りを排除した合成データを用いて視覚言語モデル(VLM)を微調整する手法を提案し、その結果、実世界データ(COCO)における絶対位置推定タスクの性能を 13% 向上させ、既存の手法を上回ることを実証しています。