RAViT: Resolution-Adaptive Vision Transformer
RAViT は、異なる解像度の画像を複数のブランチで処理し、推論時に精度と計算コストのトレードオフを動的に調整する早期終了メカニズムを導入することで、従来の Vision Transformer と同等の精度を維持しつつ FLOPs を約 70% に削減する新しい画像分類フレームワークです。
7587 件の論文
RAViT は、異なる解像度の画像を複数のブランチで処理し、推論時に精度と計算コストのトレードオフを動的に調整する早期終了メカニズムを導入することで、従来の Vision Transformer と同等の精度を維持しつつ FLOPs を約 70% に削減する新しい画像分類フレームワークです。
この論文は、高次元画像の属性空間と画像空間の両方での一貫した探索を可能にするため、ピクセルの空間配置を考慮して高次元属性多様体を反映した超ピクセル階層を構築する手法を提案し、その有効性を示すものである。
本論文は、異なるモダリティ間の特徴量整合性を欠く DINOv2 などの事前学習済み視覚エンコーダの問題を解決するため、複数のモダリティ入力に対して一貫した強力な特徴表現を学習する「雑食性視覚エンコーダ」を提案し、教師モデルの知識を蒸留しつつマルチモーダル理解を可能にする新しいフレームワークを提示しています。
本論文は、医療画像分類における隠れた体系的な失敗を検出・説明するために、画像とメタデータを組み合わせたマルチモーダル表現を活用した初の自動監査フレームワークを提案し、その有効性を示したものである。
本論文は、マルチモーダル大規模言語モデル(MLLM)の出力の信頼性を評価し、誤った回答を検出するために、外部ツールを必要とせずモデル内部の機能のみを用いて効率的に動作するトレーニング不要の不確実性定量化フレームワーク「UMPIRE」を提案し、多様なモダリティや敵対的設定において既存手法を上回る性能を実証したものである。
この論文は、拡散モデルの推論コストを削減する既存のキャッシュ手法の限界を克服するため、モデル出力の感度分析に基づきサンプルごとに適応的にキャッシュタイミングを決定する「SenCache」という原理的なフレームワークを提案し、Wan 2.1 や CogVideoX などのモデルにおいて計算コストを維持しつつ視覚品質を向上させることを示しています。
本論文は、顕微鏡画像の多解像度特性を世界座標系で統合し、広視野の文脈と高解像度の詳細を単一のエンコーダーで融合する新しいトランスフォーマーアーキテクチャ「MuViT」を提案し、合成ベンチマークおよび組織病理学や脳イメージングなどの実データにおいて既存モデルを上回る性能を実証しています。
本論文は、8 万組以上の好対データから構築した「SpatialScore」という報酬モデルを導入し、テキストから画像を生成する際の空間関係の理解を強化することで、複雑な空間指示に対する生成精度を飛躍的に向上させる手法を提案しています。
この論文は、従来の一致モデルが抱える整合性ドリフトや幾何学的な非結合という課題を、軌道整合戦略と二重参照構造的補正メカニズムによって解決し、低遅延かつ高品質な実世界画像超解像を実現する「GTASR」という新しい学習パラダイムを提案しています。
本論文は、組織病理画像の染色やスキャナに起因するバッチ効果を解決し、モデルの汎化性能を向上させるため、単一のソースデータセットから学習する教師なし表現学習フレームワーク「Latent Manifold Compaction(LMC)」を提案し、その有効性を複数のベンチマークで実証したものである。
本論文は、低レベルの視覚特徴と高レベルの行動潜在変数の時間的変化速度の違いに着目し、階層的因果生成過程とスパースな遷移制約を導入することで、弱教師あり行動セグメンテーションにおいて潜在行動変数の厳密な識別性を保証し、既存手法を大幅に上回る性能を達成する「Hierarchical Action Learning (HAL)」モデルを提案するものである。
本論文は、Decoupled Diffusion Transformer を用いて「モード探索(局所的なリアリズム)」と「平均探索(長期的な整合性)」を分離・統合する新たな学習パラダイムを提案し、限られた長尺動画データと高品質な短尺動画教師モデルを組み合わせることで、数ステップで高忠実度かつ一貫性のある分単位の長動画生成を実現する手法を提示しています。
本論文は、ラベルなしデータで複雑な背景を学習・抑制し、異なるドメインへの汎化能力を持つ「背景抑制拡散モデル(BSDM)」を提案することで、ハイパースペクトル異常検出の性能向上を実現する画期的な手法を初めて紹介したものである。
本論文は、半教師あり学習と潜在拡散モデルを組み合わせ、既存の画像生成モデルからの知識蒸留や拡散ベースのリファイナー、 latent consistency モデルの蒸留、および新しいタイル化技術を通じて、注釈データへの依存を減らしつつ高解像度かつ多様な物理ベースレンダリング(PBR)マテリアルを高速に生成する「StableMaterials」を提案するものである。
本論文は、ボクセル単位のセマンティック情報に基づくクエリ初期化と、幾何学的特徴を強化したインタリーブ型トランスフォーマーデコーダを導入することで、大規模な 3D シーンにおける高精度かつ効率的なインスタンスセグメンテーションを実現する SGIFormer を提案し、ScanNet 系列の主要ベンチマークで最先端の性能を達成したことを報告しています。
この論文は、既知の偽造ドメインに限定されない未知のドメインへの汎化能力を高めつつ、計算リソースを削減するために、事前学習済み Vision Transformer の構造を維持したまま軽量モジュールのみを最適化するパラメータ効率型のオープンセット Deepfake 検出手法を提案し、偽造スタイルの混合によるドメイン多様性の向上を実現したものである。
この論文は、事前学習や知識工学に依存せず単一の例から概念を学習する「真のワンショット学習」を実現するため、ガウス混合モデルに基づく抽象化ガウスプロトタイプ(AGP)フレームワークを提案し、分類タスクだけでなく人間と区別がつかない新規生成タスクも達成できることを示しています。
本論文は、3D ガウススプラットをアーキテクチャレベルで直接融合する「SplatSDF」を提案し、既存の手法よりも 3 倍の高速な収束と高精度な幾何学表現を実現することで、SDF-NeRF の実用システムへの展開を加速させるものである。
本論文は、参照画像からノイズ(distractor)を除去しつつ新規シーンへの一般化を可能にする「Distractor-free Generalizable 3D Gaussian Splatting(DGGS)」という新たなフレームワークを提案し、学習時の安定性向上と推論時のアーティファクト低減を実現するものです。
この論文は、既知クラスの情報に基づいて未知クラスを推論する疑似未知埋め込みやマルチスケール対照的アンカー学習などの手法を提案し、従来のオープンボキャブラリー検出モデルが抱える未知物体の検出・学習の課題を解決し、オープンワールド環境下での物体検出性能を飛躍的に向上させるフレームワークを構築したものである。