Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition
本論文は、クラス固有の概念を潜在変数として扱い、LLM による概念合成と多様性確保、そして外れ値を抑制する適応的ソフトトリム尤度を用いることで、ゼロショット画像認識の性能を飛躍的に向上させる概念誘導ベイズフレームワークを提案するものです。
3927 件の論文
本論文は、クラス固有の概念を潜在変数として扱い、LLM による概念合成と多様性確保、そして外れ値を抑制する適応的ソフトトリム尤度を用いることで、ゼロショット画像認識の性能を飛躍的に向上させる概念誘導ベイズフレームワークを提案するものです。
この論文は、明示的な運動推定を不要とし、カスケード型Mambaモジュールと局所性改善フィードフォワードネットワークを統合した直接変換戦略に基づく、低ビットレート条件下で高画質かつ時間的一貫性を有する新しい学習型動画圧縮フレームワークを提案するものです。
本論文は、特異値分解によるスペクトル分解と、粗から細への可変形集約モジュールおよび空間・スペクトル相互注意機構を組み合わせた新しい融合フレームワークを提案し、未登録の参照画像を用いたハイパースペクトル画像の超解像性能を大幅に向上させることを示しています。
この論文は、悪天候下でも機能するレーダーと既存の LiDAR 地図を統合する新しいフレームワーク「RLPR」を提案し、センサー固有の信号特性を抽象化する双ストリームネットワークと、事前学習されたレーダー分岐を指針とした非対称なクロスモーダル整合戦略により、既存の手法を上回る認識精度とゼロショット汎化性能を達成することを示しています。
本論文は、Vision Transformer の線形層を特異値分解し特異値のみを適応させる「IMSE」を提案し、エントロピー最小化の限界を克服する多様性最大化損失とドメイン認識スペクトルコード検索を導入することで、テスト時適応および継続的テスト時適応において極めて少ない学習パラメータで最先端の性能を実現する手法を提示しています。
本論文は、2 次元構造を持つ数式認識の課題に対し、2 次元位置符号化を備えたハイブリッド・ビジョン・トランスフォーマーをエンコーダに、カバレッジ・アテンション・デコーダを採用し、IM2LATEX-100K データセットで BLEU 89.94 を達成して最先端の手法を上回る性能を示した研究です。
本論文は、学生が描いたオートマトン図を Vision-Language モデルで記述化し、それを大規模言語モデルで TikZ コードに変換する手法を評価した結果、画像からの直接記述化には誤りが多く、人間の修正が品質向上に不可欠であることを示し、自動採点や教材作成への応用可能性を論じています。
この論文は、オフラインの事前処理やシーン表現の保存を一切必要とせず、RGB 画像からのオンライン 3 次元再構成と 2D-3D 対応関係に基づく 2 段階のスケール復元・姿勢最適化を行うことで、疎なシーンでも最先端の精度と頑健性を達成する新しいマップフリー視覚局所化フレームワーク「」を提案するものである。
本論文は、テキストエンコーダや言語モデルに依存せず、Vision Transformer の学習可能トークンと空間認識型クロスアテンション機構を活用して、産業・医療分野の 13 のベンチマークで最先端の性能を達成するゼロショット異常検出手法「VisualAD」を提案するものです。
本論文は、タスク固有の推論と長尾分布の偏りを克服するため、連鎖思考に基づく教師あり微調整とグループ系列方策最適化を組み合わせた新しい構造推論フレームワーク「SGG-R」を提案し、バイアスのないエンドツーエンドのシーングラフ生成を実現するものです。
この論文は、指差しなどの共発話ジェスチャーと音声の時間的・空間的整合性を厳密に評価するための新しいベンチマーク「EcoG-Bench」を提案し、現在の多モーダルモデルが人間の能力に比べて大幅に劣っていること、およびその主なボトルネックがモデルの推論能力ではなく、時間的アライメントの手がかりを捉えにくいマルチモーダルインターフェースにあることを明らかにしています。
この論文は、手術室における頻繁な遮蔽(オクルージョン)に強靭な拡張現実(AR)ナビゲーションを実現するため、複数のセンサモダリティを融合し、動的なシーングラフ表現とリアルタイムな追跡信頼性推定を組み合わせたデバイス非依存型の手術器具追跡フレームワークを提案するものである。
LiDAR ベースの 3D 物体検出において、アンカーや NMS を不要とし、近傍から遠方へ向かう順序で物体を離散トークン列として生成する自己回帰モデル「AutoReg3D」を提案し、従来の検出器と同等の性能を達成しながら言語モデルの最新技術を 3D 知覚へ応用する新たな道を開いた。
TeamHOI は、Transformer ベースのアーキテクチャとマスクされた敵対的運動事前知識(AMP)戦略を活用することで、単一の分散型方策により、チームサイズや対象物の形状に関わらず、物理的に現実的な協調的な人間 - 物体相互作用を実現するフレームワークです。
本論文は、大規模言語モデルの推論能力を活用し、新しい軌道トークン化手法と自動的な思考連鎖生成メカニズムを導入することで、人間が混在する環境におけるロボット軌道予測の精度、特に長期的な予測と汎化性能を飛躍的に向上させた「AutoTraces」を提案しています。
この論文は、既存の航空用視覚言語ナビゲーション手法が抱える空間推論の不足や言語的曖昧さを解消するため、追加学習なしで画像平面上で直接推論を行う「ViSA(視覚空間推論)強化フレームワーク」を提案し、CityNav ベンチマークにおいて最先端手法を大幅に上回る成功率を達成したことを報告しています。
本論文は、現実世界の多様な環境におけるアナログ時計の読み取りが現在の視覚言語モデルにとって依然として課題であることを指摘し、実世界データセット「TickTockVQA」と最適化手法「Swap-DPO」を提案することで、モデルの時計読み取り精度と空間的推論能力を大幅に向上させることを示しています。
この論文は、赤外線画像が欠落している状況でも可視光画像から高品質な融合画像を生成するために、共有辞書に基づく係数領域での推論と大規模言語モデルを活用した意味的事前知識を組み合わせた新しいフレームワーク「Missing No More」を提案し、その有効性を検証したものである。
本論文は、影の生成が抱える非適切性の課題を解決するため、可視性事前知識を活用した二段階の拡散モデル「VSDiffusion」を提案し、DESOBAv2 データセットにおいて既存の手法を上回る最先端の結果を達成したことを報告しています。
本論文は、3D 物体形状とテキスト指示の間のモダリティギャップを克服し、物理的に安定かつ意味的に整合性の高い把持姿勢を生成するために、拡散モデルと細粒度な構造化言語ラベルを活用した新しいフレームワーク「AffordGrasp」を提案し、既存手法を大幅に上回る性能を実証したものである。