4DRC-OCC: Robust Semantic Occupancy Prediction Through Fusion of 4D Radar and Camera
この論文は、悪天候や照明条件の変化に強い 4D レーダーと豊富な意味情報を提供するカメラを融合し、自動運転の 3D セマンティック・オキュパンシー予測の精度と頑健性を向上させる初の研究を提案するとともに、高価な手動アノテーションへの依存を減らすための自動ラベル付きデータセットを導入したことを報告しています。
3923 件の論文
この論文は、悪天候や照明条件の変化に強い 4D レーダーと豊富な意味情報を提供するカメラを融合し、自動運転の 3D セマンティック・オキュパンシー予測の精度と頑健性を向上させる初の研究を提案するとともに、高価な手動アノテーションへの依存を減らすための自動ラベル付きデータセットを導入したことを報告しています。
本論文は、マルチステップ展開における視覚的整合性を維持し、推論効率を向上させるために、構造事前学習とアクション条件付き整合性(ACC)の事後学習を組み合わせた二段階トレーニングフレームワークと、整合性を保った推論向け蒸留手法(ICSD)を提案するモバイル世界モデル「MWM」を提案しています。
この論文は、拡散モデルの生成プロセスを「編集」と見なし、画像の難易度に応じて大規模モデルと小規模モデルをピクセルおよびタイムステップレベルでハイブリッドに組み合わせることで、Stable Diffusion 3 において既存の手法を上回る 1.83 倍の高速化を実現する「HybridStitch」という新たな手法を提案しています。
この論文は、ハワイの雲霧林において低コストのカメラトラップと視覚基盤モデルを組み合わせることで、従来のサンプリングでは検出が困難だった個体レベルの植物物候変動や動植物間の相互作用を、教師あり学習なしに高精度に追跡・分析する手法を提案しています。
この論文は、限られた農業データにおいて、複雑なクロスビューアテンションや SSM よりも単純な畳み込みモジュールの方が優れており、バックボーンモデルの質こそが予測精度を決定する主要因であることを示しています。
本論文は、大規模かつ多様なデータから学習した汎用的な特徴抽出器と、限られたデータで訓練するタスク固有のドメインアダプターを二段階のバイレベル最適化で組み合わせる転移学習フレームワークを提案し、これにより限られたデータでも高品質な MR 画像再構成を実現することを示しています。
本論文は、VR ヘッドセットのオフ軸カメラ構成向けに 68 名の参加者から収集された大規模な未ラベルデータセット「VRGaze」を公開し、ラベルなしで学習可能な注意機構に基づく新しいアテンション誘導型教師なしフレームワーク「GazeShift」を提案することで、VR 環境における高精度かつリアルタイムな視線推定を実現したものである。
この論文は、事前学習済みのテキストから画像への拡散モデルの特性を活用し、追加学習なしで腹腔鏡下胆嚢摘出術の動画における重要な解剖学的構造や器具の追跡を可能にする新しい手法を提案し、CholeSeg8K データセットにおいて既存の手法を上回る精度を達成したことを報告しています。
SoundWeaver は、セマンティックに類似したキャッシュ音声を活用して拡散モデルの推論ステップを動的にスキップするトレーニング不要のシステムであり、音声品質を維持しつつ遅延を最大 3 倍削減します。
本論文は、自律走行におけるエンドツーエンドの性能向上を目指し、従来のペアワイズ類似度ではなくマルチモーダル類似度テンソルとテンソル損失を導入することで、テキスト・画像・点雲を統一的な埋め込み空間に同時に整列させる「Contrastive Tensor Pre-training (CTP)」フレームワークを提案するものである。
本論文は、産業・医療・航空など多様な領域における微妙な視覚的差異の識別を評価する新たなベンチマーク「VLM-SubtleBench」を提案し、既存の VLM が人間のレベルに達するまでには、属性や状態などの細かな違いに対する推論能力において依然として大きな課題が残っていることを明らかにしています。
本論文は、粗い形態・意味構造の理解から微細な境界の調整へと段階的に学習を進める「構造・進行度認識拡散(SPAD)」を提案し、アンカー保持ノイズと進行度認識境界ノイズを進行度認識スケジューラーで制御することで、医療画像セグメンテーションの精度向上を図るものである。
この論文は、画像のピクセルをエージェントとしてモデル化し、ヘドニックゲームにおける coalition 形成を画像セグメンテーションという視覚的テストベッドとして検証し、メカニズム設計パラメータが均衡構造に与える影響を定量化することを提案しています。
この論文は、自己教師あり学習で事前学習された病理学基盤モデルに、空間トランスクリプトミクスデータを教師信号として組み込む「MINT」という微調整フレームワークを提案し、組織の形態情報と分子状態の両方を統合的に学習させることで、遺伝子発現予測や一般的な病理タスクにおける性能を飛躍的に向上させたことを示しています。
本論文は、既知クラスと未知クラスの両方を効果的に活用し、追加のオプセット検出器を必要としない統合フレームワーク「EOAL」を提案し、既存の手法よりも高い精度と効率性でオープンセット能動学習を実現するものである。
本論文は、クラス固有の概念を潜在変数として扱い、LLM による概念合成と多様性確保、そして外れ値を抑制する適応的ソフトトリム尤度を用いることで、ゼロショット画像認識の性能を飛躍的に向上させる概念誘導ベイズフレームワークを提案するものです。
この論文は、明示的な運動推定を不要とし、カスケード型Mambaモジュールと局所性改善フィードフォワードネットワークを統合した直接変換戦略に基づく、低ビットレート条件下で高画質かつ時間的一貫性を有する新しい学習型動画圧縮フレームワークを提案するものです。
本論文は、特異値分解によるスペクトル分解と、粗から細への可変形集約モジュールおよび空間・スペクトル相互注意機構を組み合わせた新しい融合フレームワークを提案し、未登録の参照画像を用いたハイパースペクトル画像の超解像性能を大幅に向上させることを示しています。
この論文は、悪天候下でも機能するレーダーと既存の LiDAR 地図を統合する新しいフレームワーク「RLPR」を提案し、センサー固有の信号特性を抽象化する双ストリームネットワークと、事前学習されたレーダー分岐を指針とした非対称なクロスモーダル整合戦略により、既存の手法を上回る認識精度とゼロショット汎化性能を達成することを示しています。
本論文は、Vision Transformer の線形層を特異値分解し特異値のみを適応させる「IMSE」を提案し、エントロピー最小化の限界を克服する多様性最大化損失とドメイン認識スペクトルコード検索を導入することで、テスト時適応および継続的テスト時適応において極めて少ない学習パラメータで最先端の性能を実現する手法を提示しています。