SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images
SPEX は、古典的なスペクトル指標に基づいて土地被覆オブジェクトのスペクトル事前知識をテキスト属性として符号化した大規模言語モデル向けデータセット SPIE を構築し、マルチスペクトルリモートセンシング画像における高精度な土地被覆抽出と説明可能な予測を実現する初のビジョンランゲージモデルです。
6338 件の論文
SPEX は、古典的なスペクトル指標に基づいて土地被覆オブジェクトのスペクトル事前知識をテキスト属性として符号化した大規模言語モデル向けデータセット SPIE を構築し、マルチスペクトルリモートセンシング画像における高精度な土地被覆抽出と説明可能な予測を実現する初のビジョンランゲージモデルです。
本論文は、180 度を超える広角の魚眼画像を用いた 3D ガウススプラッティングの初評価を行い、160 度の視野角が最適な結果をもたらすことを示すとともに、SfM による初期化が困難な状況に対処するため、200 度を超える魚眼画像への初適用となる UniK3D を用いた深度ベースの初期化手法を提案し、その有効性を検証した。
この論文は、ソフトウェア定義無線(SDR)を用いた実験により、情報理論的な「平方根の法則」に基づく証明可能な隠密通信が無線周波数(RF)領域で実現可能であることを実証し、理論的予測の検証と実用的な応用の道を開いたことを報告しています。
この論文は、医療画像セグメンテーションにおけるドメイン適応の手法を、ソース画像の有無にかかわらず統合し、解剖学的知識を明示的に構造化した確率的多様体学習を通じて、解釈可能かつ高性能な統一フレームワークを提案するものです。
Video-EM は、長期動画理解における文脈制約を解決するため、既存の Video-LLM を追加学習なしで活用し、LLM を能動的な記憶エージェントとして機能させることで、クエリ関連の瞬間を特定し、一貫したイベントにグループ化し、冗長性を除去する自己反省ループを経て、コンパクトかつ信頼性の高い「イベントタイムライン」を構築するトレーニングフリーのフレームワークである。
本論文は、LLM と潜在拡散モデルを中核とし、幾何学的・意味的学習戦略を組み合わせることで、3D 画像の生成と空間的視覚質問応答(VQA)を統合的に実現する初のフレームワーク「UniUGG」を提案するものである。
本論文は、時系列、画像、テキストのマルチモーダル入力からインスタンス固有の条件付きプロンプトを推論し、モダリティの関連性を動的に調整する「Modality Routing」メカニズムを導入することで、既存の時間系列基盤モデルの予測精度を大幅に向上させるパラメータ効率の高いフレームワーク「UniCast」を提案するものである。
この論文は、単一画像から物理特性を考慮した3Dガウス表現を直接予測し、高速かつ高品質な4Dシミュレーションを実現する新しいフレームワーク「PhysGM」と、それを訓練するための大規模データセット「PhysAssets」を提案するものである。
本論文は、フレームおよびセマンティックレベルで冗長なポーズトークンを動的に剪除する階層的時系列剪除(HTP)戦略を提案し、拡散モデルに基づく 3 次元人体姿勢推定の計算コストを大幅に削減しつつ最先端の性能を達成する効率的なフレームワークを構築したものである。
PointSlice は、3 次元点群を 2 次元スライスに変換し、垂直方向の幾何学的関係を維持するためのスライス相互作用ネットワーク(SIN)を導入することで、自律運転における 3 次元物体検出の精度と推論速度の両立を実現する新たな手法を提案しています。
AmphiKey は、スマートグリッドの通信を古典的および量子脅威から保護するため、機密性と否認不能性を両立する認証モードと、プライバシーを重視する否認可能モードの 2 つの動作モードを備えたハイブリッド鍵交換プロトコルを提案し、高性能サーバーからリソース制約のある Raspberry Pi までの多様な環境で高い効率性を示すことを実証したものである。
本論文は、各クライアントでモダリティとデータが異なる非中央集権的な MRI 画像セグメンテーション課題を解決するため、モダリティの情報を解離・共有し、欠落モダリティを補完する新たな連合学習フレームワーク「MDM-MixMFL」を提案するものである。
この論文は、コスト効率、移動性、安全性に優れた超音波画像診断において、従来の別々のタスクとして扱われていた疾患予測と組織セグメンテーションを、計算コストを抑えつつ同時に高精度に行うための新しい汎用フレームワーク「UltraUPConvNet」を提案し、大規模データセットでの検証によりその有効性を示しています。
この論文は、従来の事例検索に依存せず、好奇心駆動型の正則化を用いて構造化された事例空間を学習する「Traffic-MLLM」を提案し、複雑な交通シナリオにおける推論精度と汎化性能を大幅に向上させたことを報告しています。
本論文は、VLM と「ロボティック・イマジネーション」を統合し、不確実性を検知して能動的にカメラ視点を変更することで曖昧性を解消し、さらに拡散方策を用いた能動的追跡モジュールで移動物体の可視性を維持する、ロボット操作のための高精度な 6 次元物体姿勢推定・追跡システム「ActivePose」を提案しています。
泥跳魚(マッドスキッパー)に着想を得たロボットの実験により、尾の振動が砂地などの変形性地盤において流体化効果を生み抵抗を低減し、移動速度を 67% 向上させることが示され、尾の形状と地盤強度に応じた制御戦略の設計指針が提示されました。
本論文は、従来の線形アテンションにおける低ランク制約と特徴の冗長性を解消し、高解像度画像処理において計算効率と表現力を両立させるために、入力適応型の選択的アダプティブゲーティング(SAGA)を提案するものである。
この論文は、アノテーションを必要とせず、テスト時のデータ拡張と予測バウンディングボックスの空間的一貫性を測定することで、実環境における物体検出モデルの信頼性を評価する新しい指標「累積合意スコア(CCS)」を提案し、その有効性と理論的根拠を実証しています。
本論文は、都市の街路樹インベントリを効率化するため、2 つの都市で収集された 2 万 1,007 件のアノテーション付き木々を含む大規模なマルチモーダルデータセット「WHU-STree」を提案し、その多様なタスクへの適用性と将来の課題を検証するものです。
この論文は、センサー遅延と計算コストに起因する制御ループの非同期性を解消するため、遅延を明示的に条件付けする時間符号化モジュールとカリキュラム学習を導入した非同期強化学習フレームワークを提案し、実機でのゼロショット転移により高頻度かつロバストな自律飛行を実現したことを示しています。