Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling
本論文は、大規模視覚言語モデル(LVLM)を活用してドローン画像と衛星画像の視覚的・意味的相関を明示的に学習する新規ランキングアーキテクチャと、近接する正例への過度な罰則を回避する関係性認識損失関数を提案し、既存の手法を大幅に上回るクロスビュー UAV 地理定位の精度向上を実現するものである。
3940 件の論文
本論文は、大規模視覚言語モデル(LVLM)を活用してドローン画像と衛星画像の視覚的・意味的相関を明示的に学習する新規ランキングアーキテクチャと、近接する正例への過度な罰則を回避する関係性認識損失関数を提案し、既存の手法を大幅に上回るクロスビュー UAV 地理定位の精度向上を実現するものである。
この論文は、連続的な特徴量に依存する従来の評価指標の限界を克服するため、離散的な視覚トークン空間における分布距離や品質スコアを提案し、大規模ベンチマーク「VisForm」を用いて人間の評価との高い相関を実証するものです。
この論文は、マルチモーダル大規模言語モデルを用いて欠陥画像を合成し、限られた実データのみで電力線絶縁体の欠陥検出精度を大幅に向上させるデータ効率の高い手法を提案しています。
本論文は、既存のハッシュベース手法が抱える情報損失やカテゴリ爆発の問題を克服するため、セマンティックなプロトタイプ更新と安定したテスト時エンコーダ更新、およびマージン意識型ログit較正を導入し、オンラインストリームから未知のカテゴリを動的に発見・学習する適応フレームワーク「TALON」を提案するものです。
この論文は、未知環境でのオブジェクト目標ナビゲーションにおいて、LLM を用いた意味領域推論とハイブリッド地図を統合し、能動的な探索戦略を採用することで、従来の反応型アプローチやフロンティア探索よりも大幅に高い成功率と経路効率を達成する手法を提案しています。
本論文は、主語駆動型テキストから画像生成モデルの評価における既存の限界を克服し、階層的な主語分類、難易度とシナリオの細分化、人間評価との相関が高い新規指標(SICS)、および診断的洞察を提供する包括的なベンチマーク「DSH-Bench」を提案し、19 の主要モデルを評価することで将来の研究指針を確立したものである。
TrianguLang は、推論時にカメラ較正や最適化を不要とし、幾何学的整合性を意識した注意機構(GASA)を導入することで、単一のテキストクエリのみで高精度かつリアルタイムな 3 次元物体・部分の位置特定を実現する新しいフードフォワードフレームワークです。
本論文は、ラベルフリーの情報エントロピー基準を用いたニューロン重要度評価とバイナリ探索に基づく適応的剪定を提案し、CLIP や DINOv2 などの大規模ビジョントランスフォーマーからパラメータ数と FLOPs を約 40% 削減しながら性能をほぼ維持する「適応的 MLP 剪定(AMP)」手法を提示しています。
この論文は、自律運転における既存のトークンレベルの混合専門家(MoE)メカニズムの限界を克服し、鳥瞰図(BEV)特徴に基づいてエキスパートを選択する「シーン適応型混合専門家(SAMoE-VLA)」を提案することで、パラメータ数を抑えながら最先端の性能を実現する Vision-Language-Action モデルを提示しています。
本論文は、マスクされたオーディオ・ビジュアル整合性学習と動的条件付きフローを組み合わせることで、動画のセマンティクスとリズムの両方に高度に同期した高品質な音声を生成する「FoleyFlow」を提案し、既存手法を上回る性能を実証したものです。
本論文は、事前学習モデルの制約に依存せず、トレーニング不要の視覚・幾何学的推論を用いて任意の 3D 環境における任意の物体を特定する新しいゼロショット手法「UniGround」を提案し、複数のベンチマークおよび実世界環境において最先端の性能を示すことを報告しています。
本論文は、低照度・ノイズ・モーションブラーが混在する 3D 暗所シーンの復元を、明るさの中間アンカーを用いた段階的な補強とノイズを考慮した 3D ガウシアンスプラッティングによる再構成の交互サイクルとして再定式化し、既存手法を大幅に上回る高速性と画質を実現する「FLED-GS」を提案するものである。
この論文は、3D CT 画像からの血管中心線抽出において、従来の決定論的モデルの限界を克服し、粗から細への表現と投票ベースの集約を採用した拡散モデル「VesselFusion」を提案し、より高精度かつ自然な結果を実現したことを報告しています。
既存のデータセットの限界を克服し、仮想試着やサイズ推定などのタスクに特化した大規模なマルチビュー動画データセット「MV-Fashion」を提案し、複雑な衣類の動きや詳細なアノテーション、平置き画像との対照データを含む画期的なリソースを提供する論文です。
本論文は、高速運動や極端な照明条件下でも安定した位置推定を実現するため、イベントカメラの特性を活かしたエッジ感知フロントエンドと学習ベースの深度推定モジュールを統合したハイブリッド視覚慣性SLAMシステム「Edged USLAM」を提案し、実機飛行実験を通じてその有効性を示したものである。
本論文は、電磁気領域におけるマルチモーダル大規模言語モデルの課題であるデータ不足、ベンチマークの欠如、低 SNR 環境での脆弱性に対処するため、大規模データセット「EM-100k」、包括的ベンチマーク「EM-Bench」、そして低 SNR 環境に強い新規学習フレームワーク「MERLIN」を提案し、電磁信号からテキストへのタスクにおいて最先端の性能と堅牢性を達成したことを報告しています。
この論文は、ビジョン・ランゲージモデルの言語表現と LiDAR 特徴量を整合させることで、未知のオブジェクトをゼロショット分類として検出する新しい手法「ALOOD」を提案し、nuScenes ベンチマークで競争力のある性能を実証したものです。
LiDAR とカメラの異なるサンプリングレートという課題を解決し、非同期観測データも活用して高頻度な状態更新を実現する空間時間融合フレームワーク「Fusion-Poly」を提案し、nuScenes ベンチマークで 3D 多物体追跡の最先端性能を達成したという論文です。
本論文は、長尾分布を持つマルチモーダルデータに対して、サンプルの局所分布に応じた動的な温度スケジューリングとマージンスケジューリングを導入し、情報対照損失と最大マージン手法を統合することで、画像・言語タスクにおいて最先端の性能を達成する「MM-TS」という手法を提案しています。
本論文は、解像度や視点、視野が異なる熱画像と可視画像の異種センサーを統合する際の問題を解決するため、空間対応性を維持し信頼性に基づいて適応的に重み付けを行う新しい融合手法(RGIF と RGMAF)を提案し、MMFW-UAV データセットを用いた実験で無人航空機(UAV)の検出性能を大幅に向上させることを実証しています。