Openfly: A comprehensive platform for aerial vision-language navigation
本論文は、屋外空撮における視覚言語ナビゲーション(VLN)の研究を促進するため、多様なレンダリングエンジンと自動化ツールチェーンを活用して大規模データセットとベンチマーク「OpenFly」を構築し、キーフレームを考慮したエージェント「OpenFly-Agent」を提案するものである。
5565 件の論文
本論文は、屋外空撮における視覚言語ナビゲーション(VLN)の研究を促進するため、多様なレンダリングエンジンと自動化ツールチェーンを活用して大規模データセットとベンチマーク「OpenFly」を構築し、キーフレームを考慮したエージェント「OpenFly-Agent」を提案するものである。
LLaVE は、標準的な InfoNCE 損失の限界を克服するために難易度重み付き対照学習を導入し、MMEB ベンチマークで SOTA 性能を達成するとともに、画像 - テキストデータからゼロショットで動画検索タスクにも強力に汎化する大規模マルチモーダル埋め込みモデルを提案するものです。
この論文は、既存のモデルと DeepSeek-R1 を活用して作成した高品質なマルチモーダル推論データセットを用いた冷間起動と、過剰思考を抑制する Progressive Thinking Suppression Training 戦略を組み合わせた強化学習により、マルチモーダル大規模言語モデルの推論能力を飛躍的に向上させた「Vision-R1」を提案し、MathVista ベンチマークで OpenAI O1 に匹敵する性能を達成したことを報告しています。
本論文は、セマンティックな高次元特徴とピクセルレベルの低次元特徴をそれぞれ独立した階層的なコードブックで表現する「SemHiTok」という新しいユニファイド画像トークナイザーを提案し、マルチモーダルな理解と生成の両方のタスクにおいて優れた性能を実現することを示しています。
本論文は、マスク画像生成モデルとマスク拡散モデルを単一の枠組みで統合し、トレーニングとサンプリングの設計空間を探索することで、少ない計算コストで最先端の性能を達成する新しいモデル「eMIGM」を提案しています。
本論文は、著作権侵害やプライバシー違反などの懸念に対処するため、拡散モデルから概念を効率的かつ高精度に削除する新たな手法「SPEED」を提案し、非対象概念の品質を損なわずに 100 個の概念をわずか 5 秒で削除可能であることを示しています。
本論文は、医療画像診断などの実世界応用において、機械学習システムの性能と公平性のトレードオフを包括的かつ直感的に評価し、意思決定を支援するモデル非依存の多目的評価フレームワーク「Fairical」を提案し、その有効性を示したものである。
この論文は、指定されたセグメンテーションマスクで定義された対象物とテキストプロンプトで記述された動作に基づいて、俳優が対象物と相互作用する動画を生成する「ターゲット認識型動画拡散モデル」を提案し、クロスアテンション損失の最適化を通じて人間と物体の相互作用を高精度に実現するとともに、ゼロショット 3D 動作合成や長期的な動画コンテンツ作成などへの応用可能性を示しています。
本論文は、複数のタスク間で生じる干渉を低減し、テスト時にエントロピー最小化を通じて特異方向を適動的に剪定する新たなモデル統合フレームワーク「AdaRank」を提案し、これにより多様なバックボーンやタスク数において最先端の性能を達成し、微調整済みモデルとの性能差を約 1% まで縮小することを示しています。
この論文は、マルチモーダル大規模言語モデルが推論する常識的知識を、数学的記号に基づいて計算可能な「解析的概念」を介して物理世界に接地させることで、ロボットが様々な可動物体を汎用的かつ正確に操作するための制御方針を導き出す手法を提案し、実世界およびシミュレーションでの実験によりその有効性を示したものです。
本論文は、SAR と光学画像など異なるセンサー間の非線形放射量差による課題を解決するため、単一ステップで画像変換を行う拡散モデルと多モーダル融合ネットワークを組み合わせた OSDM-MReg を提案し、高精度かつ高速なリモートセンシング画像の登録を実現するものである。
本論文は、5 つの公開データセットを統合し SMOTE と CLAHE による前処理を施したハイブリッドデータセットを用いて、VGG19 と ResNet50V2 を融合させた新しい深層学習モデル「VR-FuseNet」を提案し、91.824% の精度で糖尿病網膜症を分類するとともに、XAI 技術により臨床医が解釈可能な説明を提供するものである。
この論文は、機械学習の指標だけでなく、生態学や生物学における最終的な応用(個体数推定や視線方向の推定など)に直接影響を与えるアプリケーション固有の指標を用いて視覚モデルを評価する必要性を、チンパンジーと鳩の事例研究を通じて主張しています。
この論文は、データ分布間のワッサーシュタイン距離を、データ部分群や入力特徴量などの解釈可能な構成要素に帰属させるための、説明可能 AI に基づく新しい手法を提案し、その有効性を示すものです。
本論文は、オンラインデータに存在するノイズ対応の問題に対処するため、ノイズの不確実性をモデル化するキー特徴量セレクタと、負のサンプルの難易度を動的に調整する新しい損失関数を備えた DURA フレームワークを提案し、低・高ノイズ環境の両方においてテキストベースの人物検索性能を向上させることを示しています。
本論文は、敵対的学習で事前訓練されたトランスフォーマーが、追加の敵対的学習なしにクリーンなデモンストレーションからのコンテキスト学習を通じて、多様な下流タスクに対して普遍的な敵対的頑健性を発揮しうるという理論的示唆を初めて提示したものである。
本論文は、点雲補完における標準的な Chamfer Distance の対称的重み付けの限界を克服し、非対称な重み付け戦略によって大域的な構造完全性を優先する「Flexible-weighted Chamfer Distance(FCD)」を提案し、多様なデータセットとタスクにおいて点の凝集を抑制し、より均一で構造的に完全な点雲生成を実現することを示しています。
本論文は、事前の推論データや外部モデルに依存せず、強化学習によってモデル自身が視覚情報を戦略的に活用して推論する「画像で思考する」能力を自然に獲得し、多様なベンチマークで顕著な性能向上と人間に近い視覚推論パターンを実現する DeepEyes を提案するものである。
本論文は、ニューラル・タンジェント・カーネル(NTK)の整合性によって誘起される勾配の低ランク構造を利用し、主成分分析(PCA)をクラス平均勾配に適用することで、既存手法よりも一貫した性能を発揮する分布外検出手法「GradPCA」を提案し、その理論的根拠と事前学習済み特徴量の重要性を実証しています。
この論文は、大規模視覚言語モデルのマルチモーダル・ジャイルブレイク攻撃に対して、curated な安全データや高コストな画像変換に依存せず、推論時の KV キャッシュを最適化して視覚トークンの重みを動的に再調整する新たな防御手法「DTR」を提案し、既存の防御策を上回る攻撃耐性と汎用タスク性能の実証を示しています。