ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation
本論文は、VLM と「ロボティック・イマジネーション」を統合し、不確実性を検知して能動的にカメラ視点を変更することで曖昧性を解消し、さらに拡散方策を用いた能動的追跡モジュールで移動物体の可視性を維持する、ロボット操作のための高精度な 6 次元物体姿勢推定・追跡システム「ActivePose」を提案しています。
6344 件の論文
本論文は、VLM と「ロボティック・イマジネーション」を統合し、不確実性を検知して能動的にカメラ視点を変更することで曖昧性を解消し、さらに拡散方策を用いた能動的追跡モジュールで移動物体の可視性を維持する、ロボット操作のための高精度な 6 次元物体姿勢推定・追跡システム「ActivePose」を提案しています。
泥跳魚(マッドスキッパー)に着想を得たロボットの実験により、尾の振動が砂地などの変形性地盤において流体化効果を生み抵抗を低減し、移動速度を 67% 向上させることが示され、尾の形状と地盤強度に応じた制御戦略の設計指針が提示されました。
本論文は、従来の線形アテンションにおける低ランク制約と特徴の冗長性を解消し、高解像度画像処理において計算効率と表現力を両立させるために、入力適応型の選択的アダプティブゲーティング(SAGA)を提案するものである。
この論文は、アノテーションを必要とせず、テスト時のデータ拡張と予測バウンディングボックスの空間的一貫性を測定することで、実環境における物体検出モデルの信頼性を評価する新しい指標「累積合意スコア(CCS)」を提案し、その有効性と理論的根拠を実証しています。
本論文は、都市の街路樹インベントリを効率化するため、2 つの都市で収集された 2 万 1,007 件のアノテーション付き木々を含む大規模なマルチモーダルデータセット「WHU-STree」を提案し、その多様なタスクへの適用性と将来の課題を検証するものです。
この論文は、センサー遅延と計算コストに起因する制御ループの非同期性を解消するため、遅延を明示的に条件付けする時間符号化モジュールとカリキュラム学習を導入した非同期強化学習フレームワークを提案し、実機でのゼロショット転移により高頻度かつロバストな自律飛行を実現したことを示しています。
本論文は、凍結された事前学習済み幾何学モデルを特徴抽出器として統合する GeoAware-VLA を提案し、2D 画像からの 3D 幾何学推論の困難さを克服することで、未知のカメラ視点に対するゼロショット汎化性能を大幅に向上させつつ、分布内性能も維持または改善することを示しています。
本研究は、多様な物体の飛行軌跡を記録した大規模データセットを構築し、物体適応型エンコーダとインパクトポイント予測器を備えた OIPP を提案することで、複雑な空気力学条件下における四足歩行ロボットによる物体キャッチングの精度と成功率を向上させたことを示しています。
この論文は、音声印象(VI)制御のための初の公開コーパス「LibriTTS-VI」を構築し、参照音声による印象の漏洩を軽減する新規手法(2 utterance による学習と参照不要制御)を提案することで、数値的な音声印象制御の精度を大幅に向上させたことを報告しています。
この論文は、タスクに関連する物体と関係に焦点を当てたシーングラフ表現と拡散モデルに基づく模倣学習を統合し、視覚運動制御のロバスト性と長期的タスクの構成的汎化能力を大幅に向上させる新しいフレームワークを提案しています。
本論文は、ドローンによる自己雑音の厳しい環境下で、軽量かつリアルタイム処理が可能な単一マイク音声增强ネットワーク「DroFiT」を提案し、周波数帯域融合アテンションと効率的なアーキテクチャにより、限られた計算資源を持つ UAV プラットフォーム上での実用化を実現したことを示しています。
本論文は、イベントカメラのバイナリ構造とフーリエ領域の高速相互相関を用いて処理遅延を 2.88ms に抑え、昼夜・室内外を問わず 3000 メートル以上で横逸脱誤差 15cm 未満のリアルタイム視覚教示・反復ナビゲーションを実現するシステムを提案するものである。
この論文は、既存の動画ベンチマークが音声情報を過小評価していることを実証し、音声エンコーダーを統合した新しいモデルが音声理解やクロスモーダルなタスクにおいて明確な性能向上をもたらすことを示しています。
本論文は、単一の画像から高忠実度な表面と SDF 場を数秒で効率的に再構築し、ロボットにおける表面追従タスクへの応用を可能にする軽量フレームワーク「FINS」を提案するものである。
本論文は、ビジョン・言語・アクション(VLA)モデルの推論効率を維持しつつ 3 次元空間推論能力を向上させるため、ビジョン・トランスフォーマーのレジスタートークンを動作計画モジュールへ再活用する「RetoVLA」を提案し、実世界の実験で成功率を 17.1 ポイント向上させたことを示しています。
本論文は、大規模な 3D 再構築モデル VGGT の推論コストを削減するため、重み付きトークンによる重たい分布やマルチビューデータの不安定性という課題を解決し、4 ビット量子化で 3.7 倍のメモリ削減と 2.5 倍の高速化を実現する新しい量子化フレームワーク「QuantVGGT」を提案する。
本論文は、GPS 非依存環境において、深層強化学習による胴体安定化と、視界制約下での有限時間収束を保証する制御戦略を組み合わせることで、複雑な地形(階段や急斜面)における UAV と四足歩行ロボットの自律ドッキングを実現するフレームワークを提案しています。
本論文は、検出と追跡クエリを単一のデコーダ層で処理する既存の DETR 系フレームワークの課題を克服するため、フレーム間での物体運動を明示的に予測して追跡クエリを事前に更新する「Motion-Aware Transformer(MATR)」を提案し、DanceTrack や SportsMOT などの主要ベンチマークで最先端の性能を達成したことを示しています。
本論文は、3D ガウススプラッティングに基づく高忠実度メッシュ再構成のために、外部モデルに依存せず反射面にも頑健な材料感知最適化フレームワーク「GS-2M」を提案し、多視点フォトメトリック変動に基づく粗さ監視戦略を用いて最先端の手法と同等の精度を達成することを示しています。
本論文は、ベイズ的説得理論に基づき大規模言語モデルの戦略的説得能力を評価・訓練するための体系的な枠組みを提案し、最先端モデルが高度な戦略を駆使して高い説得効果を示すこと、さらに強化学習により小規模モデルでも同様の成果が得られることを実証しています。