EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video
Apple Vision Pro を活用して、3D 手の動きと指の追跡データが同期して記録された、これまでにない大規模かつ多様な巧緻な操作データセット「EgoDex」を構築し、模倣学習の政策評価やロボティクス・コンピュータビジョン分野の進展を促進する基盤を提供した論文です。
864 件の論文
Apple Vision Pro を活用して、3D 手の動きと指の追跡データが同期して記録された、これまでにない大規模かつ多様な巧緻な操作データセット「EgoDex」を構築し、模倣学習の政策評価やロボティクス・コンピュータビジョン分野の進展を促進する基盤を提供した論文です。
本論文は、視覚と触覚のモダリティを効果的に融合し、タスクに依存しない汎用的な表現学習とゼロショット一般化を実現するために、局所および大域の位置符号化を段階的に注入するトランスフォーマーベースのアーキテクチャ「ViTaPEs」を提案し、実世界データセットおよびロボティクスタスクにおいて最先端の性能を示すことを報告しています。
この論文は、非把持操作における学習ベースの動的モデルのデータ収集効率と長期計画の信頼性を向上させるため、残差物理学モデルと不確実性に基づく能動学習を統合した「ActivePusher」という新規フレームワークを提案し、シミュレーションおよび実世界環境での有効性を実証しています。
この論文は、事前学習された拡散方策と運動学的リターゲティングを活用し、タスク固有の学習や人間とロボットの対データなしで、単一の人間のデモンストレーションからロボットが操作タスクを成功させることを可能にする「DemoDiffusion」を提案しています。
本論文は、マルチモーダル大規模言語モデル(MLLM)がエージェントの行動を過剰に肯定する「同意バイアス」を特定し、自己生成された事前知識に基づいて検証を行う軽量手法「SGV」を提案することで、タスク完了率や精度を大幅に向上させることを示しています。
この論文は、学習ベースの制御と安全制御を切り替えるランタイム監視機構を提案し、学習データ分布から外れた環境でも衝突を回避しながらタスクを迅速に完了させる、地下空間におけるドローンの自律制御の堅牢性を向上させることを示しています。
この論文は、YOLO 物体検出モデルや車線推定アルゴリズムなどのコンピュータビジョン技術を用いて外部から車両を監視し、自動運転車向けに非接続車両の運転者の不注意や酩酊などの危険な運転行動をリアルタイムで分類する新規フレームワークを提案し、その有効性を検証したものである。
この論文は、ハミルトン・ヤコビの到達可能性解析とハイパーネットワークを活用して、部分的に観測可能な環境においても最大安全集合を近似し、厳密な安全性保証を提供する「観測条件付き残差ニューラル制御バリア関数(ORN-CBF)」を提案し、地上ロボットおよびクアッドコプターの実験を通じてその有効性を検証したものである。
本論文は、単一の画像から高忠実度な表面と SDF 場を数秒で効率的に再構築し、ロボットにおける表面追従タスクへの応用を可能にする軽量フレームワーク「FINS」を提案するものである。
この論文は、デモンストレーション学習における実行の変動への適応性を高めるため、状態遷移パターンを学習して注意機構を調整する「Cross-State Transition Attention(STA)」メカニズムと時間的マスキングを組み合わせ、シミュレーション評価において既存の手法を大幅に上回る性能を示した新しいトランスフォーマーアーキテクチャ「CroSTAta」を提案するものである。
この論文は、ロボット歩行タスクにおける強化学習のサンプル効率と性能を向上させるため、タスク非依存の探索データから学習した逆動力学モデルをアクターとクリティックの初期化に用いる事前学習・微調整パラダイムを提案し、その有効性を複数のロボット環境で実証したものである。
本論文は、部分的観測マルコフ決定過程(POMDP)のオンライン計画問題を、依存関係や同期のボトルネックを排除して完全にベクトル化された計算で解決する新しい並列ソルバ「VOPP」を提案し、既存の並列ソルバより 20 倍、逐次ソルバより 1000 倍少ない計算予算で近最適解を効率的に導出できることを示しています。
本論文は、成虫のハエの完全な脳結合体(コネクトーム)の構造をそのまま活用した「FlyGM」と呼ばれるグラフモデルを開発し、これを生体力学モデルと統合することで、特定のタスクごとの設計変更なしに果実ハエの全身運動を効率的かつ安定的に制御できることを実証したものである。
本論文は、視覚入力から現実世界の地理的・時間的推論を行うビジョン・ランゲージモデルの能力を評価するため、80 か国からの 1,455 枚の画像と構造化された予測タスクを含むベンチマーク「TimeSpot」を提案し、既存のモデルが時間的推論において依然として低い性能しか示していないことを明らかにしています。
この論文は、移動ロボット向けの一人称視点におけるシャトルコック検出の課題を解決するため、新規データセットと半自動アノテーションパイプラインを導入し、YOLOv8 を最適化してリアルタイムかつ頑健な検出を実現するフレームワークを提案するものです。
この論文は、 essential tremor やパーキンソン病など運動機能に制限のある人々の食事介助を目的として、ピンチとスプーンの両方の機能を備え、手動またはロボット制御で食品のこぼれを防ぐためのピボット機構を備えた折り紙(キリガミ)技術に基づく新しい食器「キリスプーン」を提案し、その設計特性とユーザー評価について報告するものである。
本論文は、静止衛星からの補足データを用いて長期計画を策定し、搭載センサーのデータで短期計画を微調整する階層的計画手法を提案することで、従来の動的目標指定システムが直面する制約を克服し、特に標的が疎に分布する動的なシナリオにおいて観測効率を最大 41% 向上させることを示しています。
この論文は、密度不変な観測エンコーディングと密度ランダム化トレーニング、および物理情報に基づく報酬設計を導入した強化学習アプローチを提案し、訓練時よりも高密度な混雑環境においても「凍結」や「衝突」を回避しつつ目標地点へ到達する汎用的なナビゲーションを実現するものです。
この論文は、物理法則や安全制約などの複雑な領域内で現実的なサンプルを生成するために、事前学習済み生成モデルを微調整して制約条件を遵守させる新しいフレームワークを提案し、既存手法とは異なる制約満足度とサンプリング品質の新たなトレードオフを示すものである。
本論文は、産業用ロボットの制御における基盤モデルの現状を包括的に調査し、149 の具体的な基準からなる評価フレームワークを用いて 324 件のモデルを評価した結果、産業応用への成熟度は限定的であり、安全性やリアルタイム性、システム統合などの要素を体系的に組み込むことが不可欠であると結論付けています。