GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

本論文は、2D パッチトークンに代わるアノトロピック 3D ガウスプリミティブを用いた「ガウス空間トークナイザー(GST)」と、3D 物体接地や把持幾何学などを明示的に生成する「3D 深度認識推論(DA-CoT)」を統合した VLA モデル「GST-VLA」を提案し、複雑な 3D 操作タスクにおいて既存モデルを上回る精度を達成したことを報告するものである。

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Provably Safe Trajectory Generation for Manipulators Under Motion and Environmental Uncertainties

本論文は、運動および環境の不確実性下でロボットマニピュレータの衝突リスクを形式的に保証し、効率的かつ安全な軌道生成を実現するための、RM-DeSKO モデルと SOS プログラミングを統合した新たなリスク制約付き運動計画フレームワークを提案し、シミュレーションおよび実世界実験でその有効性を検証したものである。

Fei Meng, Zijiang Yang, Xinyu Mao, Haobo Liang, Max Q. -H. MengWed, 11 Ma💻 cs

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

既存の言語駆動型ナビゲーション手法が機能性建物における類似特徴や事前空間知識の活用不足に直面する課題を解決するため、環境マップを意味事前マップに変換し、階層的な思考連鎖プロンプトとマルチモデル協調メカニズムを導入した「PM-Nav」を提案し、シミュレーションおよび実世界での大幅な性能向上を実証した。

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang MaWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

この論文は、複雑な指先操作における視覚言語行動モデルの信頼性と適応性を向上させるため、腕と手の協調介入を可能にする初のヒト・イン・ザ・ループフレームワーク「DexHiL」を提案し、実機実験でオフライン微調整のベースラインを平均 25% 上回る成功率を達成したことを報告しています。

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation

この論文は、420 万件の占有アノテーションを含む大規模データセットを用いたマルチタスク共同学習により、単一の空間トークンを通じて 3D 空間認識を統合し、多様なシナリオやタスクにおいて最先端の性能と実世界での堅牢性を達成するエンドツーエンドの基盤モデル「SPAN-Nav」を提案するものである。

Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

この論文は、大規模なロボット遠隔操作データ収集を不要とし、人間の一人称視点動画から直接学習することで、自然で多様な全身動作を可能にする新しいヒューマノイド制御フレームワーク「ZeroWBC」を提案し、Unitree G1 による実験でその有効性を示したものである。

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

本論文は、オフロードロボットナビゲーション向けに、自動アノテーションパイプラインにより生成された大規模なマルチモーダル(LiDAR、カメラ、レーダー)サーラウンドビュー 3D 通過性データセット「STONE」と、そのベンチマークを提案するものである。

Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won ChoiWed, 11 Ma💻 cs

Robust Spatiotemporal Motion Planning for Multi-Agent Autonomous Racing via Topological Gap Identification and Accelerated MPC

この論文は、SGP による対戦相手の行動予測と動的占有廊下の構築、およびカスタム擬似過渡継続ソルバーを用いた高速 LTV-MPC による厳密な運動学制約の保証を通じて、F1TENTH プラットフォーム上で最先端の手法を大幅に上回る高速度・高安全性のマルチエージェント自動レーシングを実現する「トポロジカルギャップ識別と加速 MPC」フレームワークを提案するものである。

Mingyi Zhang, Cheng Hu, Yiqin Wang, Haotong Qin, Hongye Su, Lei XieWed, 11 Ma💻 cs

WESPR: Wind-adaptive Energy-Efficient Safe Perception & Planning for Robust Flight with Quadrotors

本論文は、環境の幾何学形状と局所気象データを用いて風場をリアルタイムに推定し、風の影響を先回りして回避・適応する軽量フレームワーク「WESPR」を提案し、その有効性をドローンによる実証実験で示したものである。

Khuzema Habib, Pranav Deshakulkarni Manjunath, Kasra Torshizi, Troi Williams, Pratap TokekarWed, 11 Ma💻 cs

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

この論文は、強化学習制御による全身筋骨格モデルを中核としたシミュレーションフレームワークを開発し、人間の内部状態を可視化しながらロボット構造と制御を同時に最適化することで、物理的ヒト・ロボット相互作用の定量的設計・分析を可能にすることを提案しています。

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

TRIP-Bag: A Portable Teleoperation System for Plug-and-Play Robotic Arms and Leaders

この論文は、学習ベースのロボット制御に必要な高品質な実世界データを収集するために、5 分以内のセットアップで非専門家でも直感的に操作でき、あらゆる環境で利用可能な携帯型テレオペレーションシステム「TRIP-Bag」を提案し、その実用性と収集データの品質を検証したものです。

Noboru Myers, Sankalp Yamsani, Obin Kwon, Joohyung KimWed, 11 Ma💻 cs

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

この論文は、従来の MORL アルゴリズムが抱える大規模並列化の課題を解決し、GPU ネイティブの高速アルゴリズム「MORLAX」と GPU 加速環境「MO-Playground」を導入することで、複雑な多目的ロボット制御タスクにおけるパレート最適方策の探索を大幅に高速化し、その有効性を BRUCE 型ヒューマノイドロボットの歩行制御などを通じて実証したものである。

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan TuckerWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

本論文は、ウェブ動画から大規模な視覚言語ナビゲーション学習フレームワークを構築し、3D 復元を不要とする隐幾何表現を導入することで、実世界環境でのナビゲーション性能と汎用性を大幅に向上させたことを報告しています。

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

本論文は、タスクの進捗を可視的なマイルストーンとして監視し、失敗時に状態を巻き戻す「See, Plan, Rewind (SPR)」という新しいビジョン・言語・アクションフレームワークを提案し、追加学習なしでロボットの操作タスクにおける堅牢性と未知環境への適応能力を大幅に向上させることを示しています。

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

本論文は、従来の較正が手間とコストを要していた湾曲視触覚センサーに対し、身近な物体との数回の接触だけで高精度な 3 次元再構成を可能にする効率的な較正フレームワーク「NLiPsCalib」と、その検証用センサー「NLiPsTac」を提案するものである。

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

本論文は、オフラインデータとオンライン探索の安全な統合を可能にするため、低次元潜在空間での探索から生動作空間への制御をシームレスに移行させるカリキュラム学習フレームワーク「SPAARS」を提案し、その理論的保証と厨房・ロボットアームタスクにおける高いサンプル効率と性能向上を実証しています。

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI