cs.RO 件の論文 | Gist.Science

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

この論文は、現実世界の自動運転において頻発するマルチカメラ入力の欠損に対処し、マルチビューマスク再構成と特徴量メモリモジュールを組み合わせることで、不完全な観測条件下でも堅牢な3Dセマンティックオキュパンシー予測を実現するフレームワーク「 $M^2$ -Occ」を提案し、nuScenes ベンチマークにおいて大幅な性能向上を実証したものである。

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun YangWed, 11 Ma⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

本論文は、連続環境における視覚言語ナビゲーション（VLN-CE）において、SFT の累積誤差や RFT のスパースな報酬という課題を解決するため、不完全な軌道から密な教師信号を抽出し、ステップごとの進捗評価と動的なバッチ処理を行う「ステップ認識型対照的アライメント（SACA）」を提案し、SOTA 性能を達成したことを示しています。

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs

Caterpillar-Inspired Spring-Based Compressive Continuum Robot for Bristle-based Exploration

この論文は、カミキリムシの運動と感覚に着想を得て、既存のロボットアームに装着可能なバネ式連続体ロボットを開発し、人工剛毛センサーによる接触感知を組み合わせることで、狭小空間の探査と表面の知覚を実現したことを報告しています。

Zhixian Hu, Yu She, Juan WachsWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

本論文は、360 度室内環境における物体中心かつ視点に依存した既存の限界を克服し、歪み感知スペクトル変調やオムニ球状高密度化ヘッドを備えた「PanoAffordanceNet」フレームワークと、初の高品質パノラマアフォーダンス接地データセット「360-AGD」を提案することで、エンボディドエージェントのための包括的な環境知覚を実現するものです。

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

本論文は、チェッカーボードパターンによる空間多重化と深層学習に基づく再構成フレームワークを活用し、単一カメラで事前接触時の外部視覚情報と接触時の触覚信号を同時に高忠実度で取得する新たな視触覚センサー「MuxGel」を提案し、既存の GelSight 型センサーへのプラグアンドプレイ統合と双モダリティフィードバックによる把持タスクの向上を実証しています。

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu SheWed, 11 Ma💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

この論文は、高レベルタスクにおける時間依存性のミスを検出するために、弱教師あり学習とシミュレーションデータを活用した新しいビデオ異常検出アーキテクチャ「TIMID」を提案し、既存の VLM では困難な時間的推論を可能にすることを示しています。

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)Wed, 11 Ma💻 cs

Lightweight 3D LiDAR-Based UAV Tracking: An Adaptive Extended Kalman Filtering Approach

本論文は、小型ドローンのペイロード制約下で、非反復走査型 3D LiDAR が生成する疎でノイズの多い点群データに対して、イノベーションと残差統計に基づく適応型拡張カルマンフィルタを採用し、GPS 非依存環境での信頼性の高い UAV 追跡を実現する軽量システムを提案したものである。

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma⚡ eess

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

本論文は、複雑な環境における接触誘発ダイナミクスを明示的な世界モデルで学習し、これを強化学習に条件付ける「DAPL」フレームワークを提案することで、人手による接触ヒューリスティックや複雑な報酬設計なしに、乱雑な環境下での外因的巧緻性を実現する手法を提示しています。

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He WangWed, 11 Ma🤖 cs.AI

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

この論文は、GPS 非依存環境における 5 種類の協調局所化手法（CCL、DCL、StCL、CI、Standard-CL）を ROS 環境で比較評価し、StCL や Standard-CL は精度が高いもののフィルタの一貫性に問題があり、DCL は頑健性が高く、CI は精度と一貫性のバランスに優れているなど、各手法のトレードオフを明らかにしたものである。

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma💻 cs

NanoBench: A Multi-Task Benchmark Dataset for Nano-Quadrotor System Identification, Control, and State Estimation

本論文は、低レイノルズ数空力や非線形性、計算制約といったナノスケール・クアッドコプター特有の課題を扱うために、商用ナノ・ドローン（Crazyflie 2.1）で収集されたアクチュエータ指令から地上真値までの多様な同期データと標準化評価プロトコルを含む、初のオープンソース・マルチタスクベンチマーク「NanoBench」を提案するものである。

Syed Izzat Ullah, Jose BacaWed, 11 Ma⚡ eess

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

この論文は、物理的に矛盾するアーティファクトを排除し、動的な実行可能性と接触イベントの正確な再現を確保するために、剛体ダイナミクスと接触相補性制約を明示的に組み込んだ「KinoDynamic Motion Retargeting (KDMR)」フレームワークを提案し、これにより下流の制御ポリシーの学習効率と歩行安定性が大幅に向上することを示しています。

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan TuckerWed, 11 Ma💻 cs

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

この論文は、家具や人間による遮蔽領域を含む局所領域の移動可能性を推定するために、視覚言語モデルに空間的手がかりを組み込み、周囲の RGB-D 観測からオクルージョンに強い鳥瞰図（BEV）の affordance 熱地図を生成する「BEACON」という手法を提案し、最先端の画像空間ベースラインを大幅に上回る精度を達成したことを示しています。

Xinyu Gao, Gang Chen, Javier Alonso-MoraWed, 11 Ma🤖 cs.AI

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

TiPToP は、事前学習された視覚基盤モデルとタスク・モーションプランナーを組み合わせるモジュール式オープンボキャブラリシステムであり、ロボットデータを一切必要とせず、RGB 画像と自然言語指示から多段階の操作タスクを解決し、350 時間の実証データで微調整された VLA モデルと同等かそれ以上の性能を発揮します。

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-PérezWed, 11 Ma💻 cs

Utility Theory based Cognitive Modeling in the Application of Robotics: A Survey

本論文は、ロボットにおける意思決定や学習を人間の社会構造に類似した形で最適化するための基盤として、功利性理論に基づく認知モデルの進化、価値システムの応用、および将来の研究課題を包括的に調査・検討したものである。

Qin YangTue, 10 Ma💻 cs

Influence-Based Reward Modulation for Implicit Communication in Human-Robot Interaction

この論文は、転移エントロピーを用いてエージェント間の影響力を報酬に組み込むことで、人間の意図や事前知識に依存せず、協働や競争のシナリオにおけるロボットと人間の間の暗黙的コミュニケーションを促進する手法を提案し、シミュレーションおよび実世界実験でその有効性を検証したものである。

Haoyang Jiang, Elizabeth A. Croft, Michael G. BurkeTue, 10 Ma💻 cs

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

この論文は、物理システムの数学的構造と安定性を保ち、入力と潜在空間の力を双方向に変換可能にする「結合振動子ネットワーク（CON）」を提案し、これにより画像からのみ学習した複雑な非線形力学を閉形式の制御理論と組み合わせて効率的に制御する手法を実現したことを示しています。

Maximilian Stölzle, Cosimo Della SantinaTue, 10 Ma🤖 cs.LG

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

この論文は、事前学習された拡散モデルを用いてソースドメインの軌跡にノイズを加え、ターゲットドメインの特性に整合させながら元の意味情報を保持する「xTED」というフレームワークを提案し、複雑なモデル構造に依存せず、データレベルでドメインギャップを効果的に埋めることで、限られたターゲットデータ下での意思決定タスクにおける政策学習の性能を向上させることを示しています。

Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan ZhanTue, 10 Ma🤖 cs.LG

Variational approach to nonholonomic and inequality-constrained mechanics

この論文は、シュウィンガー・キルツィグ作用の古典極限に触発された新しい作用汎関数を構築し、非ホロノミック制約や不等式制約を持つ力学系に対してラグランジュ・ダランベールの運動方程式を導く変分原理を確立し、数値最適化による検証を通じてその有効性を示したものである。

A. Rothkopf, W. A. HorowitzTue, 10 Ma🔢 math

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

この論文は、事前学習された視覚言語モデル（VLM）を活用して画像から抽象的な記述子（述語）を学習し、これを用いた記号的な世界モデルを構築することで、限られた短いデモンストレーションから未知の環境や目標、そして長期のタスクに対するゼロショットな汎化を実現するロボット制御手法を提案しています。

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack KaelblingTue, 10 Ma🤖 cs.LG

Strengthening Generative Robot Policies through Predictive World Modeling

この論文は、専門家のデモから生成拡散ポリシーをクローンし、デモとランダムな探索から予測行動条件付き世界モデルを学習し、その世界モデルを用いて将来を予測しながらアクション提案を最適化する「生成予測制御（GPC）」という学習制御フレームワークを提案し、シミュレーションおよび実世界における多様なロボット操作タスクで行動模倣を凌駕する性能を実証したものである。

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng YangTue, 10 Ma🤖 cs.LG

← 前へ次へ →

cs.RO

M2M^2M2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs