cs.RO 件の論文 | Gist.Science

FlowTouch: View-Invariant Visuo-Tactile Prediction

本論文は、視覚情報から触覚情報を予測する新しいモデル「FlowTouch」を提案し、物体の局所 3D メッシュとフローマッチング技術を活用することで、カメラ視点やセンサー固有の依存性を排除した視覚・触覚予測を実現し、シミュレーションから実世界への転移や新しいセンサーへの汎化、さらには把持安定性の予測への応用を可能にすることを示しています。

Seongjin Bien, Carlo Kneissl, Tobias Jülg, Frank Fundel, Thomas Ressler-Antal, Florian Walter, Björn Ommer, Gitta Kutyniok, Wolfram Burgard2026-03-10🤖 cs.LG

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

Seed2Scale は、4 つの種子デモンストレーションから軽量な「SuperTiny」モデルによるデータ収集と事前学習済み大規模モデルによる評価を組み合わせることで、モデル崩壊を防ぎながら Embodied AI の成功度を 131.2% 向上させる自己進化型データエンジンを提案する。

Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen2026-03-10💻 cs

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

本論文は、VLM（視覚言語モデル）とモンテカルロ木探索を活用してテスト時の計算リソースを拡張し、文脈に応じた軌道の反復的洗練を通じてロボットの模倣学習の成功率を大幅に向上させる「SAIL」というフレームワークを提案しています。

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

Less is More: Robust Zero-Communication 3D Pursuit-Evasion via Representational Parsimony

本論文は、通信遅延や観測の不完全性といった課題に直面する非対称な 3 次元追跡・逃走タスクにおいて、エージェント間の冗長な通信チャネルを排除し、観測次元の削減と局所性に基づくクレジット割り当て（CGCA）を導入することで、通信なしの協調制御の頑健性と成功率を向上させる「少即是多」のパラダイムを実証しています。

Jialin Ying, Zhihao Li, Zicheng Dong, Guohua Wu, Yihuan Liao2026-03-10💻 cs

EndoSERV: A Vision-based Endoluminal Robot Navigation System

この論文は、組織変形や特徴点の欠如といった課題を克服し、実世界のポーズラベルなしでも臨床データで有効性が実証された、セグメント間オドメトリと実像から仮想空間への転移学習を組み合わせた新しい内視鏡ロボットナビゲーションシステム「EndoSERV」を提案するものである。

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Hierarchical Multi-Modal Planning for Fixed-Altitude Sparse Target Search and Sampling

この論文は、エネルギー効率の悪い従来の網羅的探索や垂直移動を必要とする手法の課題を克服するため、戦略的経路最適化と戦術的軌道計画を統合した階層的マルチモーダル計画フレームワーク「HIMoS」を提案し、固定高度でのサンゴの効率的な探索・サンプリングを実現するものである。

Lingpeng Chen, Yuchen Zheng, Apple Pui-Yi Chui, Junfeng Wu, Ziyang Hong2026-03-10💻 cs

PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

PhaForce は、接触確率を推定する接触認識フェーズ予測器、視覚と力の統合を行う低速拡散プランナー、そして制御レートで微調整を行う高速補正器を組み合わせることで、接触に富む操作タスクにおいて視覚主導のセマンティクスと力覚フィードバックを協調させ、高い成功率と適応性を実現する新しい方策学習フレームワークです。

Mingxin Wang, Zhirun Yue, Renhao Lu, Yizhe Li, Zihan Wang, Guoping Pan, Kangkang Dong, Jun Cheng, Yi Cheng, Houde Liu2026-03-10💻 cs

Perception-Aware Communication-Free Multi-UAV Coordination in the Wild

この論文は、GNSS が利用できない森林のような複雑な環境において、通信なしで複数の UAV が安全に協調移動するための、オンボード LiDAR を活用した知覚意識型の 3 次元ナビゲーション手法を提案し、シミュレーションおよび実世界実験でその有効性を検証したものである。

Manuel Boldrer, Michal Kamler, Afzal Ahmad, Martin Saska2026-03-10💻 cs

MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

本論文は、明示的な環境マッピングを不要とし、階層的スキルライブラリとトポロジー対応のスキル状態グラフを用いて論理的整合性を保ちながら、フィードバックに基づく閉ループ実行で長期的な室内移動操作タスクの成功率和を大幅に向上させる「MoMaStage」という新しい視覚言語フレームワークを提案するものである。

Chenxu Li, Zixuan Chen, Yetao Li, Jiapeng Xu, Hongyu Ding, Jieqi Shi, Jing Huo, Yang Gao2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

本論文は、長期の二手間の手と物体の相互作用生成において、時間的な関節計画とフレーム単位の微細な操作を構造的に分離し、Mamba に基づく拡散モデルを用いて長期依存関係を効率的にモデル化する「StructBiHOI」を提案し、一貫性のある協調動作と物理的な妥当性を達成することを示しています。

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

A Recipe for Stable Offline Multi-agent Reinforcement Learning

本論文は、オフライン多エージェント強化学習における非線形価値分解の不安定さを解消し、スケーリング不変な価値正規化（SVN）を導入することで、安定した学習と実用的なレシピを実現する手法を提案しています。

Dongsu Lee, Daehee Lee, Amy Zhang2026-03-10🤖 cs.LG

Human-Aware Robot Behaviour in Self-Driving Labs

この論文は、自己運転実験室における人間とロボットの共有アクセス効率を向上させるため、人間の意図を予測して受動的な待機ではなく能動的な協調を可能にする階層的な AI 駆動知覚手法を提案し、その有効性を示したものである。

Satheeshkumar Veeramani, Anna Kisil, Abigail Bentley, Hatem Fakhruldeen, Gabriella Pizzuto, Andrew I. Cooper2026-03-10💻 cs

Tactile Recognition of Both Shapes and Materials with Automatic Feature Optimization-Enabled Meta Learning

本論文は、触覚データの収集コストや学習時間の課題を解決するため、自動特徴量最適化を備えたメタ学習フレームワーク「AFOP-ML」を提案し、少量のサンプルから形状と材料を高精度に認識可能にした研究です。

Hongliang Zhao, Wenhui Yang, Yang Chen, Zhuorui Wang, Baiheng Liu, Longhui Qin2026-03-10💻 cs

FoMo: A Multi-Season Dataset for Robot Navigation in Forêt Montmorency

この論文は、積雪や植生の変化など季節による環境変動が極端に生じる針葉樹林「Forêt Montmorency」で 1 年間収集された、多様なセンサーデータと高精度な真値を備えたロボットナビゲーション用マルチシーズンデータセット「FoMo」を提案し、季節変化が最先端の位置推定・マッピング手法の再局所化能力に重大な影響を与えることを示しています。

Matej Boxan, Gabriel Jeanson, Alexander Krawciw, Effie Daum, Xinyuan Qiao, Sven Lilge, Timothy D. Barfoot, François Pomerleau2026-03-10💻 cs

Adaptive Entropy-Driven Sensor Selection in a Camera-LiDAR Particle Filter for Single-Vessel Tracking

本論文は、カメラと LiDAR の特性を補完し、エントロピー削減に基づく適応的なセンサー選択戦略を採用することで、沿岸固定プラットフォームからの単一船舶追跡において、精度と継続性を両立するロバストなマルチモーダル粒子フィルタ追跡手法を提案し、キプロスでの実海域実験でその有効性を検証したものである。

Andrei Starodubov, Yaqub Aris Prabowo, Andreas Hadjipieris, Ioannis Kyriakides, Roberto Galeazzi2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

本論文は、推論時の遅延や計算コストを削減しつつリアルタイム性を確保するため、大規模言語モデル（LLM）や視覚言語モデル（VLM）に依存せず、レイフロントを意味的仮説として再解釈した「R2F」という新しい室内オープンボキャブラリー物体ナビゲーションフレームワークを提案し、実機実験で既存の VLM ベース手法より最大 6 倍高速な実行を実現したことを報告しています。

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning

この論文は、教師なしのスキル発見と方策学習を分離し、潜在空間の構造に基づいて専門家のルーティングを正則化する「LAR-MoE」という 2 段階フレームワークを提案し、シミュレーションおよび生体組織を用いた実機実験において、ラベル付けなしで多様なタスクに効果的に適応できることを実証しています。

Ariel Rodriguez, Chenpan Li, Lorenzo Mazza, Rayan Younis, Ortrun Hellig, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel2026-03-10💻 cs

STRIDE: Structured Lagrangian and Stochastic Residual Dynamics via Flow Matching

本論文は、エネルギー保存則を維持するラグランジュニューラルネットワークと、複雑な確率的な相互作用を捉える条件付きフローマッチングを統合した「STRIDE」という動的学習フレームワークを提案し、不確実な環境下でのロボット制御における長期予測精度と接触力予測の大幅な改善を実現したことを示しています。

Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya2026-03-10🤖 cs.LG

3PoinTr: 3D Point Tracks for Robot Manipulation Pretraining from Casual Videos

この論文は、Transformer 型アーキテクチャを用いて非構造化な人間動画から 3 次元点軌道を予測する「3PoinTr」を提案し、これによりロボット操作の事前学習を効率的に行い、わずか 20 回のロボット実演で多様なタスクにおいて堅牢な空間汎化性能を実現することを示しています。

Adam Hung, Bardienus Pieter Duisterhof, Jeffrey Ichnowski2026-03-10💻 cs

The Neural Compass: Probabilistic Relative Feature Fields for Robotic Search

この論文は、ラベルなしの観測データから物体間の共起関係を学習する確率的相対特徴場モデル「ProReFF」を提案し、これを用いた探索エージェントが Matterport3D 環境において既存の手法より 20% 効率的に動作し、人間の性能の 80% に達することを示しています。

Gabriele Somaschini, Adrian Röfer, Abhinav Valada2026-03-10🤖 cs.LG

← 前へ次へ →