ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

本論文は、大規模な視覚言語モデルの推論能力をアテンションマップに蒸留し、それを社会的コストマップとして活用することで、実世界での社会的に配慮されたロボットナビゲーションの成功率を大幅に向上させる新しい手法「ViLAM」を提案しています。

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh ManochaTue, 10 Ma💻 cs

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

本論文は、視覚言語モデルを用いて環境のセマンティクスを推論し、接触の許容度を方向ごとに評価したコストマップと接触認識型 A* プランナーを組み合わせることで、混雑した環境においても安定した接触を伴う効率的な運動計画を実現する「IMPACT」という新しいフレームワークを提案しています。

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel SeitaTue, 10 Ma🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Apple Vision Pro を活用して、3D 手の動きと指の追跡データが同期して記録された、これまでにない大規模かつ多様な巧緻な操作データセット「EgoDex」を構築し、模倣学習の政策評価やロボティクス・コンピュータビジョン分野の進展を促進する基盤を提供した論文です。

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian ZhangTue, 10 Ma🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

本論文は、視覚と触覚のモダリティを効果的に融合し、タスクに依存しない汎用的な表現学習とゼロショット一般化を実現するために、局所および大域の位置符号化を段階的に注入するトランスフォーマーベースのアーキテクチャ「ViTaPEs」を提案し、実世界データセットおよびロボティクスタスクにおいて最先端の性能を示すことを報告しています。

Fotios Lygerakis, Ozan Özdenizci, Elmar RückertTue, 10 Ma🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

この論文は、非把持操作における学習ベースの動的モデルのデータ収集効率と長期計画の信頼性を向上させるため、残差物理学モデルと不確実性に基づく能動学習を統合した「ActivePusher」という新規フレームワークを提案し、シミュレーションおよび実世界環境での有効性を実証しています。

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos ChamzasTue, 10 Ma🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

本論文は、マルチモーダル大規模言語モデル(MLLM)がエージェントの行動を過剰に肯定する「同意バイアス」を特定し、自己生成された事前知識に基づいて検証を行う軽量手法「SGV」を提案することで、タスク完了率や精度を大幅に向上させることを示しています。

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

この論文は、ハミルトン・ヤコビの到達可能性解析とハイパーネットワークを活用して、部分的に観測可能な環境においても最大安全集合を近似し、厳密な安全性保証を提供する「観測条件付き残差ニューラル制御バリア関数(ORN-CBF)」を提案し、地上ロボットおよびクアッドコプターの実験を通じてその有効性を検証したものである。

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

この論文は、デモンストレーション学習における実行の変動への適応性を高めるため、状態遷移パターンを学習して注意機構を調整する「Cross-State Transition Attention(STA)」メカニズムと時間的マスキングを組み合わせ、シミュレーション評価において既存の手法を大幅に上回る性能を示した新しいトランスフォーマーアーキテクチャ「CroSTAta」を提案するものである。

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

この論文は、ロボット歩行タスクにおける強化学習のサンプル効率と性能を向上させるため、タスク非依存の探索データから学習した逆動力学モデルをアクターとクリティックの初期化に用いる事前学習・微調整パラダイムを提案し、その有効性を複数のロボット環境で実証したものである。

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco HutterTue, 10 Ma🤖 cs.LG

Vectorized Online POMDP Planning

本論文は、部分的観測マルコフ決定過程(POMDP)のオンライン計画問題を、依存関係や同期のボトルネックを排除して完全にベクトル化された計算で解決する新しい並列ソルバ「VOPP」を提案し、既存の並列ソルバより 20 倍、逐次ソルバより 1000 倍少ない計算予算で近最適解を効率的に導出できることを示しています。

Marcus Hoerger, Muhammad Sudrajat, Hanna KurniawatiTue, 10 Ma💻 cs

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

本論文は、成虫のハエの完全な脳結合体(コネクトーム)の構造をそのまま活用した「FlyGM」と呼ばれるグラフモデルを開発し、これを生体力学モデルと統合することで、特定のタスクごとの設計変更なしに果実ハエの全身運動を効率的かつ安定的に制御できることを実証したものである。

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan SuiTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

本論文は、視覚入力から現実世界の地理的・時間的推論を行うビジョン・ランゲージモデルの能力を評価するため、80 か国からの 1,455 枚の画像と構造化された予測タスクを含むベンチマーク「TimeSpot」を提案し、既存のモデルが時間的推論において依然として低い性能しか示していないことを明らかにしています。

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

この論文は、 essential tremor やパーキンソン病など運動機能に制限のある人々の食事介助を目的として、ピンチとスプーンの両方の機能を備え、手動またはロボット制御で食品のこぼれを防ぐためのピボット機構を備えた折り紙(キリガミ)技術に基づく新しい食器「キリスプーン」を提案し、その設計特性とユーザー評価について報告するものである。

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. LoseyTue, 10 Ma💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

本論文は、静止衛星からの補足データを用いて長期計画を策定し、搭載センサーのデータで短期計画を微調整する階層的計画手法を提案することで、従来の動的目標指定システムが直面する制約を克服し、特に標的が疎に分布する動的なシナリオにおいて観測効率を最大 41% 向上させることを示しています。

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

この論文は、密度不変な観測エンコーディングと密度ランダム化トレーニング、および物理情報に基づく報酬設計を導入した強化学習アプローチを提案し、訓練時よりも高密度な混雑環境においても「凍結」や「衝突」を回避しつつ目標地点へ到達する汎用的なナビゲーションを実現するものです。

Jiefu Zhang, Yang Xu, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

この論文は、物理法則や安全制約などの複雑な領域内で現実的なサンプルを生成するために、事前学習済み生成モデルを微調整して制約条件を遵守させる新しいフレームワークを提案し、既存手法とは異なる制約満足度とサンプリング品質の新たなトレードオフを示すものである。

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank WoodTue, 10 Ma🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

本論文は、産業用ロボットの制御における基盤モデルの現状を包括的に調査し、149 の具体的な基準からなる評価フレームワークを用いて 324 件のモデルを評価した結果、産業応用への成熟度は限定的であり、安全性やリアルタイム性、システム統合などの要素を体系的に組み込むことが不可欠であると結論付けています。

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs