GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

이 논문은 고정된 밀도 깊이와 의미론적 패치 특징을 3D 가우시안 원시 객체로 변환하는 가우시안 공간 토크나이저 (GST) 와 3D 깊이 인식 체인 오브 씽킹 (DA-CoT) 추론을 도입하여 LIBERO 와 SimplerEnv 환경에서 기존 VLA 모델보다 뛰어난 정밀도와 성능을 달성한 GST-VLA 를 제안합니다.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Provably Safe Trajectory Generation for Manipulators Under Motion and Environmental Uncertainties

이 논문은 불확실성과 비볼록 환경에서 로봇 매니퓰레이터의 안전한 궤적 생성을 위해, RM-DeSKO 모델을 통한 상태 예측과 SOS 프로그래밍 기반의 계층적 충돌 위험 검증을 MPPI 제어기에 통합한 새로운 위험 경계 운동 계획 프레임워크를 제안하고 시뮬레이션 및 실증 실험을 통해 그 유효성을 입증합니다.

Fei Meng, Zijiang Yang, Xinyu Mao, Haobo Liang, Max Q. -H. MengWed, 11 Ma💻 cs

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

이 논문은 기능적 건물 내의 높은 유사성으로 인한 기존 언어 기반 내비게이션의 한계를 극복하기 위해, 사전 지도를 활용한 의미적 사전 지도 생성, 계층적 사고 체인 프롬프트, 그리고 다중 모델 협업 메커니즘을 도입한 'PM-Nav'를 제안하고 시뮬레이션 및 실세계 환경에서 기존 방법 대비 획기적인 성능 향상을 입증합니다.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang MaWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

이 논문은 다관절 손의 복잡한 제어를 위한 비전 - 언어 - 행동 (VLA) 모델의 사후 훈련을 위해 인간 개입을 통합한 최초의 프레임워크인 'DexHiL'을 제안하며, 실시간 교정 및 데이터 샘플링 전략을 통해 기존 오프라인 미세 조정 대비 평균 25% 높은 성공률을 달성함을 보여줍니다.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation

SPAN-Nav 는 420 만 개의 occupancy 주석을 포함한 대규모 데이터셋과 단일 공간 토큰을 활용한 효율적인 3D 공간 인식 메커니즘을 통해 복잡한 환경에서도 강력한 일반화 능력을 보여주는 새로운 엔드투엔드 비전 - 언어 항법 모델입니다.

Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

이 논문은 대규모 로봇 원격 조종 데이터 없이도 인간 1 인칭 시점 비디오만으로 자연스러운 전신 인간형 로봇 제어를 가능하게 하는 'ZeroWBC' 프레임워크를 제안하고, 이를 통해 인간형 로봇의 자연스러운 행동과 다용도성을 크게 향상시켰음을 보여줍니다.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

이 논문은 오프로드 로봇 항해를 위해 다양한 환경과 조건을 포괄하는 대규모 멀티모달 데이터셋 STONE 과 자동 라벨링 파이프라인을 소개하고, 3 차원 통행 가능성 예측을 위한 벤치마크를 제시합니다.

Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won ChoiWed, 11 Ma💻 cs

Robust Spatiotemporal Motion Planning for Multi-Agent Autonomous Racing via Topological Gap Identification and Accelerated MPC

이 논문은 SGPs 를 통한 상대방 행동 예측과 맞춤형 PTC 솔버 기반의 가속화된 MPC 를 결합한 위상적 갭 식별 프레임워크를 제안하여, F1TENTH 플랫폼에서 기존 최첨단 방법론 대비 maneuver 시간 단축, 오버테이크 성공률 향상, 그리고 계산 지연 감소 등 다중 에이전트 자율 레이싱의 성능을 획기적으로 개선했음을 보여줍니다.

Mingyi Zhang, Cheng Hu, Yiqin Wang, Haotong Qin, Hongye Su, Lei XieWed, 11 Ma💻 cs

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

이 논문은 강화 학습 기반의 전신 근골격계 모델을 활용한 확장 가능한 시뮬레이션 프레임워크를 제시하여, 인간-로봇 상호작용의 내부 생체역학적 지표를 정량적으로 분석하고 로봇의 구조적 매개변수와 제어 정책을 동시에 최적화할 수 있음을 보여줍니다.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

이 논문은 기존 MORL 알고리즘의 병렬화 한계를 극복하기 위해 GPU 네이티브 알고리즘인 MORLAX와 가속화된 환경 모음인 MO-Playground 를 제안함으로써, 복잡한 다목적 로봇 제어 문제를 기존 CPU 기반 접근법보다 25~270 배 빠르게 해결하고 우수한 파레토 프론트를 달성하는 방법을 제시합니다.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan TuckerWed, 11 Ma💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

이 논문은 기존 잠재 공간의 압축으로 인한 정보 손실 문제를 해결하기 위해, DINOv2 의 밀집 시각 표현 공간에서 조건부 확산 트랜스포머와 시간 기반 게이트 모듈을 활용하여 구조적 안정성과 행동 정확도를 향상시킨 새로운 내비게이션 월드 모델 (RAE-NWM) 을 제안합니다.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

이 논문은 웹 기반 실내 투어 비디오에서 3D 재구성 없이 RGB 프레임으로부터 암시적 기하 표현을 추출하여 시뮬레이터 데이터의 한계를 극복하고, 다양한 벤치마크에서 새로운 최첨단 성능과 강력한 제로샷 내비게이션 능력을 달성하는 대규모 비전 - 언어 내비게이션 프레임워크를 제안합니다.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

이 논문은 작업 진행 상황을 명시적인 마일스톤으로 감지하고 실패 시 복구하는 'See, Plan, Rewind (SPR)' 프레임워크를 제안하여, 추가 학습 없이도 LIBERO 및 LIBERO-Plus 벤치마크에서 기존 모델보다 뛰어난 강건성과 일반화 성능을 달성함을 보여줍니다.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

이 논문은 오프라인 데이터의 행동 지원 범위 내에서 안전한 온라인 탐색을 보장하면서도 디코더의 재구성 손실로 인한 성능 한계를 우회하기 위해, 저차원 잠재 공간 탐색에서 원시 행동 공간 활용으로 점진적으로 전환하는 커리큘럼 학습 프레임워크인 SPAARS 를 제안하고 그 유효성을 입증합니다.

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI