cs.RO 편의 논문 | Gist.Science

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

이 논문은 고정된 밀도 깊이와 의미론적 패치 특징을 3D 가우시안 원시 객체로 변환하는 가우시안 공간 토크나이저 (GST) 와 3D 깊이 인식 체인 오브 씽킹 (DA-CoT) 추론을 도입하여 LIBERO 와 SimplerEnv 환경에서 기존 VLA 모델보다 뛰어난 정밀도와 성능을 달성한 GST-VLA 를 제안합니다.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Provably Safe Trajectory Generation for Manipulators Under Motion and Environmental Uncertainties

이 논문은 불확실성과 비볼록 환경에서 로봇 매니퓰레이터의 안전한 궤적 생성을 위해, RM-DeSKO 모델을 통한 상태 예측과 SOS 프로그래밍 기반의 계층적 충돌 위험 검증을 MPPI 제어기에 통합한 새로운 위험 경계 운동 계획 프레임워크를 제안하고 시뮬레이션 및 실증 실험을 통해 그 유효성을 입증합니다.

Fei Meng, Zijiang Yang, Xinyu Mao, Haobo Liang, Max Q. -H. MengWed, 11 Ma💻 cs

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

이 논문은 자동주행을 위한 잠재적 세계 모델에 대한 통합 분류법과 평가 체계를 제시하고, 구조적 동형성 및 장기적 안정성 등 다섯 가지 핵심 메커니즘을 분석하여 검증 가능하고 자원 효율적인 의사결정 시스템으로의 발전 방향을 제시합니다.

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

이 논문은 기능적 건물 내의 높은 유사성으로 인한 기존 언어 기반 내비게이션의 한계를 극복하기 위해, 사전 지도를 활용한 의미적 사전 지도 생성, 계층적 사고 체인 프롬프트, 그리고 다중 모델 협업 메커니즘을 도입한 'PM-Nav'를 제안하고 시뮬레이션 및 실세계 환경에서 기존 방법 대비 획기적인 성능 향상을 입증합니다.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang MaWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

이 논문은 다관절 손의 복잡한 제어를 위한 비전 - 언어 - 행동 (VLA) 모델의 사후 훈련을 위해 인간 개입을 통합한 최초의 프레임워크인 'DexHiL'을 제안하며, 실시간 교정 및 데이터 샘플링 전략을 통해 기존 오프라인 미세 조정 대비 평균 25% 높은 성공률을 달성함을 보여줍니다.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

Walking on Rough Terrain with Any Number of Legs

이 논문은 6 개에서 16 개까지의 다양한 다리를 가진 로봇이 험한 지형을 주행할 수 있도록, 각 세그먼트가 동일한 상태 머신을 공유하며 앞쪽 세그먼트의 입력을 받아 지면 접촉 여부에 따라 적응적으로 작동하는 경량 제어 아키텍처를 제안하고 시뮬레이션을 통해 검증했습니다.

Zhuoyang Chen, Xinyuan Wang, Shai RevzenWed, 11 Ma💻 cs

SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation

SPAN-Nav 는 420 만 개의 occupancy 주석을 포함한 대규모 데이터셋과 단일 공간 토큰을 활용한 효율적인 3D 공간 인식 메커니즘을 통해 복잡한 환경에서도 강력한 일반화 능력을 보여주는 새로운 엔드투엔드 비전 - 언어 항법 모델입니다.

Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

이 논문은 대규모 로봇 원격 조종 데이터 없이도 인간 1 인칭 시점 비디오만으로 자연스러운 전신 인간형 로봇 제어를 가능하게 하는 'ZeroWBC' 프레임워크를 제안하고, 이를 통해 인간형 로봇의 자연스러운 행동과 다용도성을 크게 향상시켰음을 보여줍니다.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

이 논문은 오프로드 로봇 항해를 위해 다양한 환경과 조건을 포괄하는 대규모 멀티모달 데이터셋 STONE 과 자동 라벨링 파이프라인을 소개하고, 3 차원 통행 가능성 예측을 위한 벤치마크를 제시합니다.

Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won ChoiWed, 11 Ma💻 cs

Robust Spatiotemporal Motion Planning for Multi-Agent Autonomous Racing via Topological Gap Identification and Accelerated MPC

이 논문은 SGPs 를 통한 상대방 행동 예측과 맞춤형 PTC 솔버 기반의 가속화된 MPC 를 결합한 위상적 갭 식별 프레임워크를 제안하여, F1TENTH 플랫폼에서 기존 최첨단 방법론 대비 maneuver 시간 단축, 오버테이크 성공률 향상, 그리고 계산 지연 감소 등 다중 에이전트 자율 레이싱의 성능을 획기적으로 개선했음을 보여줍니다.

Mingyi Zhang, Cheng Hu, Yiqin Wang, Haotong Qin, Hongye Su, Lei XieWed, 11 Ma💻 cs

WESPR: Wind-adaptive Energy-Efficient Safe Perception & Planning for Robust Flight with Quadrotors

이 논문은 지형과 국소 기상 데이터를 통합해 실시간으로 바람장을 예측하고 이를 경로 계획 및 제어에 반영함으로써, 복잡한 환경에서 드론의 비행 안정성과 효율성을 크게 향상시키는 'WESPR' 프레임워크를 제안합니다.

Khuzema Habib, Pranav Deshakulkarni Manjunath, Kasra Torshizi, Troi Williams, Pratap TokekarWed, 11 Ma💻 cs

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

이 논문은 강화 학습 기반의 전신 근골격계 모델을 활용한 확장 가능한 시뮬레이션 프레임워크를 제시하여, 인간-로봇 상호작용의 내부 생체역학적 지표를 정량적으로 분석하고 로봇의 구조적 매개변수와 제어 정책을 동시에 최적화할 수 있음을 보여줍니다.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

TRIP-Bag: A Portable Teleoperation System for Plug-and-Play Robotic Arms and Leaders

이 논문은 실험실 환경을 벗어나 다양한 곳에서 고품질의 조작 데이터를 수집할 수 있도록, 5 분 이내의 빠른 설정과 직접적인 관절 간 원격 조종이 가능한 휴대용 인형극 스타일 텔레오퍼레이션 시스템 'TRIP-Bag'을 제안하고 그 유효성을 검증합니다.

Noboru Myers, Sankalp Yamsani, Obin Kwon, Joohyung KimWed, 11 Ma💻 cs

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

이 논문은 기존 MORL 알고리즘의 병렬화 한계를 극복하기 위해 GPU 네이티브 알고리즘인 MORLAX와 가속화된 환경 모음인 MO-Playground 를 제안함으로써, 복잡한 다목적 로봇 제어 문제를 기존 CPU 기반 접근법보다 25~270 배 빠르게 해결하고 우수한 파레토 프론트를 달성하는 방법을 제시합니다.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan TuckerWed, 11 Ma💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

이 논문은 기존 잠재 공간의 압축으로 인한 정보 손실 문제를 해결하기 위해, DINOv2 의 밀집 시각 표현 공간에서 조건부 확산 트랜스포머와 시간 기반 게이트 모듈을 활용하여 구조적 안정성과 행동 정확도를 향상시킨 새로운 내비게이션 월드 모델 (RAE-NWM) 을 제안합니다.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

이 논문은 웹 기반 실내 투어 비디오에서 3D 재구성 없이 RGB 프레임으로부터 암시적 기하 표현을 추출하여 시뮬레이터 데이터의 한계를 극복하고, 다양한 벤치마크에서 새로운 최첨단 성능과 강력한 제로샷 내비게이션 능력을 달성하는 대규모 비전 - 언어 내비게이션 프레임워크를 제안합니다.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

이 논문은 작업 진행 상황을 명시적인 마일스톤으로 감지하고 실패 시 복구하는 'See, Plan, Rewind (SPR)' 프레임워크를 제안하여, 추가 학습 없이도 LIBERO 및 LIBERO-Plus 벤치마크에서 기존 모델보다 뛰어난 강건성과 일반화 성능을 달성함을 보여줍니다.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

CORAL: Scalable Multi-Task Robot Learning via LoRA Experts

이 논문은 여러 작업 간 간섭을 방지하고 새로운 작업을 순차적으로 학습할 수 있도록 단일 VLA 백본에 작업별 경량 LoRA 전문가를 동적으로 연결하는 확장 가능한 로봇 학습 프레임워크 'CORAL'을 제안합니다.

Yuankai Luo, Woping Chen, Tong Liang, Zhenguo LiWed, 11 Ma💻 cs

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

이 논문은 곡면 비시각 촉각 센서의 보정을 위해 일상적인 물체와의 간단한 접촉만으로 정밀한 3D 재구성을 가능하게 하는 효율적이고 물리 일관성이 있는 NLiPsCalib 프레임워크와 이를 검증한 NLiPsTac 센서를 제안합니다.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

이 논문은 오프라인 데이터의 행동 지원 범위 내에서 안전한 온라인 탐색을 보장하면서도 디코더의 재구성 손실로 인한 성능 한계를 우회하기 위해, 저차원 잠재 공간 탐색에서 원시 행동 공간 활용으로 점진적으로 전환하는 커리큘럼 학습 프레임워크인 SPAARS 를 제안하고 그 유효성을 입증합니다.

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI

← 이전 다음 →