Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

이 논문은 다중 모달 대형 언어 모델 기반의 연속 환경 비전 - 언어 내비게이션 (VLN-CE) 에서 발생하는 누적 오류와 희소한 보상 문제를 해결하기 위해, 불완전한 궤적에서 밀집된 감독 신호를 추출하여 단계별 정렬을 수행하는 '단계 인식 대비 정렬 (SACA)' 프레임워크를 제안하고 이를 통해 최첨단 성능을 달성함을 보여줍니다.

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

이 논문은 360 도 실내 환경에서의 전역적 지각을 위해 왜곡 인식 스펙트럼 모듈레이터와 오미-구형 밀도화 헤드를 갖춘 PanoAffordanceNet 프레임워크와 고품질 데이터셋 360-AGD 를 제안하여, 기존 객체 중심 및 평면 뷰에 국한된 affordance grounding 의 한계를 극복하고 장면 수준의 지각을 위한 강력한 기준을 마련했습니다.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

이 논문은 불투명 코팅과 투명한 창을 체커보드 패턴으로 교차 배치하여 단일 카메라로 외부 시각 정보와 접촉 촉각 신호를 동시에 포착하고, 심층 학습 기반의 재구성 프레임워크를 통해 고충실도의 이중 모달 데이터를 복원하는 새로운 센서 'MuxGel'을 제안합니다.

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu SheWed, 11 Ma💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

이 논문은 고수준 작업 수행 중 로봇의 시간 의존적 오류를 단일 비디오 레이블로 학습 가능한 약한 감독 방식과 시뮬레이션 데이터셋을 활용해 탐지하는 새로운 비디오 이상 탐지 프레임워크 'TIMID'를 제안합니다.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)Wed, 11 Ma💻 cs

Lightweight 3D LiDAR-Based UAV Tracking: An Adaptive Extended Kalman Filtering Approach

이 논문은 소형 UAV 의 엄격한 탑재량 제약을 고려하여 Livox Mid-360 LiDAR 와 적응형 확장 칼만 필터 (AEKF) 를 결합해, 희소하고 노이즈가 많은 포인트 클라우드 데이터에서도 GPS 가 없는 환경에서 견고한 UAV 추적을 가능하게 하는 경량화 시스템을 제안하고 실험을 통해 검증했습니다.

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma⚡ eess

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

이 논문은 복잡한 환경에서 물체 간 접촉으로 인한 역학을 명시적으로 모델링한 '동역학 인식 정책 학습 (DAPL)' 프레임워크를 제안하여, 수동적 조작의 한계를 극복하고 혼잡한 장면에서도 성공적인 외재적 민첩성을 실현하는 방법을 제시합니다.

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He WangWed, 11 Ma🤖 cs.AI

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

이 논문은 GPS 가 없는 환경에서 5 가지 협력적 국소화 (CL) 기법 (CCL, DCL, StCL, CI, Standard-CL) 을 ROS 기반 시뮬레이션을 통해 비교 분석하여, StCL 과 Standard-CL 은 정확도가 높지만 일관성이 부족하고, DCL 은 이상치에 강건하며, CI 는 정확성과 일관성 간의 최적 균형을 제공한다는 실용적인 선택 가이드라인을 제시합니다.

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma💻 cs

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

이 논문은 물리적으로 일관된 다-접촉 전신 궤적 최적화를 통해 모션 캡처 데이터를 인간형 로봇의 역학적으로 실행 가능한 보행 모션으로 재전송하는 'KDMR' 프레임워크를 제안하고, 이를 통해 기존 순수 운동학적 방법의 한계를 극복하고 하류 제어 정책의 학습 효율성과 안정성을 크게 향상시킨다고 설명합니다.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan TuckerWed, 11 Ma💻 cs

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

이 논문은 가려진 영역을 포함한 국소 이동 가능 영역을 예측하기 위해 시각 - 언어 모델에 공간 단서를 주입하고 깊이 기반 특징을 융합하는 BEACON 을 제안하여, 가려진 목표 위치가 있는 환경에서 기존 이미지 공간 기반 방법보다 이동성 예측 정확도를 크게 향상시킨다고 설명합니다.

Xinyu Gao, Gang Chen, Javier Alonso-MoraWed, 11 Ma🤖 cs.AI

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

이 논문은 사전 훈련된 비전 기반 모델과 기존 작업 및 운동 계획기 (TAMP) 를 결합하여 로봇 데이터 없이도 RGB 이미지와 자연어 지시만으로 다양한 조작 작업을 수행할 수 있는 모듈형 오픈-보커불러리 시스템 'TiPToP'을 제안하고, 시뮬레이션 및 실세계 평가에서 VLA 모델과 유사하거나 더 우수한 성능을 보임을 입증합니다.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-PérezWed, 11 Ma💻 cs

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

이 논문은 물리 시스템의 수학적 구조와 안정성을 보존하고 입력-잠재 공간 매핑을 가역적으로 만드는 새로운 결합 진동자 네트워크 (CON) 모델을 제안하여, 이미지 기반의 복잡한 비선형 역학을 학습하고 잠재 공간에서 폐형 모델 기반 제어를 가능하게 함으로써 연성 로봇 제어에 탁월한 성능을 입증합니다.

Maximilian Stölzle, Cosimo Della SantinaTue, 10 Ma🤖 cs.LG

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

이 논문은 제한된 타겟 도메인 데이터를 보완하기 위해 복잡한 정책 전이 절차 대신 확산 모델을 활용하여 소스 도메인의 궤적을 타겟 도메인의 특성에 맞게 직접 편집하는 'xTED' 프레임워크를 제안하고, 이를 통해 다양한 실험에서 우수한 성능을 입증했습니다.

Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan ZhanTue, 10 Ma🤖 cs.LG

Variational approach to nonholonomic and inequality-constrained mechanics

이 논문은 양자 스윙저-킬디시 작용 형식주의에 영감을 받아 비홀로노믹 및 부등식 제약 조건을 가진 역학 시스템에 대한 명시적이고 일반적인 작용 (action) 을 구성하여 라그랑주-달랑베르 방정식을 복원하고, 이를 수치 최적화를 통해 검증함으로써 제약 시스템에 대한 새로운 해석 및 계산 도구를 제시합니다.

A. Rothkopf, W. A. HorowitzTue, 10 Ma🔢 math

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

이 논문은 사전 학습된 비전 - 언어 모델 (VLM) 을 활용하여 시각적 술어 (predicates) 를 추출하고 최적화 기반 학습을 통해 추상적 심볼릭 세계 모델을 구축함으로써, 제한된 짧은 시퀀스 데모만으로도 다양한 물체, 배경, 그리고 훈련 시 보지 못한 긴 시간 범위의 새로운 목표에 대해 제로샷 일반화가 가능한 로봇 의사결정 시스템을 제안합니다.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack KaelblingTue, 10 Ma🤖 cs.LG

Strengthening Generative Robot Policies through Predictive World Modeling

이 논문은 전문가 시연과 무작위 탐색을 기반으로 한 예측 세계 모델을 활용하여 생성형 확산 정책을 온라인으로 계획 및 최적화하는 '생성형 예측 제어 (GPC)' 프레임워크를 제안하며, 다양한 로봇 조작 작업에서 시뮬레이션과 실제 환경 모두에서 기존 행동 모방 (Behavior Cloning) 보다 뛰어난 성능을 입증합니다.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng YangTue, 10 Ma🤖 cs.LG