cs.RO 편의 논문 | Gist.Science

ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

이 논문은 대규모 시각 - 언어 모델 (VLM) 의 사회적 추론 능력을 중간 계층의 주석 맵으로 증류하여 사회적 준거성을 갖춘 로봇 항법을 위한 공간 비용 지도를 생성하고, 이를 통해 기존 방법 대비 성공률을 14.2% 에서 50% 까지 향상시킨 'ViLAM'이라는 새로운 방법을 제안합니다.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh ManochaTue, 10 Ma💻 cs

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

이 논문은 비전 - 언어 모델을 활용하여 환경의 의미와 접촉 허용도를 분석하고, 이를 기반으로 접촉이 필요한 복잡한 환경에서도 안정적이고 효율적인 로봇 경로 계획을 가능하게 하는 'IMPACT' 프레임워크를 제안합니다.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel SeitaTue, 10 Ma🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

이 논문은 애플 비전 프로를 활용해 829 시간 분량의 3D 손 관절 추적 데이터와 다양한 일상 조작 행위를 포함하는 대규모 데이터셋 'EgoDex'를 구축하고, 이를 통해 모방 학습 정책의 성능을 평가하는 새로운 벤치마크를 제시합니다.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian ZhangTue, 10 Ma🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

이 논문은 시각 및 촉각 데이터 간의 정교한 공간적 상관관계를 포착하기 위해 로컬 및 글로벌 위치 인코딩을 2 단계로 주입하는 트랜스포머 기반 아키텍처인 ViTaPEs 를 제안하여, 다양한 인식 작업과 로봇 그리핑에서 최첨단 성능과 제로샷 일반화 능력을 입증합니다.

Fotios Lygerakis, Ozan Özdenizci, Elmar RückertTue, 10 Ma🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

이 논문은 비선형 조작 (Nonprehensile Manipulation) 환경에서 데이터 수집 효율성과 계획 신뢰성을 동시에 향상시키기 위해 잔류 물리 모델링과 불확실성 기반의 능동 학습을 결합한 'ActivePusher' 프레임워크를 제안합니다.

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos ChamzasTue, 10 Ma🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

이 논문은 특정 작업별 학습이나 인간 - 로봇 쌍 데이터 없이도 단일 인간 데모만으로도 로봇이 복잡한 조작 과제를 성공적으로 수행할 수 있도록, 운동학적 리타게팅과 사전 훈련된 확산 정책을 결합한 'DemoDiffusion' 방법을 제안합니다.

Sungjae Park, Homanga Bharadhwaj, Shubham TulsianiTue, 10 Ma🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

이 논문은 MLLM 검증기에서 발생하는 '동의 편향 (agreement bias)'을 해결하기 위해 사전 지식을 생성한 후 이를 기반으로 추론하는 '자기 기반 검증 (SGV)' 방법을 제안함으로써, 에이전트의 실패 감지 정확도와 태스크 완료율을 기존 최첨단 성능보다 크게 향상시켰다고 설명합니다.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

이 논문은 부분 관측 환경에서 최대 안전 집합을 근사하고 엄격한 안전 보장을 제공하는 관측 조건부 잔류 신경 제어 장벽 함수 (ORN-CBF) 를 제안하며, 하밀토니안-야코비 접근법과 하이퍼네트워크 아키텍처를 활용하여 시뮬레이션 및 실제 로봇 실험에서 기존 방법보다 우수한 안전성과 일반화 성능을 입증했습니다.

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

이 논문은 단일 이미지로부터 고충실도 표면과 SDF 장을 수 초 내에 효율적으로 재구성하는 경량 프레임워크인 FINS 를 제안하여 기존 방법들의 한계를 극복하고 로봇 표면 추종 작업 등 다양한 응용 분야에 그 유효성을 입증합니다.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming ZhiTue, 10 Ma💻 cs

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

이 논문은 시연 데이터의 실패 및 복구 패턴과 같은 시간적 구조를 명시적으로 모델링하기 위해 상태 전이 어텐션 (STA) 메커니즘을 도입한 'CroSTAta'라는 새로운 트랜스포머 아키텍처를 제안하며, 이를 통해 로봇 조작 정책의 강건성과 정밀도를 기존 방법론보다 크게 향상시켰음을 보여줍니다.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

이 논문은 로봇 보행 강화학습에서 무작위 초기화 대신 역동적 탐색 데이터를 기반으로 사전 학습된 역동 모델을 활용하여 액터-크리틱 알고리즘을 초기화함으로써 샘플 효율성과 작업 수행 능력을 크게 향상시키는 새로운 패러다임을 제안하고 검증합니다.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco HutterTue, 10 Ma🤖 cs.LG

Vectorized Online POMDP Planning

이 논문은 POMDP 계획의 병렬화 병목 현상을 해결하기 위해 텐서 기반의 완전 벡터화 계산을 도입한 'VOPP'를 제안하며, 기존 최첨단 솔버 대비 20 배 이상 높은 계산 효율성과 1000 배 작은 예산으로 더 우수한 성능을 입증합니다.

Marcus Hoerger, Muhammad Sudrajat, Hanna KurniawatiTue, 10 Ma💻 cs

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

이 논문은 성체 초파리의 완전한 뇌 연결체 (connectome) 구조를 그대로 활용하여 감각 입력에서 운동 출력으로의 정보 흐름을 구현한 'FlyGM'을 개발함으로써, 별도의 구조 조정이 없어도 다양한 이동 작업을 안정적으로 제어하고 기존 모델보다 우수한 샘플 효율성과 성능을 입증했다고 요약할 수 있습니다.

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan SuiTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

이 논문은 비전 - 언어 모델의 지리 - 시간적 추론 능력을 평가하기 위해 80 개국의 1,455 장 이미지를 포함한 'TimeSpot' 벤치마크를 제안하고, 기존 모델들의 성능이 특히 시간적 추론 분야에서 여전히 부족함을 입증했습니다.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

One-Shot Badminton Shuttle Detection for Mobile Robots

이 논문은 이동 로봇의 동적 시점에서의 셔틀콕 검출을 위해 새로운 데이터셋과 반자동 주석 파이프라인을 구축하고, 실시간 검출을 위한 YOLOv8 기반의 강인한 원샷 프레임워크를 제안하여 추적 및 궤적 추정 등 하위 작업의 기초를 마련했습니다.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco HutterTue, 10 Ma💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

이 논문은 진전 및 이동 제한이 있는 사용자를 위해 손으로 잡거나 로봇에 부착하여 사용할 수 있도록 설계된, 집게처럼 작동하여 음식물을 안전하게 잡는 피벗 기반 키리기아미 숟가락 (kiri-spoon) 을 제안하고 그 유효성을 검증합니다.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. LoseyTue, 10 Ma💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

이 논문은 정지궤도 위성의 보조 데이터를 활용하여 장기 관측 청사진을 수립하고, 탑재 센서 데이터로 단기 계획을 정교화하는 계층적 계획 방식을 도입함으로써, 기존 동적 타겟팅 시스템의 성능을 최대 41% 향상시켰음을 보여줍니다.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

이 논문은 밀도 불변 관찰 인코딩, 밀도 무작위화 훈련, 물리 기반 보상 설계 등을 통해 학습 기반 군중 내비게이션이 훈련 데이터 범위를 벗어난 고밀도 환경에서도 동결이나 충돌 없이 목표 지점에 도달할 수 있도록 하는 강화 학습 접근법을 제안합니다.

Jiefu Zhang, Yang Xu, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

이 논문은 로봇 제어 및 자율 주행과 같은 복잡한 제약 조건 하에서 현실감을 유지하면서 사전 훈련된 생성 모델을 미세 조정하여 해당 제약 영역 내에서 직접 샘플을 생성하는 새로운 프레임워크를 제안합니다.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank WoodTue, 10 Ma🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

이 논문은 산업용 로봇 제어에 대한 로봇 기초 모델 (RFM) 의 현황을 종합적으로 조사하고, 산업적 요구사항을 반영한 149 개 기준의 평가 프레임워크를 통해 324 개 모델을 분석한 결과, 안전성과 실시간성 등 산업 적용을 위한 체계적인 통합이 부족함을 지적합니다.

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs

← 이전 다음 →