ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

이 논문은 대규모 시각 - 언어 모델 (VLM) 의 사회적 추론 능력을 중간 계층의 주석 맵으로 증류하여 사회적 준거성을 갖춘 로봇 항법을 위한 공간 비용 지도를 생성하고, 이를 통해 기존 방법 대비 성공률을 14.2% 에서 50% 까지 향상시킨 'ViLAM'이라는 새로운 방법을 제안합니다.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh ManochaTue, 10 Ma💻 cs

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

이 논문은 시각 및 촉각 데이터 간의 정교한 공간적 상관관계를 포착하기 위해 로컬 및 글로벌 위치 인코딩을 2 단계로 주입하는 트랜스포머 기반 아키텍처인 ViTaPEs 를 제안하여, 다양한 인식 작업과 로봇 그리핑에서 최첨단 성능과 제로샷 일반화 능력을 입증합니다.

Fotios Lygerakis, Ozan Özdenizci, Elmar RückertTue, 10 Ma🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

이 논문은 MLLM 검증기에서 발생하는 '동의 편향 (agreement bias)'을 해결하기 위해 사전 지식을 생성한 후 이를 기반으로 추론하는 '자기 기반 검증 (SGV)' 방법을 제안함으로써, 에이전트의 실패 감지 정확도와 태스크 완료율을 기존 최첨단 성능보다 크게 향상시켰다고 설명합니다.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

이 논문은 부분 관측 환경에서 최대 안전 집합을 근사하고 엄격한 안전 보장을 제공하는 관측 조건부 잔류 신경 제어 장벽 함수 (ORN-CBF) 를 제안하며, 하밀토니안-야코비 접근법과 하이퍼네트워크 아키텍처를 활용하여 시뮬레이션 및 실제 로봇 실험에서 기존 방법보다 우수한 안전성과 일반화 성능을 입증했습니다.

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

이 논문은 시연 데이터의 실패 및 복구 패턴과 같은 시간적 구조를 명시적으로 모델링하기 위해 상태 전이 어텐션 (STA) 메커니즘을 도입한 'CroSTAta'라는 새로운 트랜스포머 아키텍처를 제안하며, 이를 통해 로봇 조작 정책의 강건성과 정밀도를 기존 방법론보다 크게 향상시켰음을 보여줍니다.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

이 논문은 성체 초파리의 완전한 뇌 연결체 (connectome) 구조를 그대로 활용하여 감각 입력에서 운동 출력으로의 정보 흐름을 구현한 'FlyGM'을 개발함으로써, 별도의 구조 조정이 없어도 다양한 이동 작업을 안정적으로 제어하고 기존 모델보다 우수한 샘플 효율성과 성능을 입증했다고 요약할 수 있습니다.

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan SuiTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

이 논문은 비전 - 언어 모델의 지리 - 시간적 추론 능력을 평가하기 위해 80 개국의 1,455 장 이미지를 포함한 'TimeSpot' 벤치마크를 제안하고, 기존 모델들의 성능이 특히 시간적 추론 분야에서 여전히 부족함을 입증했습니다.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

이 논문은 정지궤도 위성의 보조 데이터를 활용하여 장기 관측 청사진을 수립하고, 탑재 센서 데이터로 단기 계획을 정교화하는 계층적 계획 방식을 도입함으로써, 기존 동적 타겟팅 시스템의 성능을 최대 41% 향상시켰음을 보여줍니다.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

이 논문은 산업용 로봇 제어에 대한 로봇 기초 모델 (RFM) 의 현황을 종합적으로 조사하고, 산업적 요구사항을 반영한 149 개 기준의 평가 프레임워크를 통해 324 개 모델을 분석한 결과, 안전성과 실시간성 등 산업 적용을 위한 체계적인 통합이 부족함을 지적합니다.

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs