Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping
이 논문은 소수의 시연 데이터와 비전 - 언어 모델의 시각적 이해 능력을 활용하여, 의미론적 특징점 대응을 기반으로 행동을 왜곡하는 오픈 - 루프 정책을 통해 자율적 기능적 놀이를 수행하고 이를 통해 인간 수준의 모방 정책을 학습하는 'Tether'라는 새로운 로봇 학습 방법을 제안합니다.
5561 편의 논문
이 논문은 소수의 시연 데이터와 비전 - 언어 모델의 시각적 이해 능력을 활용하여, 의미론적 특징점 대응을 기반으로 행동을 왜곡하는 오픈 - 루프 정책을 통해 자율적 기능적 놀이를 수행하고 이를 통해 인간 수준의 모방 정책을 학습하는 'Tether'라는 새로운 로봇 학습 방법을 제안합니다.
이 논문은 물리 기반 신경 리타게팅 알고리즘과 강화 학습을 결합한 통합 멀티모달 제어 프레임워크인 ULTRA 를 제안하여, 인간형 로봇이 사전 정의된 동작 참조 없이도 egocentric 시각 입력만으로 자율적인 전신 loco-manipulation 을 수행할 수 있도록 합니다.
이 논문은 힘 감지 데이터 수집과 모방 학습을 통한 초기 정책 학습, 그리고 정량적 지표와 인간 피드백을 결합한 선호도 기반 미세 조정을 통해, 감자나 오이 등 다양한 과일의 껍질 벗기기 작업에서 90% 이상의 성공률과 뛰어난 일반화 능력을 달성하는 로봇 조작 학습 프레임워크를 제안합니다.
이 논문은 실시간 대화에 맞춰 자연스럽고 표현력 있는 전신 제스처와 얼굴 표정을 생성하는 최초의 온라인 인과적 프레임워크인 MIBURI 를 제안하며, 이를 통해 기존 에이전트의 경직된 동작 문제를 해결하고 인간과 유사한 상호작용을 가능하게 합니다.
이 논문은 원격 탐사, LiDAR, RGB-D 등 다양한 도메인의 포인트 클라우드를 단일 자기지도 학습 트랜스포머 인코더인 'Utonia'로 통합하여 범용 3D 표현을 학습하고, 이를 로봇 조작 및 시각 - 언어 추론 등 다양한 하위 작업의 성능 향상에 활용하는 기초 모델을 제안합니다.
이 논문은 1 스테이지 객체 검출기의 극단적인 클래스 불균형 문제를 해결하기 위해 분류 작업을 랭킹 작업으로 전환하고, 비미분 가능하고 비볼록한 평균 정밀도 손실 (AP-loss) 을 최적화할 수 있는 새로운 알고리즘을 제안하여 네트워크 구조 변경 없이 검출 성능을 획기적으로 향상시켰습니다.
이 논문은 원스텝 객체 감지기의 극심한 전경 - 배경 불균형 문제를 해결하기 위해 분류 작업을 랭킹 작업으로 전환하고, 비차분 가능하고 비볼록한 평균 정밀도 손실 (AP-loss) 을 최적화하기 위해 퍼셉트론 학습과 역전파를 결합한 새로운 알고리즘을 제안하여 기존 방법보다 뛰어난 성능을 달성함을 보여줍니다.
이 논문은 검출과 추적을 상호 보완적으로 결합한 '추적-검출 (Tracking-with-Detection)' 패러다임을 제안하여, 기존에 분리되어 있던 인스턴스 및 카테고리 추적 작업을 단일 공유 네트워크 아키텍처로 통합하고 성능을 향상시킨 OmniTracker 를 소개합니다.
이 논문은 기존 공간 주의 메커니즘의 한계를 극복하고 큰 커널을 가진 합성곱에서 파라미터 공유 문제를 해결하기 위해, 계산 오버헤드는 거의 증가시키지 않으면서 네트워크 성능을 크게 향상시키는 새로운 '수용野 주의 합성곱 (RFAConv)'을 제안합니다.
이 논문은 기존 광학 설계가 컴퓨터 비전 작업과 단절되어 있고 종단간 최적화가 불안정하다는 문제를 해결하기 위해, 사전 학습된 비전 모델을 고정하고 렌즈만 최적화하여 더 넓은 설계 공간을 탐색하고 기존 렌즈보다 우수한 성능을 보이는 '작업 주도 렌즈 설계'를 제안합니다.
이 논문은 데이터가 부족한 상황에서 약지도 학습인 다중 인스턴스 학습 (MIL) 의 성능을 향상시키기 위해 인스턴스 분포의 위상적 구조를 보존하는 위상적 유도 편향을 도입한 '위상 유도 MIL(TG-MIL)' 방법을 제안하고, 희귀 질환 분류 등 다양한 시나리오에서 기존 최첨단 모델 대비 평균 2.8%~15.3% 의 성능 개선을 입증했습니다.
이 논문은 기존 시간 인덱싱의 한계를 극복하기 위해 '거리 인덱싱'과 반복적 참조 추정 전략을 도입하여 비디오 프레임 보간 시 객체 운동의 모호성을 해소하고, 더 선명한 보간 결과와 정밀한 시간 제어 기능을 제공하는 새로운 방법을 제안합니다.
이 논문은 대규모 멀티모달 데이터의 복잡성을 포착하기 위해 DAG 를 넘어선 잠재적 부분 인과 모델을 제안하고, 통계적 식별성을 통해 멀티모달 대비 학습 (MMCL) 이 잠재 변수를 학습한다는 이론적 근거를 제시하여 CLIP 과 같은 사전 훈련 모델의 표현 분리 및 도메인 일반화 능력을 입증합니다.
이 논문은 기존 지도 학습 기반 방법의 한계를 극복하고 전이 학습, 데이터 증강 및 테스트 시간 증강 기법을 도입하여 다양한 실험 환경과 돌연변이 유형에 적용 가능한 정밀한 제브라피시 심혈관 분석 프레임워크 (ZACAF) 를 개발하고, 이를 통해 심근증 모델인 nrap 돌연변이 제브라피시의 심혈관 기능을 성공적으로 정량화했음을 제시합니다.
이 논문은 대규모 언어 모델을 활용한 적응형 미세-세분화 설명과 위치 강화 고화질 국소화 기법을 통해 다양한 크기와 형태의 이상을 정밀하게 탐지 및 국소화하는 새로운 제로샷 이상 탐지 방법인 FiLo 를 제안하여 MVTec 및 VisA 데이터셋에서 최첨단 성능을 달성했습니다.
이 논문은 SAM 의 단순성 편향 감소 특성을 활용하여 학습 초기에 데이터 클러스터링과 업샘플링을 수행하는 'USEFUL' 방법을 제안함으로써 다양한 아키텍처와 데이터셋에서 기존 최첨단 성능을 달성하는 것을 증명합니다.
이 논문은 자율주행 환경에서 사전 정의된 객체 범위를 넘어 미지의 물체도 탐지할 수 있도록 LiDAR 기하학적 단서와 카메라 BEV 특징을 결합한 2 단계 학습 프레임워크인 OS-Det3D 를 제안합니다.
이 논문은 차량 내성 효율성을 위해 드라이버의 자세와 상호작용 객체 정보를 활용하여 토큰을 선택하는 'POGUISE+'라는 다중 태스크 비전 트랜스포머 모델을 제안함으로써, 기존 방법 대비 연산 비용을 크게 줄이면서도 Drive&Act, 100-Driver, 3MDAD 데이터셋에서 최첨단 성능을 달성했다고 요약할 수 있습니다.
이 논문은 다중 카메라, LiDAR, 시맨틱 분할 마스크 및 텍스트 주석을 활용하여 late fusion 방식으로 통합한 MSSPlace 를 제안함으로써 단일 모달리티 기반 방법보다 우수한 성능을 보이는 다중 센서 장소 인식 모델을 제시합니다.
이 논문은 시각 장애인의 내비게이션을 지원하기 위해 21 개의 야외 영상과 90 가지 필수 객체 분류 체계로 구성된 새로운 데이터셋을 공개하고, 기존 컴퓨터 비전 모델이 이러한 특정 객체 인식에 미흡함을 입증했습니다.