Asset-Centric Metric-Semantic Maps of Indoor Environments
이 논문은 실내 환경의 객체별 메쉬, 카테고리, 포즈를 포함한 정밀한 메트릭-시맨틱 맵을 구축하여 기존 방법론보다 정확도와 속도를 개선하고, 이를 대형 언어 모델 (LLM) 과 결합해 복잡한 추론 및 계획이 가능한 로봇용 표현 방식을 제안합니다.
6073 편의 논문
이 논문은 실내 환경의 객체별 메쉬, 카테고리, 포즈를 포함한 정밀한 메트릭-시맨틱 맵을 구축하여 기존 방법론보다 정확도와 속도를 개선하고, 이를 대형 언어 모델 (LLM) 과 결합해 복잡한 추론 및 계획이 가능한 로봇용 표현 방식을 제안합니다.
이 논문은 궤적 최적화의 구조와 강화 학습의 적응력을 결합하여 보행 라이브러리를 기반으로 한 계층적 프레임워크 'NaviGait'를 제안함으로써, 직관적인 보행 제어와 외부 교란에 대한 강인함을 동시에 달성하고 학습 속도를 향상시키는 방법을 제시합니다.
이 논문은 LLM 분해형 서비스의 정적 리소스 할당, 부하 불균형, 그리고 캐시 인식 라우팅으로 인한 병목 현상을 해결하기 위해, 계층별 가중치 및 어텐션 수준 KV 캐시 마이그레이션과 글로벌 캐시 공유를 통해 컴퓨팅 및 메모리 리소스를 동적으로 재조정하는 'BanaServe' 프레임워크를 제안합니다.
이 논문은 기존 신경망 기반 비디오 압축의 한계를 극복하기 위해 단일 모델로 적응적 인트라/인터 코딩을 수행하고 양방향 중복성을 활용하는 통합 프레임워크를 제안하여, 실시간 성능을 유지하면서 DCVC-RT 대비 평균 12.1% 의 BD-rate 감소를 달성함을 보여줍니다.
이 논문은 군집 로봇의 연결성 유지가 필수적인 '연결된 라벨 없는 다중 에이전트 경로 찾기 (CUMAPF)' 문제를 해결하기 위해, 기존 정수 선형 계획법 (ILP) 의 확장성 한계를 극복하고 수백 개의 에이전트로 구성된 문제를 시간 복잡도로 빠르게 해결하는 완전한 알고리즘 'PULL'을 제안합니다.
이 논문은 변화하는 환경에서 기존 계획을 업데이트하는 대신, 빠른 거의-확률적 점근 최적 (ASAO) 알고리즘을 사용하여 독립적인 문제 해결을 반복함으로써 실시간 재계획을 더 효율적으로 수행할 수 있음을 보여줍니다.
이 논문은 경량화된 신체 랜드마크 검출기(MediaPipe) 에 최적화된 랜드마크 부분집합을 선택하고 스플라인 기반 보간법을 적용함으로써, 기존 방법 대비 5 배 이상 빠른 속도를 유지하면서 LIBRAS(브라질 수화) 고립 수어 인식의 정확도를 동등하거나 더 높은 수준으로 달성할 수 있음을 입증했습니다.
이 논문은 사전 학습된 Stable Diffusion 모델의 특징을 활용하여 새로운 생성 모델에 대한 일반화 능력을 갖춘 경량 데이터 효율적 프레임워크인 FRIDA 를 제안하고, 이를 통해 AI 생성 이미지의 탐지와 소스 모델 추적을 동시에 수행하는 방법을 제시합니다.
이 논문은 인간의 능동적 시선과 손의 협응을 포착하여 반인간형 로봇의 시뮬레이션 격차를 해소하고 견고한 모방 학습을 가능하게 하는 'EgoMI' 프레임워크를 제안합니다.
이 논문은 단일 이미지 기반 3D 객체 감지의 성능을 향상시키기 위해, 분해된 속성 예측 간의 기하학적 불일치를 해결하고 2D-3D 정렬을 강화하는 '공간 - 투영 정렬 (SPAN)' 프레임워크와 계층적 작업 학습 전략을 제안합니다.
이 논문은 LVLM 의 패치 토큰 표현에 내재된 의미적 얽힘 문제를 해결하기 위해, 전역 문맥을 억제하고 해리된 지역적 의미 정보를 유지하는 '가치 (Value) 특징'을 표적으로 하는 정밀한 제어형 적대적 공격 기법인 V-Attack 을 제안하고, 이를 통해 기존 최첨단 방법 대비 평균 36% 높은 공격 성공률을 달성함을 보여줍니다.
본 논문은 로봇 조작 작업의 성능 향상을 위해 상태-행동-상태 동역학을 모델링하고 명시적 기하학적 재구성을 배제하여 자기지도식 3D 표현을 학습하는 새로운 프레임워크인 AFRO 를 제안하고, 이를 통해 다양한 시뮬레이션 및 실세계 작업에서 기존 방법보다 우수한 조작 성공률을 달성함을 보여줍니다.
이 논문은 시각과 청각 정보를 통합한 최초의 공식적인 오디오 - 비주얼 월드 모델 (AVWM) 프레임워크를 제안하고, 이를 위해 새로운 데이터셋 AVW-4k 와 3 단계 학습 전략을 갖춘 AV-CDiT 모델을 개발하여 멀티모달 미래 상태 예측 및 내비게이션 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 기존 TSPTW 벤치마크 인스턴스의 구조적 취약점을 간파하여 50 개 이상의 고객으로 구성된 모든 사례를 초단위로 해결하는 정밀 알고리즘을 제시함으로써, 해당 인스턴스들이 더 이상 문제의 난이도를 평가하거나 머신러닝 학습용 데이터셋으로 적합하지 않음을 경고합니다.
이 논문은 VGGT 와 모델의 글로벌 어텐션 역할을 분석하여 초기 층을 프레임 어텐션으로 변환하고 K/V 를 서브샘플링하는 훈련 없는 2 단계 가속화 기법을 제안함으로써, 기존 희소 어텐션 방식이 실패하는 고밀도 다중 뷰 환경에서도 정확도를 유지하면서 최대 10 배까지 추론 속도를 획기적으로 향상시켰습니다.
이 논문은 다양한 로봇 형태에 맞춰 인간 시연의 모방을 넘어 적응적 탐색을 가능하게 하는 통합 강화학습 프레임워크 'UniBYD'와 이를 평가하기 위한 새로운 벤치마크 'UniManip'을 제안하여, 기존 최첨단 방법 대비 성공률을 44.08% 향상시켰음을 보여줍니다.
이 논문은 다양한 모달리티 간의 상호보완성을 효과적으로 활용하면서도 모델 효율성을 유지하기 위해, 융합된 다중 모달 특징을 개별 모달 특징으로 분해하고 이를 다시 조합하여 자기지도 학습을 수행하는 새로운 프레임워크를 제안하여 계산 비용과 성능 간의 균형을 달성합니다.
이 논문은 인간 선호도 기반 강화학습을 통한 텍스트-이미지 생성 모델의 '선호도 모드 붕괴 (Preference Mode Collapse)' 현상을 규명하고, 이를 해결하기 위해 보상 신호를 방향적으로 보정하여 생성 다양성을 유지하는 새로운 프레임워크인 '방향성 분해 정렬 (D²-Align)'을 제안합니다.
본 논문은 정적 분석과 LLM 기반 추론을 결합한 모듈형 프레임워크인 Preguss 를 통해 대규모 프로그램의 잠재적 런타임 오류를 기반으로 인터프로시저 명세를 자동 생성 및 정제함으로써, 기존 LLM 기반 접근법보다 우수한 확장성을 보이며 수천 줄 규모의 프로그램에 대한 검증 노력을 80.6%~88.9% 감소시킨다고 제안합니다.
본 논문은 실용적인 디지털 의미 통신의 보안 취약점과 위협을 체계적으로 분석하고, 아날로그 방식과의 차이점을 명확히 하며 방어 전략과 향후 연구 방향을 제시합니다.