Asset-Centric Metric-Semantic Maps of Indoor Environments
이 논문은 실내 환경의 객체별 메쉬, 카테고리, 포즈를 포함한 정밀한 메트릭-시맨틱 맵을 구축하여 기존 방법론보다 정확도와 속도를 개선하고, 이를 대형 언어 모델 (LLM) 과 결합해 복잡한 추론 및 계획이 가능한 로봇용 표현 방식을 제안합니다.
3447 편의 논문
이 논문은 실내 환경의 객체별 메쉬, 카테고리, 포즈를 포함한 정밀한 메트릭-시맨틱 맵을 구축하여 기존 방법론보다 정확도와 속도를 개선하고, 이를 대형 언어 모델 (LLM) 과 결합해 복잡한 추론 및 계획이 가능한 로봇용 표현 방식을 제안합니다.
이 논문은 궤적 최적화의 구조와 강화 학습의 적응력을 결합하여 보행 라이브러리를 기반으로 한 계층적 프레임워크 'NaviGait'를 제안함으로써, 직관적인 보행 제어와 외부 교란에 대한 강인함을 동시에 달성하고 학습 속도를 향상시키는 방법을 제시합니다.
이 논문은 기존 신경망 기반 비디오 압축의 한계를 극복하기 위해 단일 모델로 적응적 인트라/인터 코딩을 수행하고 양방향 중복성을 활용하는 통합 프레임워크를 제안하여, 실시간 성능을 유지하면서 DCVC-RT 대비 평균 12.1% 의 BD-rate 감소를 달성함을 보여줍니다.
이 논문은 군집 로봇의 연결성 유지가 필수적인 '연결된 라벨 없는 다중 에이전트 경로 찾기 (CUMAPF)' 문제를 해결하기 위해, 기존 정수 선형 계획법 (ILP) 의 확장성 한계를 극복하고 수백 개의 에이전트로 구성된 문제를 시간 복잡도로 빠르게 해결하는 완전한 알고리즘 'PULL'을 제안합니다.
이 논문은 변화하는 환경에서 기존 계획을 업데이트하는 대신, 빠른 거의-확률적 점근 최적 (ASAO) 알고리즘을 사용하여 독립적인 문제 해결을 반복함으로써 실시간 재계획을 더 효율적으로 수행할 수 있음을 보여줍니다.
이 논문은 경량화된 신체 랜드마크 검출기(MediaPipe) 에 최적화된 랜드마크 부분집합을 선택하고 스플라인 기반 보간법을 적용함으로써, 기존 방법 대비 5 배 이상 빠른 속도를 유지하면서 LIBRAS(브라질 수화) 고립 수어 인식의 정확도를 동등하거나 더 높은 수준으로 달성할 수 있음을 입증했습니다.
이 논문은 사전 학습된 Stable Diffusion 모델의 특징을 활용하여 새로운 생성 모델에 대한 일반화 능력을 갖춘 경량 데이터 효율적 프레임워크인 FRIDA 를 제안하고, 이를 통해 AI 생성 이미지의 탐지와 소스 모델 추적을 동시에 수행하는 방법을 제시합니다.
이 논문은 인간의 능동적 시선과 손의 협응을 포착하여 반인간형 로봇의 시뮬레이션 격차를 해소하고 견고한 모방 학습을 가능하게 하는 'EgoMI' 프레임워크를 제안합니다.
이 논문은 단일 이미지 기반 3D 객체 감지의 성능을 향상시키기 위해, 분해된 속성 예측 간의 기하학적 불일치를 해결하고 2D-3D 정렬을 강화하는 '공간 - 투영 정렬 (SPAN)' 프레임워크와 계층적 작업 학습 전략을 제안합니다.
이 논문은 LVLM 의 패치 토큰 표현에 내재된 의미적 얽힘 문제를 해결하기 위해, 전역 문맥을 억제하고 해리된 지역적 의미 정보를 유지하는 '가치 (Value) 특징'을 표적으로 하는 정밀한 제어형 적대적 공격 기법인 V-Attack 을 제안하고, 이를 통해 기존 최첨단 방법 대비 평균 36% 높은 공격 성공률을 달성함을 보여줍니다.
본 논문은 로봇 조작 작업의 성능 향상을 위해 상태-행동-상태 동역학을 모델링하고 명시적 기하학적 재구성을 배제하여 자기지도식 3D 표현을 학습하는 새로운 프레임워크인 AFRO 를 제안하고, 이를 통해 다양한 시뮬레이션 및 실세계 작업에서 기존 방법보다 우수한 조작 성공률을 달성함을 보여줍니다.
이 논문은 시각과 청각 정보를 통합한 최초의 공식적인 오디오 - 비주얼 월드 모델 (AVWM) 프레임워크를 제안하고, 이를 위해 새로운 데이터셋 AVW-4k 와 3 단계 학습 전략을 갖춘 AV-CDiT 모델을 개발하여 멀티모달 미래 상태 예측 및 내비게이션 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 기존 TSPTW 벤치마크 인스턴스의 구조적 취약점을 간파하여 50 개 이상의 고객으로 구성된 모든 사례를 초단위로 해결하는 정밀 알고리즘을 제시함으로써, 해당 인스턴스들이 더 이상 문제의 난이도를 평가하거나 머신러닝 학습용 데이터셋으로 적합하지 않음을 경고합니다.
이 논문은 VGGT 와 모델의 글로벌 어텐션 역할을 분석하여 초기 층을 프레임 어텐션으로 변환하고 K/V 를 서브샘플링하는 훈련 없는 2 단계 가속화 기법을 제안함으로써, 기존 희소 어텐션 방식이 실패하는 고밀도 다중 뷰 환경에서도 정확도를 유지하면서 최대 10 배까지 추론 속도를 획기적으로 향상시켰습니다.
이 논문은 다양한 로봇 형태에 맞춰 인간 시연의 모방을 넘어 적응적 탐색을 가능하게 하는 통합 강화학습 프레임워크 'UniBYD'와 이를 평가하기 위한 새로운 벤치마크 'UniManip'을 제안하여, 기존 최첨단 방법 대비 성공률을 44.08% 향상시켰음을 보여줍니다.
이 논문은 인간 선호도 기반 강화학습을 통한 텍스트-이미지 생성 모델의 '선호도 모드 붕괴 (Preference Mode Collapse)' 현상을 규명하고, 이를 해결하기 위해 보상 신호를 방향적으로 보정하여 생성 다양성을 유지하는 새로운 프레임워크인 '방향성 분해 정렬 (D²-Align)'을 제안합니다.
본 논문은 정적 분석과 LLM 기반 추론을 결합한 모듈형 프레임워크인 Preguss 를 통해 대규모 프로그램의 잠재적 런타임 오류를 기반으로 인터프로시저 명세를 자동 생성 및 정제함으로써, 기존 LLM 기반 접근법보다 우수한 확장성을 보이며 수천 줄 규모의 프로그램에 대한 검증 노력을 80.6%~88.9% 감소시킨다고 제안합니다.
이 논문은 딥페이크 탐지의 일반화 문제를 해결하기 위해, 위조와 무관한 저랭크 편향을 제거하고 진짜 위조 흔적에 초점을 맞추는 인과적 표현 학습 기반의 'SeLop'이라는 새로운 방법을 제안합니다.
이 논문은 GDPR 의 프라이버시 설계 (PbD) 를 위한 요구사항 공학 방법론을 조직의 목표에 부합하는지 평가하기 위한 목표 중심 접근법을 제안하고 있습니다.
이 논문은 무선 은폐 통신 (Covert Communication) 의 엄격한 보안 제약 조건 하에서 LLM 의 능력을 평가하기 위해 CovertComBench 를 제안하고, 현재 LLM 이 개념 이해와 코드 구현에서는 우수한 성능을 보이지만 보안 보장을 위한 고차원 수학적 유도에서는 한계가 있어 신뢰할 수 있는 무선 AI 시스템 구축을 위해 외부 도구 증강이 필요함을 밝힙니다.