World2Act: Latent Action Post-Training via Skill-Compositional World Models
이 논문은 픽셀 의존성을 줄이고 가변적인 작업 길이에 대응하기 위해 잠재 공간 정렬과 LLM 기반 기술 분해 파이프라인을 도입한 'World2Act' 프레임워크를 제안하여, 시각 - 언어 - 행동 정책의 일반화 성능을 획기적으로 향상시켰음을 보여줍니다.
5673 편의 논문
이 논문은 픽셀 의존성을 줄이고 가변적인 작업 길이에 대응하기 위해 잠재 공간 정렬과 LLM 기반 기술 분해 파이프라인을 도입한 'World2Act' 프레임워크를 제안하여, 시각 - 언어 - 행동 정책의 일반화 성능을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 최대 차수와 트리길이가 제한된 연결 그래프의 간선을 재구성하기 위해 결정론적 알고리즘을 사용하여 개의 최단 경로 거리 쿼리만으로 충분함을 증명하여 기존 알고리즘의 성능을 배 개선하고 하한과 일치시킵니다.
이 논문은 제약된 환경에서 다중 로봇 간 대규모 DNN 추론을 최적화하기 위해 오프라인 및 온라인 강화학습을 결합한 COHORT 프레임워크를 제안하며, 이를 통해 배터리 소모 감소, GPU 활용도 향상, 그리고 실시간 제약 조건 충족률 증대 효과를 입증했습니다.
이 논문은 극심한 지연과 손실이 발생하는 행성 간 네트워크 환경에서 기존 TCP/QUIC 의 성능 한계를 극복하기 위해, 암호화된 흐름의 연결 분할을 지원하는 비투명 보안 프록시 (NTSP) 아키텍처를 기반으로 한 보안 전송 가속 전략을 제안하고, 이를 통해 대역폭 활용 효율성과 손실 복구 성능을 크게 향상시킨 것을 보여줍니다.
이 논문은 기초 모델의 고비용 연산을 비동기적으로 분산 처리하여 엣지 디바이스에서도 실시간으로 고품질 단안 깊이 추정이 가능하도록 한 AsyncMDE 시스템을 제안합니다.
이 논문은 언어 모델의 의미적 추론 능력과 확산 모델의 생성적 힘을 통합하여 자율주행의 의미-물리 간극을 해소하고, nuPlan 벤치마크에서 기존 계획기보다 우수한 성능을 보이는 'KnowDiffuser'라는 지식 기반 확산 계획 프레임워크를 제안합니다.
이 논문은 희소 키프레임 학습과 조건부 흐름 매칭 (CFM) 을 결합하여 자연스럽고 다국어 지원이 가능한 효율적인 수어 생성 프레임워크인 SignSparK 를 제안하며, 기존 방법론의 한계를 극복하고 새로운 최첨단 성능을 달성함을 보여줍니다.
이 논문은 비디오 생성 과정의 중간 특징을 활용하여 비디오 생성과 행동 예측을 통합적으로 학습하는 'DiT4DiT' 모델을 제안함으로써, 기존 VLA 모델 대비 데이터 효율성과 일반화 성능을 획기적으로 개선한 로봇 제어 방식을 제시합니다.
이 논문은 헤겔의 인정과 프로이트의 정신역학을 기반으로 한 AI 튜터링 시스템과 '바이브 스칼라십'이라는 반성적 연구 방법론을 통해, 학습자를 자율적 주체로 대우하는 프롬프트가 모델에 관계없이 튜터링 성능을 획기적으로 향상시킨다는 사실을 규명합니다.
이 논문은 단일 프로젝터-카메라 쌍을 사용하여 색상이 변하는 물체의 구조광 3D 재구성을 위해 광학적 측면 색수차를 보정하고 최소 분산 추정 기반의 다채널 위상 데이터를 융합하는 LCAMV 방법을 제안하며, 이를 통해 기존 방식 대비 최대 43.6% 의 깊이 오차 감소를 달성함을 보여줍니다.
이 논문은 학습된 의도 추정, 장면 그래프 작업 계획, 그리고 맥락 의존적 운동 보조를 결합한 양손 조립용 지원 원격 조작 프레임워크인 SUBTA 를 제안하고, 이를 통해 위치 및 방향 정확도를 크게 향상시키고 사용자의 정신적 부하를 줄인다는 것을 사용자 연구를 통해 입증했습니다.
이 논문은 3 만 2 천 개 이상의 파노라마로 구성된 행동 기반 지리 위치 추론 벤치마크 'WanderBench'와 시각적 탐색 행동을 통해 불확실성을 줄이는 추론 프레임워크 'GeoAoT'를 제안하여, 대규모 멀티모달 모델의 전 세계 지리 위치 추정 능력을 혁신적으로 향상시켰습니다.
이 논문은 XR 환경에서 오디오-비주얼 단서를 활용하여 최대 5 개의 음원을 실시간으로 분리하고 음성을 명확하게 인식하게 함으로써 사용자의 청취 이해도를 36.2% 향상시키고 인지 부하를 줄이는 'MoXaRt' 시스템을 제안합니다.
DepthCache 는 깊이 정보를 활용하여 훈련 없이 시각 토큰을 압축함으로써 비전 - 언어 - 행동 (VLA) 모델의 추론 지연을 줄이면서도 로봇 제어에 필수적인 공간 추론 능력을 유지하는 프레임워크입니다.
이 논문은 시각적 입력과 불일치하는 환각을 억제하기 위해 확산 기반 반사실적 이미지 변형을 활용하여 저랭크 부분공간을 식별하고 이를 보정하는 훈련 없는 방법인 CIPHER 를 제안합니다.
이 논문은 복잡한 소프트웨어 시스템의 검증 비용을 줄이고 목표 달성을 위해 '영향력의 희소성'을 활용한 모델 없는 탐색 기법인 'herding'을 제안하며, 이를 통해 소수의 샘플로 최적의 결과를 도출하는 EZR(효율적 제로-지식 랭커) 알고리즘을 소개합니다.
이 논문은 다양한 표면 유형과 지리적 다양성을 포괄하는 약 78,093 장의 이미지로 구성된 대규모 통합 데이터셋 'StructDamage'를 제안하여, 기존 데이터셋의 한계를 극복하고 구조물 균열 및 표면 결함 탐지 모델의 일반화 성능과 재현성을 향상시키는 것을 목표로 합니다.
이 논문은 질량분석 이미징 (MSI) 데이터의 피크 선택 성능을 향상시키기 위해 공간적 자기지도 학습 기반의 오토인코더 신경망과 전문가 주석 세그멘테이션 마스크를 활용한 평가 절차를 제안하며, 다양한 공개 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.
이 논문은 기존 벤치마크의 한계를 극복하고 실제 복잡성을 반영하며 번역 품질과 시각적 일관성을 종합적으로 평가할 수 있는 새로운 다중 시나리오 크로스-모달 협업 평가 벤치마크인 'IMTBench'를 제안합니다.
이 논문은 GCAM 모델을 활용해 AI 서비스 성장과 전력 수요 간의 관계를 분석한 결과, 효율성 개선 속도와 소득 증가에 따라 AI 전력 수요가 크게 달라지며 가격 정책만으로는 한계가 있음을 보여줍니다.