DAP: A Discrete-token Autoregressive Planner for Autonomous Driving
이 논문은 BEV 시맨틱과 자차 궤적을 동시에 예측하는 이산 토큰 자기회귀 방식과 강화학습 기반 미세 조정을 통해, 160M 파라미터의 경량 모델로도 자율주행 계획 분야에서 최첨단 성능을 달성한 DAP 를 제안합니다.
5032 편의 논문
이 논문은 BEV 시맨틱과 자차 궤적을 동시에 예측하는 이산 토큰 자기회귀 방식과 강화학습 기반 미세 조정을 통해, 160M 파라미터의 경량 모델로도 자율주행 계획 분야에서 최첨단 성능을 달성한 DAP 를 제안합니다.
이 논문은 실제 임상 환경에서 흔히 발생하는 MRI 모달리티 결손 문제를 해결하기 위해, 계층적 자기 증류와 점진적 모달리티 조합 증류 전략을 도입한 교차 모달 구성 자기 증류 (CCSD) 프레임워크를 제안하여 뇌종양 분할의 성능과 일반화 능력을 크게 향상시켰음을 보여줍니다.
이 논문은 멀티모달 KV 캐시의 주파수 영역 에너지 분포와 이상치 (Outlier) KV 를 분석하여, 기존 방법의 한계를 극복하고 FlashAttention 과 호환되면서도 메모리 사용량을 80% 줄이고 디코딩 속도를 1.69 배 향상시키는 'FlashCache'라는 새로운 압축 프레임워크를 제안합니다.
이 논문은 긴 시간 간격의 행동 인식을 위해 상태 공간 모델의 장점을 활용하면서 시간적 맥락 소실과 전역 시각적 맥락 모델링 문제를 해결하는 새로운 원스텝 TAD 모델인 MambaTAD 를 제안하고, 대각선-마스크 양방향 상태 공간 모듈과 전역 특징 융합 헤드를 통해 다양한 벤치마크에서 우수한 성능을 입증했습니다.
이 논문은 3D 가우스 스플래팅을 활용해 한 팔이 최적의 시점을 찾아 3D 모델을 구축하고 다른 팔이 이를 기반으로 행동을 수행하는 'ObAct'라는 새로운 능동적 비전 모방 학습 프레임워크를 제안하며, 이를 통해 가려짐이 없는 학습 분포에 가까운 관측을 확보하여 기존 정적 카메라 설정보다 훨씬 강력한 양손 로봇 정책을 구현함을 보여줍니다.
이 논문은 3D 가우스 스플래팅 기반의 모노큘러 3D 헤드 아바타 재구성에서 기존 방법의 한계를 극복하기 위해 UV 적응형 소프트 바인딩 프레임워크와 시간적 밀도 제어 전략을 도입하여, 특히 자주 가려지는 영역과 미세한 디테일을 포함한 고품질 재구성을 가능하게 하는 STAvatar 를 제안합니다.
이 논문은 다양한 시나리오에서 수집된 80 만 개 이상의 레이더 - 캡션 쌍을 활용하여 구조화된 공간 언어 감독을 통해 레이더 장면 이해를 위한 통합 표현을 학습하는 'RadarVLM' 프레임워크를 제안하고, 이를 통해 기존 CLIP 대비 50% 향상된 F1 점수와 21% 향상된 AP 를 달성하여 언어 기반 공간 추론의 유효성을 입증했습니다.
이 논문은 이미지 영역과 텍스트 구문 간의 모든 가능한 조합을 효율적으로 정렬하여 구성적 의미 이해를 향상시키는 새로운 대비적 사전 학습 프레임워크인 PowerCLIP 을 제안하고, 이를 통해 기존 방법론보다 우수한 제로샷 분류 및 검색 성능을 입증합니다.
이 논문은 확산 모델의 적대적 유도 과정에서 발생하는 분포 왜곡을 경로 공간 KL 발산으로 정량화하고, 생성 모델의 점수 기하학에 수직인 접선 공간으로 적대적 그래디언트를 투영하여 분포를 보존하면서도 분류 성공률을 유지하는 'DPAC'라는 새로운 제어 기법을 제안하고 이론적·실험적으로 검증합니다.
이 논문은 의료용 비전 - 언어 모델의 인종별 진단 정확도 편차를 줄이기 위해, 최대 정확도 격차 손실 함수를 도입한 공정성 인식 LoRA 기법 (FR-LoRA, GR-LoRA, Hybrid-LoRA) 을 제안하고, 1 만 장의 녹내장 안저 이미지 실험을 통해 GR-LoRA 가 전체 정확도를 유지하면서 진단 편차를 69% 감소시켰음을 입증했습니다.
이 논문은 정보 이론적 관점에서 조건부 엔트로피를 최소화하는 '정보의 고유성 (Information Uniqueness)' 개념을 도입하여, 프레임 그룹 융합, 토큰 할당, 공간 동적 압축 모듈을 통해 제한된 계산 예산 하에서도 기존 방법보다 우수한 시각적 토큰 보존 성능을 달성하는 새로운 비디오 압축 프레임워크 'UniComp'를 제안합니다.
이 논문은 구조적 일관성이 필요한 작업에 적합하도록 입력 위상 정보를 보존하고 크기만 무작위화하는 위상 보존 확산 (Phase-Preserving Diffusion, Ï-PD) 을 제안하여, 기존 확산 모델의 아키텍처 변경 없이도 구조 정렬 생성 및 시뮬레이션에서 현실로의 전이 성능을 향상시킵니다.
이 논문은 인간 전문가의 개입이나 추가 학습 없이 대규모 언어 모델 (LLM) 과 진화적 탐색 전략을 활용하여 혼합 정밀도 양자화 (MPQ) 를 위한 최적의 자동 프록시를 발견하는 새로운 프레임워크인 TAP 를 제안하고, 이를 통해 기존 방법들의 한계를 극복하고 최첨단 성능을 달성함을 보여줍니다.
이 논문은 야외 캠퍼스 환경에서 보행자의 시선 주의를 예측하기 위해 메타의 Project Aria 안경을 활용해 수집한 대규모 시선 주석 데이터셋 'EgoCampus'와 이를 기반으로 한 새로운 시선 예측 모델 'EgoCampusNet'을 제안합니다.
이 논문은 전방 시야의 한계를 극복하고 차선 변경 및 보행자 상호작용 등 주변 환경까지 포괄하는 360 도 운전 시선 예측을 위해 대규모 데이터셋 'DriverGaze360' 과 객체 분할을 활용한 'DriverGaze360-Net' 모델을 제안합니다.
이 논문은 Miller 의 법칙과 인간의 문제 해결 패턴에 영감을 받아, 동적 시각 정보 획득과 단계별 추론을 가능하게 하는 'Reason Chunking' 메커니즘을 도입하고 CRUX 데이터셋 및 점진적 학습 전략을 통해 다중 모달 수학 추론 성능을 획기적으로 향상시킨 ViRC 프레임워크를 제안합니다.
본 논문은 방사선 치료 계획에서 장기 의존성을 효과적으로 포착하고 물리적으로 타당한 조도 맵을 생성하기 위해, 두 단계 설계와 물리 기반 손실 함수를 통합한 트랜스포머 기반 프레임워크인 FluenceFormer 를 제안하고, 전립선 IMRT 데이터셋에서 기존 CNN 및 단일 단계 방법보다 우수한 성능을 입증했습니다.
이 논문은 병렬 기울기 평가를 통해 적분 오차를 줄이고, 파라미터 효율적인 강화학습 기반의 정책 최적화를 통해 저지연 환경에서도 고품질 텍스트-이미지 생성을 가능하게 하는 새로운 ODE 솔버인 EPD-Solver 를 제안합니다.
이 논문은 대규모 물리 데이터셋 (PhyVidGen-135K) 구축을 위한 PhyAugPipe 파이프라인과 물리 법칙을 준수하는 비디오 생성을 위한 PhyGDPO 프레임워크를 제안하여, 기존 텍스트 - 비디오 생성 모델의 물리 일관성 문제를 해결하고 물리 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 구조화된 잠재 표현 (SLAT) 을 활용하여 학습 없이도 의미론적 일관성과 시간적 매끄러움을 갖춘 고품질의 3D 모핑을 가능하게 하는 'MorphAny3D' 프레임워크를 제안합니다.