DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving
이 논문은 자율주행에서 LLM 의 정밀한 수치 추론과 제어 명령 생성의 한계를 극복하기 위해, 숫자를 토큰이 아닌 전용 임베딩으로 매핑하는 새로운 인코딩 방식인 DriveCode 를 제안하고 그 유효성을 입증합니다.
5838 편의 논문
이 논문은 자율주행에서 LLM 의 정밀한 수치 추론과 제어 명령 생성의 한계를 극복하기 위해, 숫자를 토큰이 아닌 전용 임베딩으로 매핑하는 새로운 인코딩 방식인 DriveCode 를 제안하고 그 유효성을 입증합니다.
이 논문은 DrawEduMath 벤치마크를 통해 11 개의 비전 - 언어 모델이 수학 문제 해결 능력은 갖추고 있으나, 학습 부진이 있는 학생의 오류를 식별하고 진단하는 교육적 맥락에서는 성능이 크게 저하된다는 점을 밝혔습니다.
이 논문은 HDR-UGC 비디오의 품질 평가를 위해 대규모 주관적 데이터셋 'Beyond8Bits'를 구축하고, HDR 인지 비전 인코더와 강화학습 기반의 HAPO 프레임워크를 도입한 최초의 멀티모달 대형 언어 모델 'HDR-Q'를 제안하여 기존 SDR 모델의 한계를 극복하고 최첨단 성능을 달성했습니다.
이 논문은 인스턴트-NGP 의 해시 인코딩을 키 제어 방식으로 활용하여 단일 모델 내에 가시 3D 장면을 숨기고, 외부 디코더 없이도 높은 용량과 보안성을 갖춘 새로운 3D 암호화 스테가노그래피 방법인 StegoNGP 를 제안합니다.
이 논문은 대비적 포워드-포워드 학습에서 양의 쌍 마진 적용 방식인 클램핑이 CIFAR-10 과 같은 특정 데이터셋에서 학습 분산을 크게 증가시키는 원인을 규명하고, 이를 그라디언트 중립적인 뺄셈 방식으로 대체함으로써 평균 정확도 손실 없이 분산 문제를 해결할 수 있음을 보여줍니다.
이 논문은 가우스의 운동과 기하학적 속성을 분리하여 복잡한 비선형 운동을 유연하게 모델링하고 시각적 아티팩트를 줄임으로써 동적 장면의 고충실도 재구성을 가능하게 하는 새로운 4D 가우스 스플래팅 프레임워크인 VeGaS 를 제안합니다.
이 논문은 플로우 매칭 기반의 차세대 이미지 및 비디오 생성 모델에서 원하지 않는 개념을 효과적으로 제거하면서도 생성 품질과 시간적 일관성을 유지하기 위해, 제약 조건이 있는 다목적 최적화와 효율적인 그라디언트 수술 기법을 통합한 'EraseAnything++' 프레임워크를 제안합니다.
이 논문은 3D 의료 분할을 위해 무한한 확장성을 가진 합성 데이터의 이점과 실제 해부학적 구조의 충실도를 결합하여, 단순한 기하학적 도형 대신 탈식별된 마스크와 위상적 제약을 활용한 '해부학적 논리가 반영된 합성 지도 전학습' 프레임워크를 제안하고, 이를 통해 기존 자기지도학습 및 합성 학습 방법보다 우수한 성능을 입증했습니다.
이 논문은 대규모 비전 - 언어 모델의 장거리 비디오 이해를 위해, DINO 임베딩을 활용한 이벤트 기반 계층적 프레임 선택 기법 (EFS) 을 제안하여 기존 평탄한 샘플링 방식의 한계를 극복하고 다양한 벤치마크에서 성능을 크게 향상시켰습니다.
이 논문은 의료 이미지 분석에서 ViT 의 데이터 부족 문제를 해결하기 위해 기존 FDSL 의 한계를 극복하고, 경계 왜곡을 방지하면서 물리 기반의 텍스처를 합성하는 '물리 기반 공간 분리 합성' 프레임워크를 제안하여 BTCV 와 MSD 데이터셋에서 기존 방법보다 우수한 성능을 입증합니다.
이 논문은 원격 탐사 분야에서 단일 모달리티에서 멀티모달리티로 진화하는 기반 모델에 대한 포괄적인 기술 조사를 제공하며, 개념 정의와 필요성, 그리고 초보 연구자를 위한 실용적인 훈련 및 적용 가이드를 다룹니다.
이 논문은 단일 RGB-D 카메라와 비전 기반 모델, 그리고 coarse-to-fine 정제 네트워크를 활용하여 마커 없이도 드립에 강한 고정밀 6 차원 프로브 포즈 추정이 가능한 'MLRecon'을 제안함으로써 저비용 3 차원 초음파 재구성의 새로운 기준을 제시합니다.
이 논문은 사전 훈련된 확산 모델의 확률 밀도 기반 측지선을 활용하여 데이터 간 결정론적 변환을 학습하는 'Probability Density Geodesic Flow Matching'을 제안함으로써, 기존 확산 기반 방법들의 한계를 극복하고 시점 간 일관성과 기하학적 정합성이 뛰어난 새로운 뷰 합성을 가능하게 합니다.
이 논문은 급증하는 차량 수로 인해 교통 관리 및 법 집행 등 다양한 분야에서 그 필요성이 커지고 있는 말레이시아의 차량 번호판 인식 시스템의 구현과 노이즈 제거 기술을 다루고 있습니다.
이 논문은 레이다의 물리적 특성을 기반으로 이방성 확률 모델과 양방향 도메인 어텐션 메커니즘을 도입하여 공간적 불확실성 필드를 학습하고, 모호한 특징-레이블 매핑 문제를 해결하며 잡음을 억제함으로써 저조도 기상 조건에서도 신뢰할 수 있는 공간 감지 및 보정된 불확실성을 제공하는 'RaUF' 프레임워크를 제안합니다.
이 논문은 기존 INR 의 주파수 편향을 해결하기 위해 Fourier-체비셰프 특징을 활용하여 작업 관련 주파수를 효율적으로 선택하고 넓은 주파수 대역을 합성하는 '콘텐츠 인식 주파수 인코딩 (CAFE)' 및 그 확장 버전인 CAFE+ 를 제안하고, 다양한 벤치마크를 통해 기존 방법보다 우수한 성능을 입증합니다.
이 논문은 사전 학습된 비전 - 언어 모델의 의미적 사전 지식을 활용하여 배경 영역의 오탐지를 줄이고 분포 외 (OOD) 장애물 탐지 성능을 향상시키는 'VL-Anomaly'라는 새로운 도로 이상 분할 프레임워크를 제안합니다.
이 논문은 복잡한 조립 환경에서 기존 비전 방법의 한계를 극복하기 위해 전용 센서와 자기 주의 기반 다중 스케일 특징 융합 네트워크인 SMR-Net 을 제안하여 로봇 스냅 조립의 탐지 및 위치 추정 정밀도를 크게 향상시켰음을 보여줍니다.
이 논문은 외부 시각 도구를 활용하여 직관적 관찰에서 미세한 위조 흔적 탐지까지의 추론 과정을 강화하는 'TAR-FAS' 프레임워크를 제안함으로써, 기존 MLLM 기반 얼굴 위조 탐지 방법의 일반화 성능을 획기적으로 개선하고 있습니다.
이 논문은 검색 집중형 멀티모달 QA 데이터 부족, 효과적인 검색 궤적 부재, 온라인 API 비용 문제라는 세 가지 과제를 해결하기 위해 하이퍼그래프 기반 데이터 생성, 도구별 전문가 최적화 및 트리 탐색을 통한 궤적 재구성, 오프라인 검색 엔진 구축이라는 세 가지 전략을 통해 강력한 멀티모달 심층 연구 에이전트 'MM-DeepResearch'를 제안합니다.