Splat2Real: Novel-view Scaling for Physical AI with 3D Gaussian Splatting
이 논문은 3D 가우스 스플래팅을 활용한 확장 가능한 디지털 트윈 오라클과 CN-Coverage 커리큘럼을 통해 물리적 AI 의 단안 RGB-3D 인식 성능을 향상시키고, 훈련과 배포 간의 시점 변화에 대한 견고성을 확보하는 Splat2Real 프레임워크를 제안합니다.
1863 편의 논문
이 논문은 3D 가우스 스플래팅을 활용한 확장 가능한 디지털 트윈 오라클과 CN-Coverage 커리큘럼을 통해 물리적 AI 의 단안 RGB-3D 인식 성능을 향상시키고, 훈련과 배포 간의 시점 변화에 대한 견고성을 확보하는 Splat2Real 프레임워크를 제안합니다.
이 논문은 복잡한 디코더 없이 마스킹 모델링과 대비 학습을 통합하여 국소적 세부 정보를 포착하고 추론 비용을 기존 MAE 방법 대비 7.89 배 줄이면서도 최첨단 성능을 달성하는 새로운 프레임워크 'SLiM'을 제안합니다.
이 논문은 실제 환경의 교란 조건에서 비디오 추론 모델의 성능 저하를 해결하기 위해, 난이도 인식 온라인 학습 전략과 강인성 인식 일관성 보상을 도입한 새로운 학습 프레임워크 'ROVA'와 이를 평가하기 위한 벤치마크 'PVRBench'를 제안합니다.
이 논문은 NeuCo-Bench 를 활용하여 지구 관측 (EO) 워크플로우에서 GeoFM 기반 임베딩 설계 요소 (백본 아키텍처, 사전 학습 전략, 표현 깊이, 공간 집계, 조합 방식 등) 가 다운스트림 작업 성능에 미치는 영향을 체계적으로 분석하고, 원시 데이터 대비 500 배 이상 작은 고정 크기 임베딩으로도 높은 성능을 달성할 수 있음을 입증합니다.
이 논문은 JPEG XS 의 인트라 패턴 복사 (IPC) 기능을 위한 변위 벡터 검색 모듈의 효율적인 파이프라인 FPGA 아키텍처를 제안하여, 최적화된 메모리 조직을 통해 38.3 Mpixels/s 의 처리량과 277mW 의 저전력 소모를 달성함으로써 실제 하드웨어 배포의 실현 가능성을 입증했습니다.
이 논문은 UniEdit-500K 데이터셋, Mixture of Transformer 모듈, 그리고 Mask Annealing 학습 전략을 통해 기존 방법론의 한계를 극복하고, 불명확한 마스크만으로도 임의의 객체를 정밀하게 편집할 수 있는 통합 인페인팅 프레임워크인 A-Edit 을 제안합니다.
이 논문은 겹치는 비조이뷰 (BEV) 특징 그리드 간의 지리적 일관성을 대비 학습 손실 함수에 통합하여, 라벨이 있는 소량의 데이터와 라벨이 없는 다중 주행 데이터를 활용한 반지도 학습 방식을 통해 온라인 벡터화 HD 맵 구성의 성능을 향상시키는 'MapGCLR' 모델을 제안합니다.
이 논문은 시각 피질의 경계 완성 문제를 수학적으로 모델링하여 개발한 'BorderNet'이라는 CNN 아키텍처가 다양한 데이터셋과 가림 조건에서 기존 모델보다 향상된 성능을 보인다는 것을 증명합니다.
이 논문은 시각 기반 모델의 지적 재산권을 보호하기 위해 입력 이미지의 내부 표현에 무작위 디지털 워터마크를 임베딩하여 모델 소유권을 검증하는 새로운 방법을 제안하고, 이론적·실험적 검증을 통해 그 정확성을 입증합니다.
이 논문은 이산적 토큰화의 정보 손실과 연속적 표현의 학습 불안정성이라는 기존 한계를 극복하기 위해, 압축된 연속적 의미 표현과 주시 기반 압축기를 활용하여 이해와 생성을 모두 최적화하는 통합 멀티모달 모델 'UniCom'을 제안합니다.
이 논문은 보행자 내비게이션을 위해 언어 추론과 분할을 통합하고 깊이 정보를 고려한 새로운 모델 'WalkGPT'와 대규모 벤치마크 'PAVE'를 제안하여, 기존 대형 비전 - 언어 모델의 한계를 극복하고 접근성 가이드의 정확성을 높이는 방법을 제시합니다.
이 논문은 열화상과 가시광선 영상을 활용한 교차 스펙트럼 기반의 CTCNet 모델과 교통 규제 지식을 통합한 새로운 대규모 벤치마크 Traffic-VQA 를 제안하여, 열악한 조명 조건에서도 UAV 를 통한 정교한 교통 장면 이해 및 위반 행위 감지를 가능하게 합니다.
이 논문은 해양 환경이 아닌 표준화된 조건에서 촬영된 7 종의 연골어류 이미지를 포함하며, 종 수준의 분류 및 생물다양성 모니터링을 위한 AI 시스템 개발을 지원하기 위해 공개된 'eLasmobranc' 데이터셋을 소개합니다.
이 논문은 Diffusion Transformer 의 추론 속도를 높이기 위해 기존 방법들이 간과한 공간적 중복성을 활용하여, 추가 학습 없이 어노커 토큰의 부분 집합을 기반으로 잠재 상태 진화를 가속화하는 'Just-in-Time (JiT)' 프레임워크를 제안하고 FLUX.1-dev 모델에서 기존 방법보다 뛰어난 성능과 7 배의 속도 향상을 입증합니다.
이 논문은 단일 회전 광원과 이벤트 카메라를 활용하여 보정 없이도 고역동 범위 및 강한 환경광 조건에서 기존 방법보다 정밀도가 향상된 표면 법선 벡터를 추정하는 경량 퍼픽셀 학습 기반의 이벤트 기반 광학 스테레오 시스템을 제안합니다.
이 논문은 MLLM 의 STEM 시각 추론 한계가 추론이 아닌 지각 능력에 기인한다는 통찰을 바탕으로, 실행 가능한 코드를 지각 매체로 활용하여 대규모 데이터셋 (ICC-1M) 과 평가 벤치마크 (STEM2Code-Eval) 를 구축함으로써 시각 지각 능력을 체계적으로 향상시키는 'CodePercept' 프레임워크를 제안합니다.
이 논문은 기존 Classifier-Free Guidance 의 한계를 극복하기 위해 null 프롬프트 대신 의미적으로 부분적으로 훼손된 조건을 사용하여 미세한 의미적 구분을 유도하는 새로운 '조건 열화 안내 (CDG)' 방식을 제안하고, 이를 통해 다양한 확산 모델에서 구성 정확도와 텍스트 - 이미지 정합성을 획기적으로 개선함을 보여줍니다.
이 논문은 비전 언어 모델의 얕은 계층에서 직접 스칼라 활성화 값을 추출하여 '슈퍼 뉴런'을 식별함으로써, 추가 학습 없이도 분류 성능을 향상시키고 최대 5.10 배의 속도 향상을 이루는 새로운 효율적 접근법을 제안합니다.
이 논문은 투명한 유리 실험기구 내의 약한 경계와 광학적 왜곡을 극복하기 위해 국소 - 전역 어텐션과 직사각형 자기 보정 모듈을 결합한 LGA-RCM-YOLO 모델을 제안하고, 이를 통해 화학 실험의 상 인터페이스를 실시간으로 정밀하게 분할하여 실험실 자동화를 위한 시각 센서로 활용 가능함을 입증합니다.
이 논문은 플로우 매칭 프레임워크 하의 최적화 동역학을 이차 형식으로 분석하여 데이터 상호작용 행렬을 규명하고, 이를 기반으로 그래디언트 충돌을 완화하는 '의미적 세분성 정렬 (SGA)' 기법을 제안하여 텍스트-이미지 생성의 수렴 속도와 구조적 완성도를 동시에 향상시킨다는 내용을 담고 있습니다.