GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction
이 논문은 3D 가우스 스플래팅을 기반으로 반사 표면에서도 높은 정밀도의 메쉬 재구성을 가능하게 하는 재료 인식 최적화 프레임워크인 GS-2M 을 제안하며, 외부 모델 의존 없이 다중 뷰 광도 변이를 활용한 거칠기 감독 전략을 통해 신경망 구성 요소를 제거하고 고품질 삼각 메쉬를 생성합니다.
2790 편의 논문
이 논문은 3D 가우스 스플래팅을 기반으로 반사 표면에서도 높은 정밀도의 메쉬 재구성을 가능하게 하는 재료 인식 최적화 프레임워크인 GS-2M 을 제안하며, 외부 모델 의존 없이 다중 뷰 광도 변이를 활용한 거칠기 감독 전략을 통해 신경망 구성 요소를 제거하고 고품질 삼각 메쉬를 생성합니다.
이 논문은 비전 기반 모델 (VFMs) 을 강력한 교사 모델로 활용하여 자기 학습 패러다임 내에서 도메인 적응형 멀티 태스크 밀도 예측을 수행하는 효율적인 프레임워크인 FAMDA 를 제안하며, 이를 통해 로봇 공학 응용 분야에서 최첨단 성능을 달성하면서도 경량화된 모델을 구현합니다.
이 논문은 양자화 및 어텐션 희소화 기법을 통합하여 비디오 생성 모델의 계산 비용과 메모리 사용량을 획기적으로 줄이면서도 성능 저하를 최소화하는 'QuantSparse' 프레임워크를 제안합니다.
이 논문은 텍스트, 음악, 이전 모션 등 다양한 입력에 기반하여 두 사람의 상호작용적이고 반응적인 3D 모션을 생성하는 최초의 통합 프레임워크인 DualFlow 를 제안하며, 정렬 흐름 (Rectified Flow) 과 검색 증강 생성 (RAG) 기법을 활용하여 추론 속도를 높이고 의미적 정합성 및 동기화를 개선한 것을 보여줍니다.
본 논문은 혈역학의 나비에-스토크스 방정식에서 유도된 물리 기반의 제 2 차 동적 시스템을 바탕으로, 제로 FLOPs 축 스와퍼, 적응형 공간 필터, 게이트형 TCN 을 결합한 경량 모델 PHASE-Net 을 제안하여 헤드 모션과 조명 변화 하에서도 높은 정확도와 효율성을 갖춘 원격 광용적맥파 (rPPG) 측정 솔루션을 제시합니다.
이 논문은 안과 질환의 조기 진단과 편향 평가를 지원하기 위해 12 가지 질환과 5 가지 영상 모달리티를 아우르는 대규모 멀티모달 데이터셋 LMOD+ 와 24 개의 최신 멀티모달 대규모 언어 모델에 대한 체계적인 벤치마크 평가를 제시합니다.
이 논문은 오토레거시 비디오 확산 모델에서 발생하는 잠재 공간의 분포 편차와 맥락 간섭 문제를 해결하기 위해, 학습 없이도 사용자가 언제든지 원하는 대상을 자유롭게 변형하고 조작할 수 있는 'DragStream'이라는 새로운 스트리밍 드래그 기반 비디오 조작 프레임워크를 제안합니다.
이 논문은 강화 학습 기반의 자기회귀 (AR) 모델인 AR-Drag 을 제안하여, 기존 양방향 확산 모델의 지연 문제를 해결하고 저지연으로 정밀한 모션 제어가 가능한 고품질 실시간 이미지-동영상 생성을 실현했습니다.
본 논문은 2018 년부터 2025 년까지 뇌 영상 분야에서 라벨 없이 병변을 탐지하기 위해 적용된 비지도 딥 생성 모델 연구 33 건을 체계적으로 검토하여, 이러한 방법론의 잠재력과 방법론적 이질성 및 외부 검증 부족과 같은 한계점을 종합적으로 분석했습니다.
이 논문은 오디오-비주얼 세분화 작업에서 발생하는 다중 모달 의미 드리프트와 공발생 혼란 문제를 해결하기 위해 충돌 기반 다중 모달 리허설 (CMR) 프레임워크를 제안하고, 이를 통해 기존 단일 모달 방법보다 우수한 성능을 입증합니다.
본 논문은 자율주행의 하류 인식 작업 성능 향상을 위해 3D 어셋 렌더링과 세계 모델 미세 조정을 결합한 새로운 합성 데이터 생성 프레임워크인 Dream4Drive 와 대규모 3D 자산 데이터셋을 제안하여, 기존 방법론의 한계를 극복하고 다양한 훈련 조건에서 인식 모델의 성능을 효과적으로 개선함을 보여줍니다.
이 논문은 다양한 동적 장면에서 3D 가우시안 스플래팅의 성능을 향상시키기 위해 볼륨 인식 픽셀 라우터를 통해 이질적인 변형 사전 지식을 통합한 'MoE-GS'를 제안하고, 효율성 저하를 완화하기 위한 최적화 기법과 증류 전략을 함께 제시합니다.
본 논문은 다양한 데이터 밀도와 분포 외 (OOD) 데이터에 대한 일반화 문제를 해결하기 위해 범용 컨텍스트 모델과 인스턴스 적응형 미세 조정 (IAFT) 전략을 도입한 범용 포인트 클라우드 압축 프레임워크 'AnyPcc'를 제안하여, 기존 방법들의 한계를 극복하고 새로운 최첨단 성능을 달성함을 보여줍니다.
이 논문은 가려짐 문제를 해결하기 위해 로봇 팔을 이용한 능동적 교반 시스템과 적응형 제어 알고리즘을 도입하여 물 함정 내 해충 개체 수를 정확하게 계수하는 자동화 방법을 제안합니다.
이 논문은 DINOv2 기반의 비지도 시각 표현을 활용하여 객체 범주에 구애받지 않는 시각적 반복과 구조 학습을 통해 객체 수를 추정하는 'CountFormer' 프레임워크를 제안하고, FSC-147 벤치마크에서 경쟁력 있는 성능을 보이며 표현의 질이 표본 없는 객체 수 세기에서 중요한 역할을 함을 입증합니다.
이 논문은 다양한 클립 간의 구조적 일관성과 시각적 연속성을 유지하며 미세 조정 없이도 자연스러운 비디오 전환을 생성하는 제로샷 방법인 SAGE(Structure-Aware Generative vidEo transitions) 를 제안하고, 기존 기법들보다 우수한 성능을 입증합니다.
이 논문은 생성형 AI 가 만든 이미지를 탐지하기 위해 이미지가 확산 모델에 의해 재구성될 때 나타나는 '확산 복귀 (diffusion snap-back)' 현상을 분석하여, 기존 방법보다 훨씬 높은 정확도로 합성 미디어를 식별하는 새로운 포렌식 접근법을 제시합니다.
이 논문은 인간 멘토의 논문을 기반으로 가설 수립, 실험, 논문 작성까지 수행하는 자율 AI 시스템 'Jr. AI Scientist'를 개발하고, 기존 자동화 시스템보다 높은 평가 점수를 얻은 성과를 입증하는 동시에 현재 시스템의 한계와 잠재적 위험을 종합적으로 분석하여 AI 과학 연구의 신뢰성과 지속 가능성을 위한 통찰을 제공합니다.
이 논문은 가우시안 스플래팅 (GS) 기반 3D 재구성의 품질 평가 문제를 해결하기 위해 인간 시각 행동을 모방한 다중 거리 주관적 평가 방법을 제안하고, 입력 데이터의 다양한 불확실성을 고려한 새로운 데이터셋 (MUGSQA) 과 재구성 방법의 견고성 및 기존 평가 지표 성능을 검증하는 벤치마크를 구축했습니다.
이 논문은 가려진 객체의 특징을 텍스트 및 시각적 단서를 통해 계층적으로 재구성하고 주의 공간 일관성을 강제하는 'CountOCC' 프레임워크를 제안하여, 기존 방법론이 실패하는 가려짐 환경에서도 최첨단 성능을 보이는 개방형 전경 객체 계수 문제를 해결합니다.