sim2art: Accurate Articulated Object Modeling from a Single Video using Synthetic Training Data Only
이 논문은 단일 비디오만으로도 합성 데이터만으로 학습된 시뮬레이션 기반 프레임워크 'sim2art'를 통해 관절형 물체의 3D 부분 분할 및 조인트 파라미터를 정확하게 복원하고, 기존 방법들의 한계를 극복하며 새로운 벤치마크 데이터셋을 제안합니다.
10073 편의 논문
이 논문은 단일 비디오만으로도 합성 데이터만으로 학습된 시뮬레이션 기반 프레임워크 'sim2art'를 통해 관절형 물체의 3D 부분 분할 및 조인트 파라미터를 정확하게 복원하고, 기존 방법들의 한계를 극복하며 새로운 벤치마크 데이터셋을 제안합니다.
이 논문은 고해상도 RGB 센서와 보조 저해상도 다중분광 센서의 데이터를 단일 모델에서 통합하여 종단간 색상 보정을 수행하는 학습 기반 프레임워크를 제안함으로써 기존 방법 대비 최대 50% 의 색상 정확도 향상을 달성함을 보여줍니다.
이 논문은 360 도 장면의 복잡한 3D 재구성에서 기존 방법의 색상 평균화 문제를 해결하고, 서브장면 분할과 다중 뷰 확산 모델을 결합한 '로컬 - 글로벌' 접근법을 통해 일관성 있고 다양한 색상을 보존하는 LoGoColor 를 제안합니다.
Flowception 은 프레임 삽입과 연속적인 프레임 제거 노이즈를 교차하여 학습하는 비자율적 가변 길이 비디오 생성 프레임워크로, 장기적 맥락 처리 효율성과 학습 비용 절감을 통해 기존 방법보다 우수한 성능을 달성하며 이미지-비디오 생성과 비디오 보간 등 다양한 작업을 통합합니다.
이 논문은 가변성 있는 보로노이 표면 메쉬를 학습하여 3D 형상 복원 시 표면의 매끄러움과 기하학적 규칙성을 향상시키는 미분 가능 프레임워크인 'VoroLight'를 제안합니다.
이 논문은 단일 뷰 사전 지식과 확산 기반 추정기를 활용하여 일관성이 부족한 다중 뷰 예측을 통합하고, 역 경로 추적을 통해 고품질의 물리 기반 재료를 재구성하는 '본질적 이미지 융합 (Intrinsic Image Fusion)' 방법을 제안합니다.
이 논문은 생성된 이미지의 검출 일반화 성능을 향상시키기 위해 인과 추론 원리를 활용하여 작업 관련 인과적 특징과 무관한 특징을 분리하고 필터링하는 'CausalCLIP' 프레임워크를 제안합니다.
이 논문은 비전 - 언어 모델의 적대적 공격을 탐지하고 적응하기 위해 추론 시 패딩을 활용한 경량 방어 프레임워크인 TTP 를 제안하며, 기존 방법들의 한계를 극복하고 적대적 견고성과 깨끗한 정확도를 동시에 향상시킵니다.
정보 이론에 기반한 InfoTok 은 비디오의 정보 밀도에 따라 토큰을 적응적으로 할당하여 기존 고정 압축 방식의 한계를 극복하고, 성능 저하 없이 토큰 수를 20% 절감하거나 2.3 배의 압축률을 달성하는 새로운 비디오 토크나이저 프레임워크를 제안합니다.
본 논문은 기존 벤치마크의 한계를 지적하고, 구별, 공간, 제한, 거부라는 네 가지 차원에서 MLLM 의 실제 시각적 그라운딩 능력을 평가하는 새로운 벤치마크 'GroundingME'를 제안하며, 이를 통해 현재 모델들의 심각한 성능 격차를 드러내고 개선 방향을 제시합니다.