Escaping The Big Data Paradigm in Self-Supervised Representation Learning
이 논문은 대규모 데이터와 연산 자원에 의존하지 않고도 소규모 데이터 환경에서 강력한 시각 표현을 학습할 수 있도록, 컨볼루션 인덕티브 바이어를 도입한 SCOTT 토크나이저와 잠잠 공간에서의 MIM-JEPA 학습을 결합한 새로운 자기지도 학습 프레임워크를 제안합니다.
3925 편의 논문
이 논문은 대규모 데이터와 연산 자원에 의존하지 않고도 소규모 데이터 환경에서 강력한 시각 표현을 학습할 수 있도록, 컨볼루션 인덕티브 바이어를 도입한 SCOTT 토크나이저와 잠잠 공간에서의 MIM-JEPA 학습을 결합한 새로운 자기지도 학습 프레임워크를 제안합니다.
이 논문은 해상도 단계별로 트랜스포머 레이어를 점진적으로 추가하고 BridgeFlow 모듈을 통해 연결하는 'NAMI'라는 새로운 아키텍처를 제안하여, 이미지 생성의 추론 속도를 64% 단축하면서도 품질을 유지하는 효율적인 방법을 제시합니다.
이 논문은 외부 학습 데이터 없이도 슬라이스 프로파일 추정, 슬라이스 간격, 도메인 이동 및 임의의 업샘플링 인자를 모두 해결하여 2D MR 볼륨의 이방성 해상도를 향상시키는 자기 초해상도 방법인 ECLARE 를 제안하고, 이를 통해 신호 복원 및 하류 작업에서 기존 방법들을 능가하는 성능을 입증합니다.
이 논문은 디지털 고도 모델, 항공 이미지, 지형 및 수문 벡터 데이터 등을 통합한 AI 준비형 다중 모달 데이터셋 'EarthScape'를 소개하고, 이를 통해 표층 지질 매핑의 효율성을 높이고 다양한 모달리티 융합 및 도메인 적응을 위한 벤치마크를 제공한다고 요약할 수 있습니다.
이 논문은 SSIM, LPIPS, VMAF 등 기존 영상 품질 평가 지표들이 인간의 저수준 시각 (대비 민감도, 마스킹, 매칭 등) 을 얼마나 잘 반영하는지 검증하기 위한 새로운 테스트 프레임워크를 제안하고, 이를 통해 34 개의 지표들의 행동 패턴과 한계를 규명합니다.
이 논문은 비전 - 언어 정보를 객체 중심의 조밀한 볼륨 서브맵에 통합하여 대규모 미지 환경에서도 실시간으로 개방형 어휘 기반의 의미론적 이해와 지ometric 정밀도를 제공하면서 메모리 효율성을 극대화하는 'FindAnything'이라는 로봇 탐사 매핑 프레임워크를 제안합니다.
이 논문은 다층 프롬프트와 듀얼 브랜치 추론 전략을 통해 일반화 능력과 카테고리 특이성을 균형 있게 확보하고, 적응형 텍스트 필터링을 통해 CLIP 기반 제로샷 이상 탐지의 안정성과 신뢰성을 향상시키는 'GenCLIP' 프레임워크를 제안합니다.
이 논문은 이벤트 카메라의 비동기적 특성을 언어 모델링 기법에 빗대어 고안된 EVA 프레임워크를 통해 기존 동기화 방식보다 표현력과 일반화 성능을 극대화하고, 인식 및 검출 태스크에서 새로운 성능 기준을 제시했습니다.
이 논문은 최신 생성 모델로 제작된 고품질 20 만 개 이상의 비디오를 포함한 대규모 데이터셋 'GenBuster-200K'와 다양한 도메인 및 세대 변화를 평가하는 벤치마크 'GenBuster-Bench'를 제시하고, 검출을 시각적 추론 과제로 전환하여 정확성과 설명 가능성을 동시에 향상시킨 강화학습 기반 MLLM 모델 'BusterX'를 개발했습니다.
이 논문은 비디오 생성을 위한 Diffusion Transformer(DiT) 모델의 계산 및 메모리 부담을 해결하기 위해, 별도의 데이터 없이도 4 비트 정량화 (W4A4) 를 통해 화질을 유지하면서 약 2 배의 속도 향상을 가능하게 하는 DVD-Quant 프레임워크를 제안합니다.
이 논문은 사전 학습된 생성 모델을 고품질 학습 데이터 추정기로 활용하여, 소규모지만 고효율인 범용 SFT 데이터셋 'Alchemist'를 구축하고 이를 통해 공개된 텍스트 - 이미지 모델들의 생성 품질을 획기적으로 향상시키는 방법론을 제안합니다.
이 논문은 기존 데이터 증축 방법의 한계를 극복하고 DIV2K 데이터셋을 10% 수준으로 압축하면서도 원본 데이터와 동등한 성능을 내는 이미지 초해상도 전용 인스턴스 데이터 증축 (IDC) 프레임워크를 제안합니다.
본 논문은 시각적으로 유사한 여러 도형 중 정답을 식별하는 미세한 비교 추론 능력을 평가하기 위해 1,800 개의 고등학교 수학 문제를 포함한 'VisioMath' 벤치마크를 제안하고, 현재 LMM 들이 이미지 - 텍스트 정렬 부재로 인해 실패하는 원인을 규명하며 이를 개선하기 위한 정렬 기반 전략들을 제시합니다.
이 논문은 생성된 이미지의 결손 개념을 자동으로 식별하고 원자적 의미 수준에서 프롬프트를 세분화하여 재구성함으로써, 텍스트 - 이미지 모델이 사용자 의도와 높은 의미적 일치를 이루는 고품질 이미지를 생성할 수 있도록 하는 훈련이 불필요한 'VisualPrompter' 프레임워크를 제안합니다.
이 논문은 비전 트랜스포머의 그리드 기반 토큰화 한계를 극복하고, 오라클 가이드 탐색을 통해 이미지의 연속적인 서브픽셀 위치에 토큰을 배치하는 SPoT 기법을 제안하여 추론 시 필요한 토큰 수를 획기적으로 줄이면서도 정확도를 향상시키는 새로운 패러다임을 제시합니다.
이 논문은 다양한 AI 모델과 모달리티 간에 동일한 고수준 개념을 정렬된 단일 잠재 공간으로 학습하여 상호 운용 가능한 해석을 가능하게 하는 SPARC(Sparse Autoencoders for Aligned Representation of Concepts) 프레임워크를 제안합니다.
이 논문은 동적 장면의 시퀀스 이해를 위해 장면을 하나의 압축된 토큰으로 요약하고 힌트 패치를 통해 다음 장면을 예측하는 자기지도 학습 파이프라인인 '토큰 병목 (ToBo)'을 제안하며, 이를 통해 비디오 라벨 전파 및 로봇 조작 등 다양한 시퀀스 작업에서 뛰어난 성능과 실세계 적용 가능성을 입증했습니다.
이 논문은 영화 서사 이론에 영감을 받아 'Temporal Narrative Atom (TNA)' 개념을 도입하고 MLLM 기반 평가 지표를 개발하여, 기존 벤치마크의 한계를 극복하고 장편 비디오 생성 모델의 서사 표현 능력을 종합적으로 평가하는 최초의 벤치마크인 'NarrLV'를 제안합니다.
이 논문은 IoT 기반 표준화 프로토콜로 구축된 64,464 장의 토마토 다각도·다자세 이미지와 정밀 주석을 포함하는 'TomatoMAP' 데이터셋을 소개하고, 이를 활용한 딥러닝 모델이 인간 전문가 수준의 정밀 표현형 분석 성능을 입증함을 보여줍니다.
이 논문은 데이터 부족과 균일한 이상치 가정의 한계를 극복하기 위해 정상과 이상 패턴의 이중 분포를 명시적으로 모델링하고, 도메인 특화 텍스트 조건부 잠재 확산 모델을 활용한 합성 데이터 증강을 통해 산업 표면 결함 검출 성능을 획기적으로 향상시킨 'ExDD' 프레임워크를 제안합니다.