Toward Early Quality Assessment of Text-to-Image Diffusion Models
이 논문은 생성 과정 초기 단계의 중간 활성화 값을 분석하여 최종 이미지 품질을 예측하고 불필요한 시드 생성을 조기에 중단함으로써, 텍스트 - 이미지 확산 모델의 샘플링 비용을 60% 이상 절감하면서도 유지된 이미지의 품질을 향상시키는 'Probe-Select'라는 모듈을 제안합니다.
5481 편의 논문
이 논문은 생성 과정 초기 단계의 중간 활성화 값을 분석하여 최종 이미지 품질을 예측하고 불필요한 시드 생성을 조기에 중단함으로써, 텍스트 - 이미지 확산 모델의 샘플링 비용을 60% 이상 절감하면서도 유지된 이미지의 품질을 향상시키는 'Probe-Select'라는 모듈을 제안합니다.
이 논문은 3D 가우스 스플래팅 (3DGS) 을 비지수적 방사 전달 모델로 일반화하여 복잡한 실제 장면에서 오버드로우를 크게 줄이고 렌더링 속도를 최대 4 배까지 향상시키면서도 기존과 유사한 화질을 유지하는 새로운 변형들을 제안합니다.
이 논문은 복잡한 쿼리에 대한 논리적 추론을 위해 생성적 추론과 판별적 표현 학습을 통합하고, 추론 과정을 압축하여 임베딩하는 TRACE 프레임워크와 이를 학습하기 위한 대규모 데이터셋 M-BEIR-CoT 를 제안함으로써 범용 멀티모달 검색의 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.
이 논문은 CLIP 모델의 일반화 능력을 유지하면서 패치별 특성에 맞춰 동적으로 적응하는 MoECLIP 아키텍처를 제안하여, 기존 방법의 패치 무관성 한계를 극복하고 다양한 산업 및 의료 분야에서 제로샷 이상 탐지 성능을 획기적으로 개선했음을 보여줍니다.
이 논문은 저대비 의료 영상 분할에서 스킵 연결을 통한 잡음 전파 문제를 해결하기 위해 디코더 조건부 희소성 제약을 도입하여 노이즈가 있는 특징을 명시적으로 제거하는 'ProSMA-UNet'을 제안하고, 이를 통해 다양한 2D 및 3D 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 오픈 월드 환경에서 세밀한 이미지 분류의 정확성과 구체성을 동시에 향상시키기 위해, 검증 기반의 동적 보상 신호를 도입한 'SpeciaRL'이라는 새로운 구체성 인식 강화 학습 프레임워크를 제안합니다.
이 논문은 10 년간 인공지능의 발전으로 등장한 딥 스케치 기반 3D 모델링 (DS-3DM) 의 최신 동향을 IMO 프레임워크를 기반으로 한 새로운 설계 공간 'MORPHEUS'를 통해 종합적으로 조사하고, 컴퓨터 비전·그래픽스·HCI 간 학제간 연구 기회와 사용자 의도에 부합하는 제어 가능성 및 정보 풍부한 출력의 필요성을 제시합니다.
이 논문은 시각적 데이터셋 대신 중국어와 그리스어의 표의성 (iconicity) 을 가진 수어 데이터를 타겟 언어인 아랍어와 플랑드르어로 전이 학습하여 적용했을 때 각각 7.02% 와 1.07% 의 인식 성능 향상을 확인함으로써 표의성 기반 전이 학습의 유효성을 입증했습니다.
이 논문은 DeepSeek 의 매니폴드 제약 하이퍼커넥션 (mHC) 프레임워크를 기반으로 클러스터링 가이드 Mamba 모듈, 해석 가능한 잔여 행렬 구현, 그리고 물리적으로 의미 있는 스펙트럼 그룹화를 통해 초분광 이미지 분류의 정확성과 해석 가능성을 동시에 향상시킨 mHC-HSI 모델을 제안합니다.
이 논문은 텍스트만 강화학습한 모델이 다중모달 의료 VQA 에서 정확도는 높일 수 있으나 시각적 근거를 무시하는 '단축기'를 활용한다는 사실을 반사적 평가 프레임워크를 통해 규명하고, 단순 정확도 지표가 아닌 시각 의존성을 측정하는 새로운 평가 프로토콜의 필요성을 강조합니다.
이 논문은 실시간 스트리밍 입력에서 저지연 추론과 자발적 응답 결정, 콘텐츠 품질 및 양 제어를 해결하여 인간과 같은 AI 동반자를 구현하는 프로액티브 비디오 LLM 프레임워크 'Proact-VL'과 이를 평가하는 'Live Gaming Benchmark'를 제안합니다.
이 논문은 자율주행 차량의 온라인 HD 맵 구축 시 로컬라이제이션 오차 (위치 및 헤딩 각도) 가 생성된 맵 레이블의 품질과 모델 성능에 미치는 부정적 영향을 분석하고, 거리 기반 평가 지표를 제안하여 오차의 영향이 비선형적으로 증가하며 헤딩 각도 오차가 더 치명적임을 규명했습니다.
이 논문은 기존 비디오 생성 모델의 3D 일관성과 공간 기억 한계를 해결하기 위해 잠재 3D 장면의 진화를 시뮬레이션하여 장기적인 안정성과 3D 공간 기반 정밀 제어를 가능하게 하는 새로운 세계 모델 'PERSIST'를 제안합니다.
본 논문은 비디오 확산 모델에서 물리적으로 일관된 4D 세계 표현을 학습하기 위해 3 단계 훈련 패러다임 (대규모 의사지도 사전 학습, 시뮬레이션 기반 지도 미세 조정, 시뮬레이션 기반 강화 학습) 을 도입하고, 기존 외관 기반 모델보다 정교한 물리 일관성을 달성하는 'Phys4D'를 제안합니다.
본 논문은 Sentinel-1, RCM, AMSR2 데이터를 융합하고 지리적 가중 약지도 학습 손실 함수와 베이지안 고해상도 트랜스포머를 도입하여 200m 해상도의 전 북극 해빙 농도 지도 작성 및 불확실성 정량화를 수행하는 새로운 접근법을 제시합니다.
이 논문은 물리 법칙 위반이 모델의 한계가 아닌 프롬프트의 부족에서 기인한다는 점을 규명하고, 강화 학습 기반의 'PhyPrompt'를 통해 자동화된 프롬프트 정제 과정을 도입하여 7B 파라미터 모델로도 대규모 일반 모델보다 뛰어난 물리적으로 타당한 텍스트-비디오 생성 성능을 달성했음을 제시합니다.
이 논문은 Pinterest 의 추천 및 검색 성능을 향상시키기 위해 대규모 멀티모달 표현 학습 모델인 PinCLIP 을 제안하고, 이를 통해 오프라인 평가에서 기존 최첨단 모델 대비 20% 높은 성능과 온라인 A/B 테스트에서 신규 콘텐츠 및 광고의 참여율 증가 등 실질적인 비즈니스 성과를 입증했습니다.
이 논문은 이미지, 비디오, 3D 데이터 간의 상호 보완적 추론을 가능하게 하는 '교차 비전 시너지 (cross-vision synergy)'를 실현하기 위해, 동적 모달리티 라우터를 활용한 희소 혼합 전문가 아키텍처와 시너지 인식 학습 패러다임을 도입한 통합 대형 비전 모델 'PolyV'를 제안합니다.
이 논문은 내시경 영상의 잡음과 아티팩트로 인한 문제를 해결하고 예측 신뢰도를 정량화하기 위해, 교정된 신뢰도 목표, 신뢰도 인식 손실 함수, 추론 시 신뢰도 예측 헤드를 통합한 새로운 신뢰도 인식 단안 깊이 추정 프레임워크를 제안합니다.
이 논문은 제안된 'L2G-Det' 프레임워크가 템플릿과 쿼리 이미지 간의 밀집 패치 매칭을 통해 객체 제안 (proposal) 없이도 폐색 및 배경 혼잡이 있는 오픈 월드 환경에서 새로운 객체 인스턴스를 정확하게 탐지하고 분할할 수 있음을 보여줍니다.