Cross-Resolution Distribution Matching for Diffusion Distillation
이 논문은 로그 신호대잡음비 (logSNR) 기반 매핑과 분포 정합을 통해 해상도 간 격차를 해소하고, 예측 노이즈 재주입 메커니즘을 도입하여 고화질 생성을 유지하면서 SDXL 및 Wan2.1-14B 모델에서 최대 33.4 배의 추론 가속화를 이루는 '교차 해상도 분포 정합 증류 (RMD)' 프레임워크를 제안합니다.
4137 편의 논문
이 논문은 로그 신호대잡음비 (logSNR) 기반 매핑과 분포 정합을 통해 해상도 간 격차를 해소하고, 예측 노이즈 재주입 메커니즘을 도입하여 고화질 생성을 유지하면서 SDXL 및 Wan2.1-14B 모델에서 최대 33.4 배의 추론 가속화를 이루는 '교차 해상도 분포 정합 증류 (RMD)' 프레임워크를 제안합니다.
이 논문은 멀티모달 대형 언어 모델 (MLLM) 의 환경 인식 추론 능력을 활용하여 물리적 인과관계를 고려한 비디오 객체 삽입을 가능하게 하는 'Place-it-R1' 프레임워크를 제안합니다.
이 논문은 시공간 색상 혼합 왜곡을 통해 비전 - 언어 모델 (VLM) 이 인간보다 훨씬 취약한 지각적 약점을 보임을 규명하고, 이를 해결하기 위해 인간 중심의 전처리 및 도구 활용 전략의 필요성을 강조합니다.
이 논문은 비소세포폐암 환자의 방사선 치료 중 종양 변화를 예측하기 위해 투여 선량과 임상 변수를 조건으로 하는 가상 치료 (VT) 프레임워크를 제안하고, 확산 기반 모델이 GAN 기반 모델보다 더 안정적이고 해부학적으로 타당한 치료 진행 시나리오를 생성함을 입증했습니다.
이 논문은 다양한 왜곡 유형과 심각도 수준을 포괄하는 벤치마크 'VLM-RobustBench'를 제안하여, 현재 시각 - 언어 모델이 시각적 심각도보다 공간적 왜곡 (예: 리샘플링, 기하학적 변환) 에 훨씬 더 취약함을 규명했습니다.
이 논문은 기존 확산 모델의 추론 향상 기법이 흐름 (flow) 모델에는 적용되지 않는 문제를 해결하기 위해, CFG 증류된 FLUX 와 같은 흐름 모델에 특화된 훈련 없는 '반사적 흐름 샘플링 (Reflective Flow Sampling)' 프레임워크를 제안하여 텍스트 - 이미지 정렬 점수에서 그래디언트 상승을 수행함으로써 생성 품질과 프롬프트 정합성을 동시에 향상시킨다는 내용입니다.
이 논문은 사전 학습된 기초 모델 (foundation models) 을 활용하여 추가적인 학습 없이도 다중 뷰 이미지로부터 의미론적 및 팬옵틱 점유율 (panoptic occupancy) 을 예측하는 'FreeOcc'라는 새로운 파이프라인을 제안하고, 이를 통해 기존 약지도 학습 방법과 견줄 만한 성능을 달성함을 보여줍니다.
이 논문은 제한된 주석 데이터에서도 자연어 기반의 훈련 없는 가짜 라벨 생성과 라벨 정제 기법을 활용하여 유방 초음파 분할 성능을 극대화하는 새로운 반지도 학습 프레임워크를 제안합니다.
이 논문은 3D 포인트 클라우드와 파노라마 이미지를 결합하여 언어 기반의 오픈 보카불러리 시맨틱 분할을 가능하게 하는 JOPP-3D 프레임워크를 제안하고, 기존 최첨단 모델 대비 성능을 크게 향상시켰음을 Stanford-2D-3D-s 및 ToF-360 데이터셋 실험을 통해 입증합니다.
이 논문은 2D 슬라이스 및 3D 볼륨 분석을 통합한 다중 스케일 보상 학습을 통해 강화 학습 (RL) 기반 미세 조정을 수행함으로써, 3D 의료 영상 생성의 품질을 향상시키고 하류 분류 작업에서의 유틸리티를 증대시키는 새로운 방법을 제시합니다.
이 논문은 기존 훈련 없는 확산 분할기들이 강력한 생성 모델의 성능을 충분히 활용하지 못하는 두 가지 한계 (주의 맵의 불일치와 점수 불균형) 를 식별하고, 자동 집계와 픽셀 단위 재조정 기법을 통해 이를 해결하여 분할 성능과 적용 범위를 확장하는 방법을 제안합니다.
이 논문은 인공 알파벳의 레이블된 데이터를 기반으로 한 대비 학습으로 교사를 훈련한 후, 역사적 문자 체계에 대한 비지도 지식 증류를 적용하여 지도 학습과 비지도 발견을 연결하는 2 단계 프레임워크를 제안하여, 진화적 관계에 대한 정답이 없어도 글자 인식과 문자 군집화를 효과적으로 수행할 수 있음을 보여줍니다.
이 논문은 시각적 외형을 배제하고 운동학적 정보만으로 로봇과 인간의 움직임을 구분하는 '모션 튜링 테스트' 프레임워크와 HHMotion 데이터셋을 제안하며, 인간과 유사한 움직임을 자동으로 평가하기 위한 새로운 벤치마크와 모델을 제시합니다.
이 논문은 숙련된 방사선과 전문의의 자문을 바탕으로 임상적 중요도와 환자 안전을 고려한 오류 분류 체계와 가중치 부여 방식을 도입하여, 기존 평가 지표보다 방사선과 전문의의 판단과 더 높은 일치도를 보이는 흉부 X-ray 보고서 생성 평가 프레임워크인 CRIMSON 을 제안하고 검증합니다.
이 논문은 조직학 이미지와 공간 전사체 데이터를 심층적으로 융합하여 다양한 샘플, 플랫폼 및 배치 간에 암 부위를 정확하게 탐지하는 새로운 전이 학습 기반 방법인 SpaCRD 를 제안하고, 23 개의 데이터셋에서 기존 최첨단 방법들보다 우수한 성능을 입증했습니다.
이 논문은 부정확한 언어 입력에도 복잡한 반사를 효과적으로 제거할 수 있도록 필터링 및 최적화 전략을 도입한 '적응형 언어 인식 네트워크 (ALANet)'와 이를 평가하기 위한 새로운 데이터셋을 제안합니다.
이 논문은 프레임 단위 라벨링 없이 단일 프레임만 표기하는 포인트 감독 방식을 도입하여, 멀티모달 스키레톤 데이터와 프로토타입 유사성 기반의 신뢰성 높은 의사레이블 생성 기법을 통해 기존 완전 감독 방식과 경쟁력 있는 성능을 달성하면서도 라벨링 비용을 획기적으로 줄인 새로운 인간 행동 분할 프레임워크를 제안합니다.
이 논문은 비전 기반 모델 (VFM) 의 강력한 3D 기하학적 사전 지식을 계층적 특징 어댑터를 통해 3D 가우스 스플래팅에 통합함으로써 자율주행의 3D 시맨틱 오큐번시 예측 정확도를 획기적으로 향상시킨 VG3S 프레임워크를 제안합니다.
이 논문은 계층적 이벤트 그래프를 기반으로 한 체인 오브 이벤트 (CoE) 프레임워크를 제안하여, 학습 없이도 비디오, 대본, 이미지를 통합해 기존 최첨단 방법보다 뛰어난 성능을 보이는 다중 모달 요약 시스템을 제시합니다.
이 논문은 3D 가우스 스플래팅 (3DGS) 에서 기하학적 정밀도와 렌더링 품질을 향상시키고 가우스 개수 및 학습 시간을 줄이기 위해 고유엔트로피 (Eigenentropy) 기반의 이웃 밀도 최적화 전략인 EntON 을 제안합니다.