Effective and Efficient Masked Image Generation Models
이 논문은 마스킹된 이미지 생성 모델과 마스킹된 확산 모델을 통합한 프레임워크를 제안하여, 적은 계산 비용으로 ImageNet 생성 작업에서 기존 최첨단 모델들을 능가하는 성능을 보이는 새로운 모델 'eMIGM'을 개발했습니다.
5561 편의 논문
이 논문은 마스킹된 이미지 생성 모델과 마스킹된 확산 모델을 통합한 프레임워크를 제안하여, 적은 계산 비용으로 ImageNet 생성 작업에서 기존 최첨단 모델들을 능가하는 성능을 보이는 새로운 모델 'eMIGM'을 개발했습니다.
이 논문은 저작권 침해 및 프라이버시 문제 해결을 위해 확산 모델에서 개념을 효율적으로 제거하면서도 비대상 개념의 생성 품질을 유지하기 위해 영공간을 탐색하고 세 가지 보완 전략을 도입한 'SPEED'라는 새로운 개념 제거 방법을 제안합니다.
이 논문은 의료 영상 분야를 중심으로 기계학습 시스템의 유용성과 공정성 간의 복잡한 트레이드오프를 체계적으로 분석하고 비교할 수 있는 모델 독립적 다목적 평가 프레임워크 'Fairical'을 제안합니다.
이 논문은 입력 이미지의 특정 객체 (타겟) 와 텍스트 프롬프트로 정의된 동작을 기반으로 인간과 객체의 상호작용을 정확하게 생성하는 '타겟 인식 비디오 확산 모델'을 제안하며, 이를 통해 3D 상호작용 모션 합성 및 장기 비디오 콘텐츠 제작 등 다양한 응용 분야에서의 성능을 입증했습니다.
이 논문은 여러 작업 간 간섭을 줄이고 모델 병합 성능을 극대화하기 위해 엔트로피 최소화를 통해 테스트 시간에 작업 벡터의 특이 성분을 적응적으로 가지치기하는 새로운 프레임워크인 AdaRank 를 제안합니다.
이 논문은 다중 모달 대형 언어 모델 (MLLM) 이 추론한 시맨틱 지식을 수학적 기호로 정의된 '분석적 개념 (analytic concepts)'을 통해 물리적으로 구체화하여, 로봇이 다양한 관절형 객체를 일반화되고 정확하게 조작할 수 있도록 하는 새로운 프레임워크를 제안합니다.
이 논문은 SAR 와 광학 이미지 간의 큰 비선형 방사계 차이 문제를 해결하기 위해, 역변환 목적 함수를 도입하여 단일 단계로 이미지 변환을 수행하는 UTGOS-CDM 모델과 다중 스케일 정합 네트워크 (MM-Reg) 를 결합한 OSDM-MReg 프레임워크를 제안하여 기존 방법보다 뛰어난 정합 정확도를 달성함을 보여줍니다.
이 논문은 불균형 데이터를 해결하기 위해 다섯 개의 공개 데이터셋을 통합하고 SMOTE 및 CLAHE 전처리를 적용한 후, VGG19 와 ResNet50V2 의 장점을 결합한 하이브리드 딥러닝 모델 'VR-FuseNet'을 제안하여 당뇨병성 망막병증 분류 정확도를 91.824% 로 높이고 XAI 기법을 통해 임상적 해석 가능성을 확보한 연구입니다.
이 논문은 생태학 및 생물학 분야에서 컴퓨터 비전 모델의 성능을 단순한 머신러닝 지수가 아닌 실제 응용 목적에 부합하는 평가 지표로 측정해야 함을 주장하며, 카메라 트랩과 비둘기 자세 추정 사례를 통해 기존 평가 방식의 한계를 보여줍니다.
이 논문은 Wasserstein 거리가 데이터 분포 간 차이를 정량화할 수 있지만 그 원인을 설명하기 어렵다는 한계를 극복하기 위해, 설명 가능한 AI 기법을 활용하여 해당 거리를 데이터 하위 그룹, 입력 특성 또는 해석 가능한 부분 공간과 같은 구성 요소에 효율적으로 귀속시키는 새로운 방법을 제안합니다.
이 논문은 온라인에서 수집된 대규모 텍스트 - 이미지 데이터의 노이즈 문제를 해결하기 위해, 불확실성을 모델링하는 키 특징 선택기 (KFS) 와 부정적 샘플의 난이도를 동적으로 조절하는 새로운 손실 함수 (DSH-Loss) 를 포함한 DURA 프레임워크를 제안하여 텍스트 기반 인물 검색의 성능과 강건성을 향상시켰습니다.
이 논문은 적대적 전처리를 거친 트랜스포머가 추가적인 적대적 훈련 없이도 다양한 다운스트림 작업에 대해 강건하게 적응할 수 있는 보편적 강건 인-컨텍스트 학습자임을 이론적으로 증명하고, 이를 통해 다운스트림 작업에서 '무료'로 강건성을 확보할 수 있음을 시사합니다.
본 논문은 점구름 완성의 품질을 제한하는 기존 Chamfer Distance 의 한계를 극복하기 위해, 국부 정밀도와 전역 완전성을 분리하여 비대칭 가중치를 적용한 '유연 가중 Chamfer Distance(FCD)'를 제안하고, 이를 통해 점군 응집 현상을 완화하고 전역적 구조 무결성을 크게 향상시킨다는 것을 입증합니다.
이 논문은 사전 수집된 추론 데이터 없이 강화학습만으로 모델이 시각 정보를 전략적으로 활용하는 '이미지 기반 사고' 능력을 자연스럽게 습득하도록 한 DeepEyes 를 제안하며, 이를 통해 일반적 추론 및 시각적 착시 감소 등 다양한 성능 향상을 달성했음을 보여줍니다.
이 논문은 신경망 그라디언트의 NTK 정렬로 인한 저랭크 구조를 활용하여 주성분 분석 (PCA) 을 적용한 새로운 OOD 검출 방법인 GradPCA 를 제안하고, 이를 이론적으로 뒷받침하며 다양한 벤치마크에서 기존 방법보다 일관된 성능을 입증합니다.
이 논문은 커널-값 (KV) 캐시를 최적화하여 시각적 토큰 가중치를 동적으로 재조정함으로써, 별도의 안전 데이터나 이미지 - 텍스트 변환 없이도 멀티모달 재키브 공격을 효과적으로 방어하는 새로운 추론 시 방어 기법인 DTR 을 제안합니다.
이 논문은 오픈소스 LLM 인 DeepSeek-R1 과 비전 언어 모델을 활용하여 시각적 피드백과 사고 연쇄 (CoT) 를 결합한 자기 정제 메커니즘을 통해 훈련 없이 3D 파라메트릭 CAD 모델을 생성하는 'Seek-CAD' 프레임워크와 산업 적용에 적합한 새로운 데이터셋을 제안하고 그 유효성을 입증합니다.
이 논문은 고차원 유클리드 공간에서 각도 비교 및 임계값 판정을 위한 새로운 확률적 커널 함수를 제안하여, 기존 가우시안 분포 기반 접근법보다 이론적·실험적으로 우수하며 HNSW 대비 2.5~3 배 높은 처리량을 달성하는 근사 최인접 이웃 검색 (ANNS) 성능을 입증합니다.
이 논문은 다양한 3D 데이터셋의 이질성을 해결하고 데이터셋 레이블 없이 대규모 통합 학습을 가능하게 하기 위해 희소 활성화 전문가 MLP 와 경량 라우터를 활용한 'Point-MoE' 아키텍처를 제안하여 3D 시맨틱 분할 성능을 획기적으로 개선한 연구입니다.
이 논문은 대규모 흐름 기반 텍스트 - 이미지 모델 (SD 3.5, FLUX.1 등) 에서의 분포 매칭 증류 (DMD) 한계를 해결하기 위해 암시적 분포 정렬 (IDA) 과 내부 세그먼트 가이드 (ISG) 를 제안하여, 증류된 모델 'SenseFlow'가 기존 확산 및 흐름 매칭 모델 모두에서 우수한 성능을 달성함을 보여줍니다.