AdaGen: Learning Adaptive Policy for Image Synthesis
본 논문은 기존 이미지 생성 모델의 고정된 단계별 스케줄링 한계를 극복하기 위해 강화학습과 적대적 보상 설계를 도입하여 각 샘플에 맞춰 적응적으로 생성 과정을 최적화하는 'AdaGen' 프레임워크를 제안하고, 다양한 생성 패러다임에서 성능 향상과 추론 비용 절감을 입증합니다.
1896 편의 논문
본 논문은 기존 이미지 생성 모델의 고정된 단계별 스케줄링 한계를 극복하기 위해 강화학습과 적대적 보상 설계를 도입하여 각 샘플에 맞춰 적응적으로 생성 과정을 최적화하는 'AdaGen' 프레임워크를 제안하고, 다양한 생성 패러다임에서 성능 향상과 추론 비용 절감을 입증합니다.
이 논문은 로봇 수술에서 시계열 운동 정보를 활용하고 시각 - 텍스트 정렬을 개선하기 위해 궤적 기반의 결합 임베딩 예측 프레임워크인 TrajPred 를 제안하여, CholecT50 벤치마크에서 수술 도구와 조직 간 상호작용 인식 성능을 향상시켰음을 보여줍니다.
이 논문은 YOLO 기반의 기존 실시간 오픈 보카불러리 객체 탐지 방법의 한계를 극복하고, DEIMv2 프레임워크에 기반한 OV-DEIM 과 GridSynthetic 데이터 증강 기법을 통해 실시간 성능과 희귀 클래스 탐지 정확도를 동시에 향상시킨 새로운 DETR 스타일의 오픈 보카불러리 탐지 모델을 제안합니다.
이 논문은 텍스트-비디오 생성 모델이 프롬프트의 중간 과정을 명시하지 않고 시작과 종료 프레임만 지정할 때 해로운 중간 프레임을 생성하는 시간적 취약점을 발견하고, 이를 활용한 새로운 재일브 공격 기법인 TFM 을 제안하여 기존 필터를 우회하는 효과를 입증했습니다.
이 논문은 거시 표정 데이터의 사전 지식을 활용하고 2D 운동, 얼굴 사전 지식, 3D 기하학적 정보를 통합한 동적 인코딩 모듈과 동적 유도 메시 변형 모듈을 통해, 기존에 탐구되지 않았던 미세 표정의 3D 얼굴 재구성을 정밀하게 수행하는 새로운 방법을 제안합니다.
이 논문은 교차 이미지 어텐션 보정과 선호도 학습 (CAPL) 을 도입하여 다중 이미지 작업에서 발생하는 환각 현상을 완화하고, 모델이 실제 시각적 증거에 기반한 정확한 추론을 하도록 돕는 새로운 프레임워크를 제안합니다.
이 논문은 Diffusion Transformer 의 추론 효율성을 높이면서도 생성 품질을 유지하기 위해, 단계별·레이어별·모듈별 미세 감도 분석을 기반으로 캐싱 및 프루닝 전략을 동적으로 최적화하는 'SODA'라는 새로운 가속화 방법을 제안합니다.
이 논문은 엔도스코프 이미지 생성 시 해부학적 구조를 유지하면서 병변 개념만 정밀하게 변경할 수 있는 훈련 없는 활성화 조종 프레임워크인 'MedSteer'를 제안하고, 이를 통해 기존 방법보다 우수한 반사실적 데이터 생성 및 하류 진단 성능 향상을 입증했습니다.
이 논문은 긴 비디오 이해에서 불확실성 하에 모델의 신뢰성을 평가하기 위해, 답변이 불가능한 경우 정직하게 거절하는 능력을 측정하는 새로운 벤치마크인 VirtueBench 를 제안하고 다양한 비전 - 언어 모델의 신뢰성 부족을 입증합니다.
이 논문은 비전 - 언어 모델 (VLM) 의 시맨틱 사전 지식을 물리적 산란 매개변수와 할루시네이션 신뢰도 지도로 변환하여, 얇은 구름의 보정과 두꺼운 구름의 재구성을 명시적 경계 없이 통합적으로 수행하는 'PhyVLM-CR'이라는 새로운 구름 제거 방법을 제안합니다.
이 논문은 기존 물리 기반 및 학습 기반 방법의 한계를 극복하기 위해 CLIP 모델의 텍스트 시맨틱 정보를 활용한 물리-시맨틱 가이드 underwater 이미지 향상 네트워크 (PSG-UIENet) 와 대규모 멀티모달 데이터셋을 제안하여, 기존 최첨단 방법들보다 우수한 성능을 입증했습니다.
이 논문은 뇌 신호와 시각 모델 간의 정보 불일치를 해결하기 위해 '신경 가시성' 개념을 도입하여 중간 시각 계층을 정렬하고 계층적 보완 융합 (HCF) 프레임워크를 제안함으로써 제로샷 시각 디코딩 성능을 획기적으로 향상시켰습니다.
이 논문은 기존 오디오 - 비주얼 생성 모델의 교차 모달 취약점을 해결하고, 오디오와 비디오 잠재 공간을 암호학적으로 결합하여 스왑 공격에 대한 강력한 방어와 저작권 보호를 제공하는 새로운 워터마킹 프레임워크인 mAVE 를 제안합니다.
이 논문은 화자의 다중 모달 신호를 3D 모달 모델의 표현으로 매핑하는 시맨틱 액션 학습 프레임워크와 인간 피드백 기반 강화 학습을 결합하여, 자연스러운 대화 상호작용에 부합하는 인간 선호도 정렬 얼굴 표정 생성을 가능하게 하는 방법을 제안합니다.
이 논문은 기존 방법들의 한계를 극복하기 위해 멀티모달 대규모 언어 모델을 활용하여 조직병리학적 핵 탐지를 '다음 점 예측' 문제로 재정의하고, 공간 인식 소프트 감독과 강화 학습 기반의 정교한 보상 전략을 통해 탐지 성능을 획기적으로 개선한 'NuNext'를 제안합니다.
이 논문은 기존 자기지도학습의 한계를 극복하고, 손작업 증강이나 보조 디코더 없이 단일 Chest X-ray 이미지를 의미 있는 패치 집합으로 분할하여 상호 일치성을 학습하는 '의미 분할 대비 학습 (S-PCL)'을 제안함으로써, 낮은 계산 비용으로 우수한 성능을 달성하는 효율적인 Chest X-ray 표현 학습 프레임워크를 제시합니다.
이 논문은 생성된 이미지의 텍스트 품질을 인간 평가와 정렬되게 측정하는 새로운 태스크인 TIQA 와 이를 위한 데이터셋, 그리고 OCR 이나 VLM 기반 평가보다 인간 판단과 더 높은 상관관계를 보이는 경량 평가 모델 ANTIQA 를 제안합니다.
이 논문은 실제 다초점 이미지 데이터 없이도 원본 이미지와 저주파 필터링 이미지를 픽셀 단위로 섞어 학습 데이터를 생성하는 '이미지 간 픽셀 셔플링 (IPS)' 기법을 제안하고, 합성곱 신경망과 상태 공간 모델을 결합한 네트워크를 통해 기존 방법보다 우수한 다초점 이미지 융합 성능을 달성함을 보여줍니다.
이 논문은 일반적 시각 인코더의 한계와 언어 선입견에 의한 환각 문제를 해결하기 위해, 전문 지식을 시각적 앵커로 주입하는 'EyExIn' 프레임워크를 제안하여 안과 진단용 대규모 시각-언어 모델의 신뢰성과 정확도를 획기적으로 향상시켰습니다.
이 논문은 추가적인 보조 목표나 주석 없이 기존 VLM 에 경량 스코어와 노이즈 게이트를 결합하여 시각 토큰의 중요도를 학습하고, 추론 시 상위 K 개의 토큰만 선택함으로써 정확도를 유지하면서 LLM 프리필 속도를 2.85 배 가속화하는 'AutoSelect'를 제안합니다.