Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models
이 논문은 Classifier-free Guidance 의 한계를 극복하기 위해 모델 자체의 서브네트워크를 활용하는 확률적 블록 드롭핑 기법인 S²-Guidance 를 제안하여, 텍스트-이미지 및 텍스트-비디오 생성 작업에서 기존 방법보다 우수한 성능을 달성함을 보여줍니다.
5474 편의 논문
이 논문은 Classifier-free Guidance 의 한계를 극복하기 위해 모델 자체의 서브네트워크를 활용하는 확률적 블록 드롭핑 기법인 S²-Guidance 를 제안하여, 텍스트-이미지 및 텍스트-비디오 생성 작업에서 기존 방법보다 우수한 성능을 달성함을 보여줍니다.
이 논문은 우주 탐사 플랫폼의 엄격한 전력 및 메모리 제한을 극복하기 위해 양자화 인식 학습을 통한 저정밀도 신경망과 적응형 다중 센서 융합 모듈을 통합한 '적응형 양자화 행성 분화구 탐지 시스템 (AQ-PCDSys)' 아키텍처의 기술적·수학적 타당성을 제시하는 개념 논문입니다.
이 논문은 수술 도구 국소화를 위한 효율적인 골격 포즈 주석을 장려하고 기존 ROBUST-MIS 데이터를 확장하여 포즈 및 인스턴스 분할을 결합한 'ROBUST-MIPS' 데이터셋과 관련 벤치마크, 주석 도구를 공개합니다.
이 논문은 문서 이해를 위한 비전 - 언어 모델의 계산 부하를 줄이기 위해 비텍스트 영역을 제거하고 텍스트 영역의 공간적 일관성을 강화하는 경량 토큰 가지치기 프레임워크를 제안하고, 이를 통해 계산 비용을 크게 절감하면서도 정확도를 유지함을 실험을 통해 입증했습니다.
QDFlow 는 실험 데이터의 한계를 극복하고 머신러닝 모델 개발을 지원하기 위해, 자기 일관성 토머스 - 페르미 솔버와 동적 커패시턴스 모델을 결합하여 현실적인 양자점 장치 물리 시뮬레이션 데이터와 정답 레이블을 생성하는 오픈소스 파이썬 패키지입니다.
이 논문은 의료 영상 분할에서 U-형 네트워크의 고정된 스킵 연결 한계를 극복하기 위해, 추론 중 적응적 특징 정제를 위한 TTT 모듈과 다중 스케일 특징 통합을 위한 DMSK 모듈을 결합한 동적 스킵 연결 (DSC) 블록을 제안하고, 다양한 아키텍처에서 그 유효성을 입증합니다.
본 논문은 embodied intelligence 를 위한 액션 기반 비디오 객체 분할 작업에서 텍스트 프롬프트 및 마스크 주석의 라벨 노이즈 문제를 최초로 다루기 위해 ActiSeg-NL 벤치마크를 구축하고, 병렬 마스크 헤드 메커니즘 (PMHM) 을 포함한 다양한 노이즈 학습 전략의 성능을 분석하여 노이즈 유형별 실패 모드와 강건성 특성을 규명했습니다.
이 논문은 카테고리 수준의 객체 사전 정보와 RGB-D 이미지를 활용하여 1 밀리초 미만의 시간 내에 객체의 모양과 자세를 추정하고 전역 최적성 증명을 제공하는 초고속 국소 솔버를 제안합니다.
이 논문은 표준 JPEG 압축을 통해 RAW 이미지의 저장 효율성을 높이면서도 역변환을 통해 원본을 정밀하게 복원할 수 있는 경량 학습형 어댑터 'RawJPEG Adapter'를 제안합니다.
본 논문은 인간의 라벨링 없이도 임의의 이미지에서 생성된 전략적 게임 환경에서 다중 에이전트 자기 플레이와 반복적 자기 강화 학습을 통해 시각 언어 모델의 자기 진화와 지속적 성능 향상을 실현하는 '비전-제로 (Vision-Zero)' 프레임워크를 제안합니다.
이 논문은 확산 모델의 역과정을 제어 가능한 궤적으로 간주하고 공접 상태 (adjoint states) 를 반복적으로 업데이트하여 보상을 극대화하면서도 원본 이미지의 의미와 충실도를 유지하는 훈련 없는 보상 기반 이미지 편집 프레임워크를 제안합니다.
이 논문은 실행 가능한 도면 프로그램에서 파생된 대규모 데이터셋과 추론 증강 훈련을 통해 차트 및 다이어그램과 같은 구조화된 시각 자료의 생성 및 편집 정확도를 획기적으로 개선한 통합 모델과 평가 벤치마크 (StructBench) 를 제안합니다.
이 논문은 비전 - 언어 모델이 외부 도구를 활용해 정밀한 기하학적 계산을 수행할 수 있도록 하는 TIGeR 프레임워크와 대규모 데이터셋을 제안하여 로봇 조작 작업에서 센티미터 단위의 정밀도를 달성했다고 요약할 수 있습니다.
이 논문은 다국어 멀티모달 데이터의 부족으로 인한 편향을 해결하기 위해 지속적 호몰로지를 기반으로 위상적 정렬 손실 함수를 도입하여 공유 임베딩 공간의 전역 기하학적 구조를 보존하는 'ToMCLIP' 프레임워크를 제안하고, 이를 통해 다국어 표현의 구조적 일관성과 제로샷 성능을 향상시켰음을 보여줍니다.
이 논문은 주석 데이터가 부족한 시각적 추론 도메인 (예: 차트, 문서, 웹페이지) 에서 소량의 시드 질문을 원시적 요소로 분해하고 재조합하여 대규모 합성 데이터를 생성하고, 이를 통해 다중 모달 대규모 언어 모델의 일반화 추론 능력을 향상시키는 'COGS'프레임워크를 제안합니다.
이 논문은 Mahalanobis 기반 OOD 탐지 성능이 특징 공간의 기하학적 특성 (클래스 내 스펙트럼 구조 및 국소 내재 차원) 에 크게 의존함을 규명하고, 이를 기반으로 특징의 반지름을 조절하는 방사 스케일링 정규화 기법을 제안하여 기존 방법보다 우수한 성능을 달성함을 보여줍니다.
이 논문은 다중 참조 이미지 기반의 일관된 비디오 생성을 위해 고품질 데이터 파이프라인과 참조 회전 위치 인코딩 (R-RoPE) 을 도입한 오픈 소스 모델 'Kaleido'를 제안하며, 기존 방법보다 뛰어난 일관성과 충실도를 입증합니다.
이 논문은 의료 영상 해석 가능한 진단을 위해 개념 주석 없이 클래스 수준의 사전 지식을 활용하여 개념 예측을 가능하게 하는 약지도 프레임워크인 'Prior-guided Concept Predictor(PCP)'를 제안하고, 이를 통해 제로샷 베이스라인 대비 개념 예측 성능을 크게 향상시키면서도 완전 지도 개념 병목 모델과 경쟁력 있는 분류 성능을 달성함을 보여줍니다.
이 논문은 기하학적 정확도와 외관 표현을 동시에 최적화하기 위해 텍스처 가이드 가우시안-메쉬 공동 최적화 프레임워크를 제안하여, 고품질 3D 재구성을 통해 조명 변경 및 형태 변형과 같은 하류 편집 작업을 원활하게 수행할 수 있도록 합니다.
이 논문은 극한 환경에서 RGB 와 이벤트 데이터의 이질성으로 인한 분할 성능 저하를 해결하기 위해, 양 모달리티의 에지 정보를 활용한 잠재적 재코딩과 불확실성 최적화를 통해 강인한 융합을 이루는 '에지 인식 의미적 조화 (ESC)' 프레임워크를 제안하고 있습니다.