Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation
이 논문은 확산 기반 데이터 증강 (DiffDA) 방법론을 체계적으로 분석하기 위해 'UniDiffDA'라는 통합 프레임워크를 제안하고, 이를 바탕으로 다양한 저데이터 분류 작업에 대한 공정한 벤치마크 평가와 실용적인 통찰력을 제공합니다.
3919 편의 논문
이 논문은 확산 기반 데이터 증강 (DiffDA) 방법론을 체계적으로 분석하기 위해 'UniDiffDA'라는 통합 프레임워크를 제안하고, 이를 바탕으로 다양한 저데이터 분류 작업에 대한 공정한 벤치마크 평가와 실용적인 통찰력을 제공합니다.
이 논문은 신경 붕괴로 인한 프로토타입 붕괴 문제를 해결하기 위해 스테이펠 기하학 기반의 적응적 매니폴드 프로토타입 (AMP) 프레임워크를 제안하여, 해석 가능한 인식 모델의 정확도와 인과적 충실도를 동시에 향상시킵니다.
이 논문은 뇌종양 환자의 치료 전 MRI 와 방사선 치료 용량 맵을 조건부로 입력받아 정류 흐름 (rectified flow) 기반 AI 모델을 통해 치료 후 뇌 MRI 를 실시간으로 예측하여 치료 계획 최적화와 개인화된 예후 예측을 가능하게 함을 보여줍니다.
이 논문은 이벤트 카메라의 비균일 샘플링 데이터를 처리하기 위해 비균일 이산 푸리에 변환 (NDFT) 을 기반으로 한 '드론 하모닉 지문 (DDHF)'이라는 새로운 분석 기법을 제안하여, 기존 딥러닝 기반 방법보다 높은 정확도와 낮은 지연 시간으로 UAV 를 실시간으로 탐지하는 성과를 보여줍니다.
이 논문은 저밀도 시각 정보 의존성, coarse-grained 특징 처리, 그리고 AU 간 상관관계 무시라는 기존 한계를 극복하기 위해, 다중 세밀도 증거 강화 융합 프로젝터와 관계 인식 AU 그래프 신경망을 통해 구조적 추론을 수행하는 대형 언어 모델 기반의 미세 표정 인식 프레임워크인 AULLM++ 을 제안하고 표준 벤치마크에서 최첨단 성능을 입증합니다.
이 논문은 장기적인 양손 손-물체 상호작용 생성의 안정성과 물리적 타당성을 향상시키기 위해 시간적 관절 계획과 프레임 단위 정제 계층을 분리하고 Mamba 기반 확산 모델을 도입한 StructBiHOI 프레임워크를 제안합니다.
이 논문은 고수준 의미적 행동에 기반한 제어 가능한 장시간 비디오 생성을 위해 계획, 실행, 반성 과정을 폐루프 구조로 통합하여 자기 개선이 가능한 SPIRAL 프레임워크를 제안하고, 이를 통해 기존 오픈루프 모델의 한계를 극복하고 의미 정합성 및 시간적 일관성을 향상시킨다는 점을 다루고 있습니다.
이 논문은 새로운 작업을 학습할 때 필요한 가소성과 기존 지식의 안정성을 균형 있게 유지하면서도 메모리 오버헤드를 73%까지 줄일 수 있도록 모델 용량을 적응적으로 확장하거나 압축하는 'GRACE' 전략을 제안하여 클래스 증분 학습의 성능을 획기적으로 개선합니다.
이 논문은 레이블이 있는 데이터가 부족하고 클래스 분포가 불균형한 실제 시나리오에서 반지도 도메인 일반화 (SSDG) 의 성능을 향상시키기 위해, 학습된 특징과 잠재 라벨 간의 상호 정보를 최대화하는 새로운 목적 함수인 IMaX 를 제안합니다.
이 논문은 현재 비전 - 언어 모델이 시각적 단서 없이 객체를 추적하는 '쉘 게임' 과 같은 작업에서 심각한 한계를 보인다는 점을 지적하고, 이를 해결하기 위해 제안한 '시공간 기반 체인 오브 씽킹 (SGCoT)' 기법을 통해 90% 이상의 정확도로 해당 과제를 성공적으로 수행할 수 있음을 보여줍니다.
이 논문은 사전 훈련된 시선 추정 모델의 구조를 활용하여 소수의 레이블 없는 샘플로만 사용자별 특성에 맞춰 시선을 재가중하는 'Alfa(Attentive Low-Rank Filter Adaptation)'라는 새로운 방법론을 제안하며, 이를 통해 기존 방법들보다 우수한 교차 도메인 성능을 달성하고 비전 분야를 넘어 확산 기반 언어 모델 등 다양한 응용에도 적용 가능함을 보여줍니다.
이 논문은 생성 모델 내부의 오디오 - 비주얼 교차 어텐션 메커니즘을 역추적하여 포렌식 신호를 추출하는 'X-AVDT' 검출기와 새로운 다중 모달 데이터셋 'MMDF'를 제안함으로써, 다양한 생성 모델에 대한 딥페이크 탐지의 강건성과 일반화 성능을 획기적으로 향상시켰습니다.
이 논문은 안전 라벨 없이 위협 관련 이미지를 활용한 중립적 VQA 태스크로 모델을 미세 조정하여, 시각적 노출을 통해 경계와 주의의 암묵적 의미를 내면화시키는 '시각적 자기충족 정렬 (VSFA)' 기법을 제안함으로써 멀티모달 대규모 언어 모델의 안전 정렬을 달성함을 보여줍니다.
이 논문은 기존 3D 가우스 스플래팅의 왜곡 문제를 해결하고 전방향 이미지에서의 기하학적 일관성을 획기적으로 개선하기 위해, 구면 레이 공간에서 직접 샘플링을 수행하는 새로운 프레임워크인 Spherical-GOF 와 OmniRob 데이터셋을 제안합니다.
이 논문은 주변 시야 어안 카메라를 활용한 4D 팬옵틱 점유율 추적을 위한 새로운 벤치마크 'OccTrack360'과 왜곡된 구면 투영 및 볼륨 공간 국소화 문제를 해결하는 'FoSOcc' 프레임워크를 제안합니다.
이 논문은 일관성 모델을 활용하여 물리적으로 일관된 장시간 상호작용을 실시간으로 시뮬레이션할 수 있는 '인터랙티브 월드 시뮬레이터'를 제안하며, 이를 통해 생성된 데이터로 학습된 로봇 정책이 실제 세계와 유사한 성능을 보임으로써 확장 가능한 로봇 데이터 생성 및 정책 평가의 신뢰할 수 있는 대안임을 입증합니다.
이 논문은 드론과 같은 제한된 컴퓨팅 및 메모리 환경을 가진 플랫폼에서 대용량 SAR 데이터를 실시간으로 처리하기 위해, 모든 수신 신호를 저장하지 않고도 희소 코딩을 통해 장면을 점진적으로 재구성하는 '온라인 FISTA' 알고리즘을 제안합니다.
이 논문은 MLP 의 고정된 활성화 함수 한계와 기존 KAN 의 파라미터 폭증 문제를 해결하기 위해, 입력 변환과 출력 활성화를 독립적으로 제어하는 듀얼 스테이지 메커니즘을 도입하여 정확도와 효율성을 동시에 극대화한 'DualFlexKAN'을 제안합니다.
PRISM 은 관절별 잠재 벡터 분해와 잡음 없는 조건 주입 기법을 통해 텍스트, 포즈, 긴 시퀀스 생성 등 다양한 태스크를 단일 모델로 통합하며 기존 방법의 한계를 극복한 스트리밍 인간 모션 생성 프레임워크를 제안합니다.
이 논문은 희소한 병리학자 주석과 지수 이동 평균 기반의 교사 네트워크를 활용하여 점진적으로 가짜 마스크를 정제하는 약지도 교사 - 학생 프레임워크를 제안함으로써, 비용 효율적이고 일반화 가능한 대장암 조직병리선 분할을 가능하게 합니다.