IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks
이 논문은 프리트레인된 시각 모델의 파라미터를 동결하고 소수만 학습하여 적외선 - 가시광선 융합 작업의 일반화 성능과 계산 효율성을 극대화하는 새로운 파라미터 효율적 전이 학습 방법인 IV-tuning 을 제안하고 있습니다.
7546 편의 논문
이 논문은 프리트레인된 시각 모델의 파라미터를 동결하고 소수만 학습하여 적외선 - 가시광선 융합 작업의 일반화 성능과 계산 효율성을 극대화하는 새로운 파라미터 효율적 전이 학습 방법인 IV-tuning 을 제안하고 있습니다.
이 논문은 짧은 비디오 순간을 정확하게 탐지하기 위해 프론트그라운드/배그라운드 혼합 증강 기법인 MomentMix 와 길이 예측을 개선하는 Length-Aware Decoder 를 제안하여, 기존 DETR 기반 모델의 성능을 크게 향상시킨 MomentMix Augmentation 과 Length-Aware DETR 을 소개합니다.
이 논문은 웹 비디오에서 단안 영상을 이용해 인간과 장면의 접촉 제약을 통해 장면 기하학, 카메라 포즈, 인간 운동을 공동 최적화하는 4D 인간 - 장면 재구성 방법인 JOSH 와 이를 기반으로 학습된 효율적인 모델 JOSH3R 을 제안합니다.
이 논문은 확산 모델에 국한되지 않는 비확산 기반 적대적 정제 모델이 데이터 없이도 뛰어난 전이성과 색상 일반화 성능을 발휘하며, CIFAR-10 에서 훈련된 모델이 ImageNet 에서 확산 모델보다 우수한 성능을 보여 적대적 방어에서 확산 모델과 분류기의 관계를 재고해야 함을 주장합니다.
이 논문은 CoT 추론과 자기 일관성 투표 등을 통해 보상 모델을 정교화하고 이를 기반으로 비디오 생성 모델을 반복적으로 최적화하는 'Dual-IPO' 프레임워크를 제안하여, 수동 주석 없이도 텍스트-비디오 생성의 품질과 인간 선호도 정렬을 획기적으로 향상시킨다는 점을 강조합니다.
이 논문은 Diffusion Transformer 의 각 레이어별 제어 정보 관련성을 분석하여 불필요한 파라미터와 연산을 줄이고, 2 차원 셔플 믹서 (TDSM) 를 도입해 PixArt-delta 대비 15% 의 파라미터와 연산량으로 효율적이면서도 우수한 제어 생성 성능을 달성하는 'RelaCtrl' 프레임워크를 제안합니다.
이 논문은 CLIP 모델과 이미지-개념 레이블 없이도 임의의 고정된 시각 분류기를 비지도 방식으로 개념 병목 모델 (CBM) 로 변환하여 기존 CLIP 기반 CBM 보다 뛰어난 성능을 달성하는 새로운 방법론 (U-F-CBM) 을 제안합니다.
이 논문은 2D 비디오 생성과 정적 인식의 한계를 극복하기 위해 외관과 기하학을 통합한 단일 4D 표현을 구축하고, 이중 잠재 공유 (DLS) 및 다중 스케일 잠재 상호작용 (MLI) 메커니즘을 통해 단일 프레임으로부터 기하학적으로 일관된 미래 4D 장면 시퀀스를 생성하는 'UniFuture'를 제안합니다.
이 논문은 컨볼루션 정리에 영감을 받아 게이트 메커니즘을 주파수 관점에서 분석하고, 이를 바탕으로 저주파 편향을 줄이고 다양한 주파수 성분을 효율적으로 활용하는 경량 모델 GmNet 을 제안합니다.
이 논문은 ViT-Linearizer 라는 크로스 아키텍처 증류 프레임워크를 통해 전역 자기주의의 이차적 복잡성을 선형 시간 순환 모델로 효과적으로 이전하여 고해상도 입력 처리 시 속도를 획기적으로 개선하고 Mamba 기반 아키텍처의 성능을 대폭 향상시키는 방법을 제시합니다.
LAMM-ViT 는 얼굴 랜드마크를 기반으로 한 영역 유도 어텐션과 계층별 마스크 변조 모듈을 통합하여 다양한 생성 모델에서 발생하는 구조적 불일치를 포착함으로써, 기존 최첨단 방법보다 뛰어난 일반화 성능을 보이는 AI 합성 얼굴 탐지 모델입니다.
본 논문은 제한된 대역폭 환경에서 반사도 정보를 전송하지 않고도 기하학적 반사도 예측 모듈과 지식 증류 기법을 활용하여 압축된 포인트 클라우드의 3D 객체 탐지 성능과 강인성을 향상시키는 새로운 프레임워크를 제안합니다.
이 논문은 지오메트릭 및 시맨틱 기반 모델을 융합하는 '브리징 게이트'와 어텐션 온도 스케일링 기법을 통해, 적은 학습 비용으로 복잡한 장면에서도 일반화된 단안 깊이 추정을 가능하게 하는 BriGeS 방법을 제안합니다.
이 논문은 계산 자원이 제한된 로봇 환경에서 효율성을 극대화하기 위해, 무작위 그룹 어텐션 전략을 기반으로 한 희소 훈련 비전 기반 세계 모델을 도입하여 추론 속도를 획기적으로 개선하면서도 제어 정확도를 유지하는 '희소 상상 (Sparse Imagination)' 기법을 제안합니다.
이 논문은 단일 방사선 전문의의 입력만으로 방사선 치료 계획 및 반응 평가를 위한 종단적 종양 분할 및 추적 성능을 획기적으로 개선한 새로운 프레임워크 'LinGuinE'를 제안하고, 네 개의 데이터셋을 통해 그 우수성을 입증했습니다.
이 논문은 슈뢰딩거 브리지 기반의 조건부 확산 모델에 인간 피드백을 통합하여 CBCT 에서 MDCT 로의 변환 시 그림자 아티팩트를 효과적으로 억제하면서도 해부학적 정밀도와 선호도 정렬을 동시에 달성하는 새로운 프레임워크를 제안합니다.
이 논문은 의료 영상 분할에서 데이터 부족 문제를 해결하기 위해 데이터 풀링 시 i.i.d. 가정보다 교환성 (exchangeability) 을 가정하고 인과적 프레임워크를 활용해 특징 불일치를 제어함으로써 데이터 추가 딜레마를 극복하고 여러 데이터셋에서 최첨단 성능을 달성하는 방법을 제안합니다.
이 논문은 단일 추론으로 배경과 여러 전경 레이어를 포함한 일관된 레이어화된 비디오를 생성하여 전문 워크플로우를 지원하고, VidLayer 데이터셋과 새로운 아키텍처를 통해 기존 방법보다 뛰어난 화질과 일관성을 달성하는 통합 멀티레이어 비디오 생성 프레임워크인 LayerT2V 를 제안합니다.
이 논문은 고해상도 중간 표현과 명시적 운동 모델링의 계산 복잡성으로 인해 실시간 적용이 어려웠던 기존 오디오 구동 초상화 애니메이션의 한계를 극복하기 위해, 하이브리드 어텐션 메커니즘과 정적 - 동적 학습 - 추론 패러다임을 도입하여 실시간 제약 하에서도 정밀한 오디오 동기화와 높은 시각적 충실도를 달성하는 'RAP' 프레임워크를 제안합니다.
이 논문은 비디오 생성 DiT 모델의 추론 속도와 품질을 동시에 향상시키기 위해 다양한 캐싱 전략 간의 간섭을 분석하고, 상황에 맞는 캐싱 트리거 및 적응형 하이브리드 캐싱 결정 전략을 도입한 'MixCache'라는 훈련 없는 프레임워크를 제안합니다.