TIPS Over Tricks: Simple Prompts for Effective Zero-shot Anomaly Detection
이 논문은 CLIP 의 한계를 극복하기 위해 공간 인식 목적 함수로 학습된 TIPS 백본을 활용하고, 이미지 수준 및 픽셀 수준 검출을 위해 프롬프트를 분해하여 주입하는 간단한 아키텍처를 제안함으로써 복잡한 보조 모듈 없이도 다양한 산업 데이터셋에서 강력한 제로샷 이상 탐지 성능을 달성함을 보여줍니다.
7816 편의 논문
이 논문은 CLIP 의 한계를 극복하기 위해 공간 인식 목적 함수로 학습된 TIPS 백본을 활용하고, 이미지 수준 및 픽셀 수준 검출을 위해 프롬프트를 분해하여 주입하는 간단한 아키텍처를 제안함으로써 복잡한 보조 모듈 없이도 다양한 산업 데이터셋에서 강력한 제로샷 이상 탐지 성능을 달성함을 보여줍니다.
이 논문은 멀티스케일 오토레거시브 이미지 생성을 위해 균형을 유지하는 점진적 체커보드 순서를 도입하여, 병렬 샘플링과 조건부 의존성 모델링을 동시에 효율적으로 수행하면서도 적은 샘플링 단계로 최첨단 성능을 달성하는 방법을 제시합니다.
이 논문은 시각적 증거를 능동적으로 수집하고 검증하는 에이전트 추론 프레임워크인 V-Retrver 를 제안하여, 기존 언어 중심의 접근법의 한계를 극복하고 범용 멀티모달 검색의 정확성을 크게 향상시켰습니다.
이 연구는 복부 외상 CT 에서 기초 모델이 작업 특이적 모델과 유사한 판별력을 보이지만, 장 손상이 없는 환자군 내의 동시성 장기 손상과 같은 이질적인 음성 클래스에 의해 특이도가 크게 저하됨을 규명하여 임상 적용 전 이러한 교란 요인에 대한 적응이 필요함을 시사합니다.
이 논문은 텐서 분해 기법을 활용하여 여러 철도 건널목의 비디오에서 접근, 대기, 통과 단계별 운전자 행동 패턴을 추출하고, 시간대보다 위치가 행동 양상을 결정하는 더 중요한 요소임을 규명함으로써 표적 안전 개입을 위한 데이터 기반 프레임워크를 제시합니다.
이 논문은 자연어 명령과 환경 이미지를 기반으로 시각 언어 모델의 폐루프 피드백을 통해 특수화된 다중 에이전트 (Decomposer, Localizer, Thinker, Reflector 등) 를 조정하여 로봇 조작의 일반화 성능과 성공률을 향상시키는 'MALLVI' 프레임워크를 제안합니다.
이 논문은 편집된 콘텐츠의 기하학적 추적 가능성을 활용하여 픽셀 좌표 추적 모듈 (PixTrace) 과 겹침 비율을 기반으로 한 기하학적 대비 손실 (CopyNCE) 을 제안함으로써, 기존 시계열 대비 학습의 한계를 극복하고 이미지 복사 탐지 성능과 해석 가능성을 크게 향상시켰습니다.
이 논문은 Diffusion Transformer 기반 이미지 편집에서 기존 키 (Key) 채널 조작만 활용하던 방식을 넘어, 키와 값 (Value) 채널을 동시에 제어하는 '이중 채널 주의 안내 (DCAG)'라는 훈련 없는 프레임워크를 제안하여 편집 정밀도와 충실도 간의 균형을 획기적으로 개선함을 보여줍니다.
이 논문은 계층적 데이터 표현에 유리한 쌍곡 기하학을 활용하기 위해 Busemann 함수를 기반으로 BMLR 과 BFC 레이어를 제안하여 기존 쌍곡 신경망보다 효과적이고 효율적인 성능을 입증했습니다.
이 논문은 3D 기하학적 사전 지식을 텍스트 프롬프트에 통합하고 렌더링 이미지와 깊이 이미지를 병렬로 처리하여 상호 보완적으로 특징을 융합하는 'GS-CLIP' 프레임워크를 제안함으로써, 학습 데이터 없이도 다양한 이상을 정밀하게 탐지하는 제로샷 3D 이상 탐지 성능을 획기적으로 향상시켰습니다.
이 논문은 열적 물리를 고려한 시각 - 언어 프롬프트와 잠재 확산 모델을 결합하여, 시간대나 날씨 등 다양한 조건에서 현실적이고 제어 가능한 가상의 열적외선 이미지를 생성하는 'TherA' 프레임워크를 제안합니다.
이 논문은 희소한 라벨 정보에 의존하는 기존 다중 인스턴스 학습의 한계를 극복하기 위해, 전체 슬라이드 이미지의 패치 간 공간적 의존성을 라벨과 무관한 정규화 신호로 활용하여 구조적 패턴과 지도 신호 간의 일관성을 강제하는 새로운 프레임워크를 제안하고 여러 공개 데이터셋에서 우수한 성능을 입증했습니다.
RAYNOVA 는 강건한 3D 기하학적 사전 지식을 요구하지 않고 상대적 플뤼커 광선 위치 인코딩과 이중 인과적 자기회귀 프레임워크를 통해 다양한 카메라 설정과 자차 운동에 일반화되는 고품질 다중 뷰 주행 시나리오 세계 모델을 제안합니다.
이 논문은 짧은 영상 데이터로만 학습된 모델이 긴 영상에 대한 오디오 생성도 가능하도록 하는 계층적 구조와 비인과적 Mamba 를 활용한 MMHNet 을 제안하여, 기존 방법들의 한계를 극복하고 5 분 이상의 장시간 영상-오디오 생성 성능을 획기적으로 향상시켰습니다.
이 논문은 DDIM 샘플링을 통해 추론 시간을 100 배 단축하고 가우시안 혼합 모델을 적용하여 효율성과 다중 모드 예측 능력을 모두 향상시킨 cVMDx 라는 새로운 확산 기반 고속도로 궤적 예측 프레임워크를 제안하고 highD 데이터셋에서 그 우수성을 입증합니다.
이 논문은 기존 연구와 달리 인코더-디코더 아키텍처가 계산 효율성 측면에서 최적일 수 있음을 증명하고, 이를 기반으로 한 '확장 가능한 뷰 합성 모델 (SVSM)'이 이전 최첨단 모델보다 훨씬 적은 학습 비용으로 더 높은 성능을 달성함을 보여줍니다.
이 논문은 T1 가중 및 T2-FLAIR MRI 를 입력으로 활용하고 상대적 적대적 손실 함수를 도입하여 기존 방법보다 더 정교하고 사실적인 다중 추적자 PET 영상을 생성하는 'RelA-Diffusion' 프레임워크를 제안합니다.
이 논문은 수술실 (OR) 의 일상적 및 희귀 안전 관련 이벤트를 기하학적 추상 표현을 기반으로 제어 가능하게 합성하는 비디오 확산 프레임워크를 제안하여, 데이터 부족 문제를 해결하고 안전 임계 이벤트 감지를 위한 인공지능 모델 개발을 지원함을 보여줍니다.
본 논문은 CLIP 과 같은 시맨틱 - 언어 모델의 미세 조정을 위해 수백만 개의 파라미터를 필요로 하는 기존 방법의 비효율성을 해결하고, 저랭크 분해를 활용한 MMLoP 프레임워크를 제안하여 1 만 1 천 5 백 개의 파라미터만으로도 최첨단 성능을 달성하고 과적합을 방지하며 교차 모달 정렬을 강화하는 효율적인 적응 방식을 제시합니다.
이 논문은 비전 - 언어 모델 (VLM) 의 제로샷 능력을 활용하여 특정 작업별 지도 학습 없이도 다양한 액션 레이블을 처리할 수 있는 오픈-어휘 제로샷 시계열 액션 분할 (OVTAS) 을 위한 훈련 없는 파이프라인을 제안하고, 14 가지 모델에 대한 체계적 분석을 통해 그 유효성을 입증합니다.