CausalCLIP: Causally-Informed Feature Disentanglement and Filtering for Generalizable Detection of Generated Images
이 논문은 생성된 이미지의 검출 일반화 성능을 향상시키기 위해 인과 추론 원리를 활용하여 작업 관련 인과적 특징과 무관한 특징을 분리하고 필터링하는 'CausalCLIP' 프레임워크를 제안합니다.
10077 편의 논문
이 논문은 생성된 이미지의 검출 일반화 성능을 향상시키기 위해 인과 추론 원리를 활용하여 작업 관련 인과적 특징과 무관한 특징을 분리하고 필터링하는 'CausalCLIP' 프레임워크를 제안합니다.
이 논문은 비전 - 언어 모델의 적대적 공격을 탐지하고 적응하기 위해 추론 시 패딩을 활용한 경량 방어 프레임워크인 TTP 를 제안하며, 기존 방법들의 한계를 극복하고 적대적 견고성과 깨끗한 정확도를 동시에 향상시킵니다.
정보 이론에 기반한 InfoTok 은 비디오의 정보 밀도에 따라 토큰을 적응적으로 할당하여 기존 고정 압축 방식의 한계를 극복하고, 성능 저하 없이 토큰 수를 20% 절감하거나 2.3 배의 압축률을 달성하는 새로운 비디오 토크나이저 프레임워크를 제안합니다.
본 논문은 기존 벤치마크의 한계를 지적하고, 구별, 공간, 제한, 거부라는 네 가지 차원에서 MLLM 의 실제 시각적 그라운딩 능력을 평가하는 새로운 벤치마크 'GroundingME'를 제안하며, 이를 통해 현재 모델들의 심각한 성능 격차를 드러내고 개선 방향을 제시합니다.
이 논문은 3D 편집과 2D 시각 데이터를 연결하는 'Real2Edit2Real' 프레임워크를 제안하여, 소량의 원본 데모만으로도 로봇 조작 태스크의 공간적 일반화 능력을 크게 향상시키는 고품질 데모 데이터를 생성하고 학습 효율성을 10~50 배까지 개선하는 방법을 제시합니다.
이 논문은 제한된 데이터와 자원 환경에서 실시간 수술 장면 분할을 가능하게 하기 위해, MAE 기반의 스파이크 정보 사전 학습과 멀티 스펙트럼 지식 증류 기술을 적용한 최초의 스파이크 기반 비디오 트랜스포머 'SpikeSurgSeg'를 제안하며, 기존 ANN 모델과 유사한 정확도를 유지하면서 추론 속도를 최대 20 배 이상 향상시킵니다.
이 논문은 시각적 편향을 극복하고 시퀀스 의존성을 활용하여 장편 비디오를 의미 있는 장면으로 분할하는 최초의 미세 조정된 비전 - 언어 모델 프레임워크인 'Scene-VLM'을 제안하며, 다중 모달 추론과 설명 가능한 논리를 통해 기존 방법론보다 뛰어난 성능을 달성함을 보여줍니다.
이 논문은 비전 - 언어 모델이 물리적 역학과 인간 의도 추론에서 인간 성능에 크게 미치지 못하는 '목적 - 공간적 추론 격차'를 확인했으며, 이를 평가하기 위해 대규모 실세계 비디오 데이터셋인 EscherVerse 를 제안하고 목적 지향적 공간 추론의 중요성을 강조합니다.
이 논문은 원격 탐사 이미지에서 의미 분할을 위해 적은 양의 사전 학습 데이터로도 기존 방법보다 빠른 수렴과 동등하거나 더 나은 성능을 달성하는 새로운 자기지도 학습 과제인 '서브이미지 중첩 예측 (Subimage Overlap Prediction)'을 제안합니다.
이 논문은 인간의 시각 지각을 모방한 계층적 coarse-to-fine 전략, 멀티모달 LLM 기반 전역 평가, 지역 인식 및 작업 인식 파이프라인, 그리고 내부 단서 재사용 메커니즘을 통해 기존 모든-하나 이미지 복원 방법의 한계를 극복하고 다양한 합성 및 실제 데이터셋에서 우수한 성능을 보이는 ClearAIR 프레임워크를 제안합니다.