DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning
이 논문은 사전 수집된 추론 데이터 없이 강화학습만으로 모델이 시각 정보를 전략적으로 활용하는 '이미지 기반 사고' 능력을 자연스럽게 습득하도록 한 DeepEyes 를 제안하며, 이를 통해 일반적 추론 및 시각적 착시 감소 등 다양한 성능 향상을 달성했음을 보여줍니다.
5768 편의 논문
이 논문은 사전 수집된 추론 데이터 없이 강화학습만으로 모델이 시각 정보를 전략적으로 활용하는 '이미지 기반 사고' 능력을 자연스럽게 습득하도록 한 DeepEyes 를 제안하며, 이를 통해 일반적 추론 및 시각적 착시 감소 등 다양한 성능 향상을 달성했음을 보여줍니다.
이 논문은 신경망 그라디언트의 NTK 정렬로 인한 저랭크 구조를 활용하여 주성분 분석 (PCA) 을 적용한 새로운 OOD 검출 방법인 GradPCA 를 제안하고, 이를 이론적으로 뒷받침하며 다양한 벤치마크에서 기존 방법보다 일관된 성능을 입증합니다.
이 논문은 커널-값 (KV) 캐시를 최적화하여 시각적 토큰 가중치를 동적으로 재조정함으로써, 별도의 안전 데이터나 이미지 - 텍스트 변환 없이도 멀티모달 재키브 공격을 효과적으로 방어하는 새로운 추론 시 방어 기법인 DTR 을 제안합니다.
이 논문은 오픈소스 LLM 인 DeepSeek-R1 과 비전 언어 모델을 활용하여 시각적 피드백과 사고 연쇄 (CoT) 를 결합한 자기 정제 메커니즘을 통해 훈련 없이 3D 파라메트릭 CAD 모델을 생성하는 'Seek-CAD' 프레임워크와 산업 적용에 적합한 새로운 데이터셋을 제안하고 그 유효성을 입증합니다.
이 논문은 고차원 유클리드 공간에서 각도 비교 및 임계값 판정을 위한 새로운 확률적 커널 함수를 제안하여, 기존 가우시안 분포 기반 접근법보다 이론적·실험적으로 우수하며 HNSW 대비 2.5~3 배 높은 처리량을 달성하는 근사 최인접 이웃 검색 (ANNS) 성능을 입증합니다.
이 논문은 다양한 3D 데이터셋의 이질성을 해결하고 데이터셋 레이블 없이 대규모 통합 학습을 가능하게 하기 위해 희소 활성화 전문가 MLP 와 경량 라우터를 활용한 'Point-MoE' 아키텍처를 제안하여 3D 시맨틱 분할 성능을 획기적으로 개선한 연구입니다.
이 논문은 대규모 흐름 기반 텍스트 - 이미지 모델 (SD 3.5, FLUX.1 등) 에서의 분포 매칭 증류 (DMD) 한계를 해결하기 위해 암시적 분포 정렬 (IDA) 과 내부 세그먼트 가이드 (ISG) 를 제안하여, 증류된 모델 'SenseFlow'가 기존 확산 및 흐름 매칭 모델 모두에서 우수한 성능을 달성함을 보여줍니다.
이 논문은 다양한 스푸핑 공격 유형을 포괄하는 대규모 시각 - 언어 질문 답변 데이터셋 'FaceCoT'와 강화학습 기반 캡션 모델 및 CoT 기반 점진적 학습 전략을 도입하여, 기존 단일 모달리티 기반의 한계를 극복하고 얼굴 생체 인증 위조 탐지 (FAS) 의 일반화 성능과 해석 가능성을 획기적으로 향상시켰습니다.
이 논문은 인지심리학에 기반하여 동적 추론, 복잡한 공간 논리, 공간 상호작용, 시점 전환 등 50 개의 세부 범주로 구성된 포괄적인 벤치마크 'OmniSpatial'을 제안하고, 현재 시각 - 언어 모델들의 공간 추론 한계를 규명하며 이를 개선하기 위한 두 가지 전략을 제시합니다.
이 논문은 중간 텍스트를 거치지 않고 수어 비디오에서 직접 음성을 생성하는 최초의 통합 프레임워크인 UniCUE 와 대규모 중국어 수어 데이터셋 UniCUE-HI 를 제안하여 청각 장애인을 위한 수어-음성 변환의 성능을 획기적으로 개선했습니다.
이 논문은 폐쇄적 가정을 가진 기존 모델의 한계를 극복하고 아프리카 빅파이브 야생동물의 분포 외 (OOD) 검출 성능을 향상시키기 위해 사전 학습된 특징을 활용한 NCM 과 대비 학습 기반 접근법의 우수성을 입증했습니다.
이 논문은 대규모 멀티모달 모델의 소수 샷 시각적 질문 응답 (VQA) 성능을 향상시키기 위해, 태스크 관련 시각적 특징에서 추출된 소프트 프롬프트를 메타 학습 방식으로 증류하고 테스트 시 적응하는 '메타 적응형 프롬프트 증류' 방법을 제안하며, 이를 통해 기존 인-컨텍스트 학습 및 파라미터 효율적 파인튜닝 기법보다 우수한 성능을 입증했습니다.
이 논문은 엣지 로봇 플랫폼에서 메모리 사용량을 11 배, 지연 시간을 4.4 배 줄이면서도 풀 정밀도 모델과 유사한 성능을 내기 위해 1 비트 가중치를 사용하는 'BitVLA'라는 새로운 비전 - 언어 - 행동 모델을 제안합니다.
이 논문은 자기지도 학습을 통해 관절형 물체의 기하학적 구조와 운동학을 동시에 인코딩하는 새로운 프레임워크 PDGS 를 제안하고, 이를 통해 매끄러운 연속 제어와 정밀한 부분 단위 분리가 가능하며, 이를 검증하기 위해 실사 - 시뮬레이션 RGB-D 데이터셋 RS-Art 을 공개한 연구입니다.
이 논문은 테스트 시간 적응을 통해 비전 - 언어 모델의 일반화 및 시간적 추론 능력을 향상시킨 제로샷 가치 함수 학습 방법인 VITA 를 제안하고, 이를 통해 다양한 과업과 환경에서 기존 최첨단 기법보다 우수한 성능을 입증합니다.
이 논문은 비디오 데이터를 활용하여 컨텍스트 기반 이미지 편집을 직접 학습할 수 있는 확장 가능한 방법론인 VINCIE 를 제안하고, 블록-인과적 확산 트랜스포머와 새로운 벤치마크를 통해 기존 전문가 모델에 의존하지 않는 최첨단 성능을 입증합니다.
이 논문은 기존 벤치마크가 간과해 온 신경망 이미지 압축 (NIC) 의 적대적 취약성을 평가하기 위해 다양한 공격과 방어 전략, 그리고 하류 작업 영향 분석을 포함하는 오픈소스 프레임워크인 'NIC-RobustBench'를 제안하고 이를 활용한 포괄적인 실증 연구를 수행했습니다.
이 논문은 기존 Few-Shot Class-Incremental Learning 의 지식 충돌 문제를 해결하기 위해 해마의 연관 기억에서 영감을 받아 특징과 구조의 이중 일관성을 기반으로 한 ConCM 프레임워크를 제안하고, 이를 통해 대규모 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 텍스트 신호에 의존하는 기존 시각 토큰 축소 방식의 한계를 지적하고, 시각적 주의 메커니즘만을 활용하여 학습 없이도 계산 효율성을 크게 높이면서도 성능을 유지하는 'VisionDrop' 프레임워크를 제안합니다.
이 논문은 13 억 개의 파라미터만으로도 다양한 작업과 모달리티를 통합적으로 처리하면서도 추론 속도와 계산 비용을 획기적으로 개선한 효율적인 인간 애니메이션 프레임워크 'EchoMimicV3'를 제안합니다.