SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking
이 논문은 기존 SNN 기반 추적기의 효율성과 정확도 간의 트레이드오프를 해결하기 위해 비대칭 시간 단계 확장 및 단방향 정보 흐름을 활용한 'SpikeTrack'을 제안하여, RGB 객체 추적에서 최첨단 성능을 달성하면서도 TransT 대비 1/26 의 에너지만 소모하는 에너지 효율적인 프레임워크를 제시합니다.
7539 편의 논문
이 논문은 기존 SNN 기반 추적기의 효율성과 정확도 간의 트레이드오프를 해결하기 위해 비대칭 시간 단계 확장 및 단방향 정보 흐름을 활용한 'SpikeTrack'을 제안하여, RGB 객체 추적에서 최첨단 성능을 달성하면서도 TransT 대비 1/26 의 에너지만 소모하는 에너지 효율적인 프레임워크를 제시합니다.
이 논문은 단일 샷에 국한된 기존 평가의 한계를 극복하기 위해 계층적 스크립트와 참조 이미지를 포함한 최초의 종합적인 멀티샷 비디오 생성 벤치마크인 'MSVBench'를 제안하고, 대규모 멀티모달 모델과 전문가 모델을 결합한 하이브리드 평가 프레임워크를 통해 인간 수준의 평가 신뢰성을 확보함과 동시에 이를 학습 신호로 활용하여 상업적 모델과 견줄 만한 성능을 달성함을 보여줍니다.
이 논문은 스마트폰 사진 촬영 시 전문가 수준의 미적 피드백과 구도 최적화를 가능하게 하는 최초의 대규모 데이터셋 'AesGuide'와 이를 기반으로 한 두 단계 프레임워크 'Venus'를 제안하여, 기존 멀티모달 대규모 언어 모델의 미적 안내 및 자르기 성능을 획기적으로 개선했습니다.
이 논문은 MRI 기반의 생체 표지자 구조를 음성 데이터에 전이하여 뇌 영상 없이도 알츠하이머병의 초기 선별을 가능하게 하는 'MINT'라는 다중 모달 지식 전이 프레임워크를 제안하고 그 유효성을 입증합니다.
이 논문은 기존 마스킹 이미지 생성 모델의 계산 비효율성을 해결하기 위해 이전 특징과 샘플링된 토큰을 모두 활용하여 특징 진화의 평균 속도장을 학습하는 경량 모델 'MIGM-Shortcut'을 제안함으로써, 품질 저하 없이 텍스트-이미지 생성 속도를 4 배 이상 가속화한다고 설명합니다.
이 논문은 당뇨병성 망막병증 (DR) 의 연속적인 진행 특성을 반영하기 위해 질병 단계를 이산적 클래스가 아닌 스칼라 값으로 표현하는 순서형 잠재 확산 모델을 제안하여, 기존 조건부 확산 모델보다 더 현실적인 안저 이미지를 생성하고 임상적 일관성을 향상시켰음을 보여줍니다.
이 논문은 희소 자동 인코더 (SAE) 를 활용하여 비전 - 언어 모델 (VLM) 의 사회적 편향을 유발하는 뉴런을 해석 가능하게 식별하고 비활성화함으로써, 모델의 의미적 지식 저하 없이 사회적 공정성을 확보하는 'DeBiasLens'라는 새로운 프레임워크를 제안합니다.
이 논문은 희소한 저해상도 다중 뷰 이미지로부터 고해상도 3D 가우스 스플래팅을 직접 예측하는 피드포워드 프레임워크인 SR3R 을 제안하여, 기존 방법의 한계를 극복하고 새로운 장면에 대한 강력한 제로샷 일반화 성능을 달성함을 보여줍니다.
이 논문은 사전 학습된 멀티모달 LLM 의 잠재 표현 매니폴드를 능동적으로 조정하고 수정하여 비디오 이상 탐지 성능을 극대화하는 'SteerVAD'라는 새로운 개입 프레임워크를 제안하며, 기존 튜닝 없는 방법론의 한계를 극복하고 소량의 데이터만으로 최첨단 성능을 달성함을 보여줍니다.
이 논문은 복잡한 장면에서도 정확한 위험 감지와 일관된 안전 신호 유지를 위해 최적 수송 기반 검출 및 교차 모드 주의력 보정 전략을 결합한 훈련 불필요한 안전 정렬 프레임워크 'GuardAlign'을 제안하여 멀티모달 대형 언어 모델의 안전성을 크게 향상시킨다고 요약할 수 있습니다.
본 논문은 기존 방법의 한계를 극복하기 위해 훈련 없이 시각 토큰의 중복성을 줄이고 최적의 패치를 선택적으로 강화하는 '적응형 시각 강화 (AIR)' 프레임워크를 제안하여 멀티모달 대규모 언어 모델의 환각 현상을 효과적으로 완화함을 보여줍니다.
이 논문은 단일 이미지와 비디오로부터 고충실도 3D 의류 재구성을 위해 2D UV 공간에서 학습된 생성 확산 모델과 Implicit Sewing Patterns 를 결합하고, 시공간 확산 기법과 테스트 시간 가이드를 통해 일관된 동적 재구성을 가능하게 하는 통합 프레임워크를 제안합니다.
이 논문은 비전 - 언어 모델의 양자화에서 입력 토큰별 중요 채널 분포의 차이를 고려하여 공유 및 라우팅 전문가 (Mixture of Experts) 를 활용한 토큰 인지형 적응적 오차 보상 기법인 'Quant Experts'를 제안하고, 다양한 모델 규모에서 전체 정밀도 수준의 성능을 유지하며 정확도를 향상시킨다고 설명합니다.
이 논문은 비전-언어 모델이 생성한 방사선 보고서의 논리적 일관성을 보장하기 위해, 자유 텍스트를 구조화된 명제로 자동 형식화하고 SMT 솔버를 활용해 임상적 추론의 오류를 검증하는 신경기호적 검증 프레임워크를 제안합니다.
이 논문은 RAG 시스템에서 복잡한 시각 문서 처리 시 발생하는 과도한 컨텍스트와 할루시네이션 문제를 해결하기 위해, 문서 레이아웃을 분석하여 필요한 영역만 동적으로 추출하는 새로운 패러다임인 AgenticOCR 을 제안합니다.
이 논문은 재구성 품질에 기반한 적응형 가지치기 전략과 양음 밀도를 동시에 모델링하는 3D 차분 가우시안 원리를 도입하여, 3D 가우시안 스플래팅의 모델 크기를 최대 90% 줄이면서도 시각적 품질을 유지하거나 향상시키는 효율적인 방법을 제안합니다.
이 논문은 대규모 사전 학습 없이도 비디오에서 생성된 텍스트 정보를 시각적 특징과 결합한 다중 모달 최적 수송 기법 (TASOT) 을 통해 수술 로봇의 비지도 시간적 분할 성능을 획기적으로 향상시키는 방법을 제안합니다.
이 논문은 단일 입력 이미지로부터 기하학적 일관성을 유지하며 신원 정보를 보존하는 360 도 회전 영상을 생성하는 비디오 확산 모델 'HumanOrbit'을 제안하고, 이를 통해 기존 방법보다 완성도와 충실도가 높은 3D 텍스처 메시를 재구성하는 파이프라인을 소개합니다.
RAViT 는 다양한 해상도의 이미지를 처리하는 다중 분기 구조와 조기 종료 메커니즘을 도입하여 비전 트랜스포머의 계산 비용을 약 70% 로 줄이면서도 기존 모델과 동등한 정확도를 달성하는 새로운 이미지 분류 프레임워크입니다.
이 논문은 고차원 이미지의 속성 매니폴드를 고려하여 픽셀의 공간적 배치와 속성 간 추상화를 일치시키는 초픽셀 계층 구조를 제안함으로써, 이미지 공간과 속성 공간 모두에서 일관된 고차원 이미지 탐색을 가능하게 합니다.