Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding
이 논문은 비디오 시간적 위치 결정 (VTG) 작업에서 훈련 없이도 쿼리 관련 증거와 프레임 간 연결성을 보존하는 '의미론적 증거 할당' 전략을 통해 토큰 가지치기 효율성을 극대화하는 SemVID 프레임워크를 제안합니다.
4038 편의 논문
이 논문은 비디오 시간적 위치 결정 (VTG) 작업에서 훈련 없이도 쿼리 관련 증거와 프레임 간 연결성을 보존하는 '의미론적 증거 할당' 전략을 통해 토큰 가지치기 효율성을 극대화하는 SemVID 프레임워크를 제안합니다.
이 논문은 고주파수 표현의 한계를 극복하고 심박동 영상 재구성을 위해 가우시안 원시 함수를 복소 지수로 변조하여 임의의 k-공간 위치에 스펙트럼을 배치하는 '가보 원시 함수 (Gabor primitives)'를 제안하며, 이를 통해 압축 센싱 및 기존 신경망 기반 방법보다 우수한 성능과 물리적으로 해석 가능한 매개변수를 제공하는 연속 해상도 재구성을 달성함을 보여줍니다.
이 논문은 고정점 주변의 국소적 시각적 확대와 강체 회전이라는 두 가지 시각적 운동 단서를 기반으로 사전 지식 없이도 실시간으로 3D 공간 지도 작성 및 카메라 방향 추정이 가능한 새로운 기계 지각 함수 'OWL'을 제안합니다.
이 논문은 뇌 MRI 의 진행성 병변을 제거하기 위해 종단적 맥락을 통합하고 3D 해부학적 연속성을 유지하는 새로운 3D 영역 인식 확산 (RAD) 기반 생성 모델을 제안하여, 기존 방법 대비 뛰어난 화질과 시간적 안정성을 확보하면서 처리 속도를 약 10 배 향상시켰다고 요약할 수 있습니다.
이 논문은 문서, 이미지, 비디오 등 4 만 6 천 개 이상의 다중 모달 데이터로 구성된 대규모 검색 공간에서 증거를 찾아 추론하는 능력을 평가하기 위해 'MultiHaystack'이라는 새로운 벤치마크를 제안하고, 기존 모델들이 증거가 주어졌을 때는 잘 수행되지만 실제 검색이 필요한 상황에서는 성능이 급격히 저하됨을 보여줍니다.
이 논문은 시각적 모호성을 극복하고 정밀한 전역 지리 위치 추정을 가능하게 하기 위해, 음향 신호를 의미 있는 '음향 원자'로 분해하고 멀티모달 추론을 결합한 해석 가능한 '오디오비주얼 지리 위치 추정 (AVG)' 프레임워크와 대규모 벤치마크를 제안합니다.
이 논문은 희소하고 불규칙한 깊이 정보를 단일 단계에서 보정하기 위해 사전 학습된 모노큘러 깊이 추정 모델을 스케일 프롬프트로 적응시키는 범용 프레임워크인 'Any2Full'을 제안하며, 기존 방법들보다 뛰어난 정확도와 효율성을 입증합니다.
이 논문은 2D 및 3D DHoGM 특징을 병렬로 통합하고 209 개의 매개변수만으로 구성된 경량 해석 가능한 프레임워크를 제안하여, 다양한 촬영 사이트에서 일반화 성능이 뛰어나고 오탐을 최소화하는 뇌 MRI 운동 아티팩트 자동 검출 솔루션을 제시합니다.
이 논문은 자기지도 학습 비전 트랜스포머를 활용한 자동 파이프라인을 통해 ImageNet 학습 데이터를 단일 레이블에서 다중 레이블로 변환함으로써, 인간 판단과 높은 일치도를 보이며 분류 정확도와 전이 학습 성능을 모두 향상시켰습니다.
이 논문은 CLIP 기반의 멀티모달 프레임워크를 활용하여 수술 영상을 자동으로 분석해 시술 단계와 제스처를 텍스트로 변환하고 구조화된 수술 타임라인 및 내러티브를 생성함으로써, 수의사의 수동 기록이나 주석 작업의 부담을 줄이는 방법을 제안합니다.
이 논문은 기존 학습 기반 비디오 압축 (LVC) 의 한계를 극복하고, 단일 모델로 내부 (intra) 및 외부 (inter) 코딩을 모두 지원하며 참조 프레임의 신뢰도에 따라 적응적으로 작동하는 통합된 방법인 Uni-LVC 를 제안합니다.
이 논문은 고해상도 환경 맵 생성 시 기존 딥러닝 모델의 한계를 극복하고 태양 및 구름 형성을 정밀하게 제어할 수 있는 풀 다이내믹 레인지 (FDR) 기반의 새로운 하늘 모델 '이카루스 (Icarus)'를 제안하여 이미지 기반 조명 (IBL) 의 사실성과 정확도를 혁신적으로 향상시켰음을 보여줍니다.
이 논문은 서로 다른 도메인에서 학습된 모델 간의 서브공간 충돌을 완화하여 도메인 일반화 성능을 향상시키기 위해 주성분 분석을 기반으로 한 공유 직교 기저를 도출하고 대각선 외 성분을 제거하는 'SCORE'라는 새로운 모델 병합 기법을 제안합니다.
이 논문은 데이터 편향 없이 텍스트-이미지 생성에서 정밀한 영역 배치와 가림 순서를 제어할 수 있도록, 초기 잠재 구조를 재배열하고 레이어별 인스턴스 바인딩 및 의미 강화 메커니즘을 도입한 훈련 불필요의 플러그인 방식인 'LayerBind'를 제안합니다.
이 논문은 희소 오토인코더 (SAE) 에서 추출한 시각적 단어의 빈도 분포 특성을 활용하여 BM25 점수 방식을 적용한 'BM25-V'를 제안함으로써, 높은 해석 가능성과 효율성을 유지하면서 밀집형 (dense) 검색에 버금가는 정확도를 달성하는 이미지 검색 파이프라인을 제시합니다.
이 논문은 2D 에서 3D 장면 재구성을 위한 특징 업샘플러의 성능이 공간적 세부 사항 강화보다는 주파수 영역의 구조적 일관성 유지에 더 크게 의존한다는 것을 6 가지 주파수 진단 지표를 통해 규명하고, 이를 바탕으로 업샘플링 전략 설계의 새로운 원칙을 제시합니다.
이 논문은 사전 학습된 비전 트랜스포머와 MaxViT 백본을 활용하여 전역 및 지역 특징을 융합하고 깊이 추정 기반 재순위화를 수행함으로써, 다양한 조명 조건에서 실시간으로 작동하며 로봇 플랫폼에서 검증된 최첨단 이벤트 기반 시각적 장소 인식 방법론인 'EventGeM'을 제안합니다.
이 논문은 추가 학습 없이 비디오 생성 모델의 계산 효율성을 높이기 위해 시간적 중복성을 활용한 잠재 공간 프레임 가지치기와 시각적 아티팩트를 보정하는 어텐션 복구 메커니즘을 제안합니다.
이 논문은 분류 정확도를 유지하면서 모델의 보정 능력과 강건성을 동시에 향상시키기 위해, 로짓 간격 확보와 예측 일관성을 강제하는 새로운 정규화 프레임워크인 '마진 및 일관성 감독 (MaCS)'을 제안합니다.
이 논문은 저조도 노이즈, 모션 블러, 모자이크 아티팩트 등 다양한 열화 조건에서 물리적 일관성을 유지하며 단일 단계로 이미지와 스토크스 영역을 동시에 처리하는 통합 아키텍처를 제안하여 편광 이미징 복원 성능을 획기적으로 향상시켰습니다.