UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking
이 논문은 시각적 객체 추적의 계산 비용을 줄이면서도 정확도를 유지하기 위해 검색 영역, 동적 템플릿, 정적 템플릿을 통합적으로 압축하는 새로운 단일 토큰 가지치기 프레임워크인 UTPTrack 을 제안하고, 다양한 벤치마크에서 기존 방법보다 뛰어난 성능과 효율성을 입증합니다.
7529 편의 논문
이 논문은 시각적 객체 추적의 계산 비용을 줄이면서도 정확도를 유지하기 위해 검색 영역, 동적 템플릿, 정적 템플릿을 통합적으로 압축하는 새로운 단일 토큰 가지치기 프레임워크인 UTPTrack 을 제안하고, 다양한 벤치마크에서 기존 방법보다 뛰어난 성능과 효율성을 입증합니다.
이 논문은 언어, 음성, 동작, 비디오 생성을 단일 상호작용 루프에서 실시간으로 통합하고, 교차 모달 동기화 및 추론 능력 보존을 위한 새로운 프레임워크를 도입하여 자연스러운 대화형 에이전트 구현을 가능하게 하는 'U-Mind'를 제안합니다.
이 논문은 -VAE 를 활용한 연속적인 일본어 문자 형태 변형을 통해 인간과 비전 - 언어 모델 (VLM) 의 모호한 문자 인식 결정 경계를 비교 분석하여, 형태만으로는 두 주체의 판단 패턴이 상이함을 확인하고 문맥 정보가 인간과의 정렬을 개선할 수 있음을 규명했습니다.
이 논문은 임상 데이터의 선택 편향으로 인한 편향을 제거하고 진단 신뢰도를 높이기 위해, 구조적 인과 모델과 정보 병목 제약을 활용하여 병리학적 특징과 환경적 교란 요소를 비지도 방식으로 분리하고 인과적 개입을 수행하는 'CausalProto'라는 새로운 무감독 인과 프로토타입 네트워크를 제안합니다.
이 논문은 저해상도 메쉬만 렌더링하되, 이미지 공간에서 신경망을 활용해 법선 차이를 기반으로 윤곽선을 변형하고 텍스처를 재배치하여 기하학적 테셀레이션과 유사한 시각적 효과를 실시간으로 구현하는 'Neural Image-Space Tessellation(NIST)'이라는 새로운 포스트프로세싱 기법을 제안합니다.
본 논문은 수동 주석, 사전 학습된 분할 모델, 후처리 없이 원본 이미지만으로 전방위 객체를 분할하는 완전 자기지도 학습 프레임워크 'Selfment'를 제안하며, 이를 통해 기존 비지도 방법보다 뛰어난 성능을 달성하고 완전 지도 학습 방법과 경쟁할 수 있는 제로샷 일반화 능력을 입증했습니다.
이 논문은 광학 설계의 비볼록 최적화 문제를 해결하기 위해 전문 지식이 없는 사용자도 렌즈 시스템을 설계할 수 있도록 도메인 특화 데이터셋, 하이브리드 학습 목표, 물리 법칙 기반의 보상 메커니즘을 활용한 LLM 기반 자동 광학 설계 프레임워크 'OPTIAGENT'를 제안하고 그 우수성을 입증합니다.
이 논문은 접촉식 센서의 부작용을 피하기 위해 신생아의 얼굴 영상만으로 심박수와 말초 산소 포화도 (SpO2) 를 정밀하게 추정하는 'VideoPulse' 데이터셋 및 엔드 투 엔드 파이프라인을 제안하고, 이를 통해 저비용 비접촉식 신생아 중환자실 모니터링의 가능성을 입증했습니다.
이 논문은 사전 학습된 비전 기반 모델 (DINOv3) 을 3D 어댑터 및 멀티스케일 어그리게이터와 결합하여 소량의 데이터로도 도메인 간 전이 성능이 뛰어난 강건한 혈관 분할을 가능하게 하는 새로운 프레임워크를 제안하고, TopCoW 및 로잔 데이터셋에서 기존 최첨단 방법론보다 월등히 우수한 성능을 입증했습니다.
이 논문은 형광 현미경의 염색체 특성에 따른 초점 품질 평가를 위해 새로운 데이터셋 'FluoMix'와 염색 정보를 고려한 CLIP 기반의 'FluoCLIP' 프레임워크를 제안하여, 기존 염색 무관 접근법의 한계를 극복하고 다양한 조건에서 강력한 일반화 성능을 달성함을 보여줍니다.
이 논문은 다중 모달 대형 언어 모델의 감정 추론 능력을 향상시키기 위해 구조화된 감정 사고와 반성적 감정 보상을 도입한 'EMO-R3'라는 반성적 강화 학습 프레임워크를 제안하고, 이를 통해 모델의 해석 가능성과 감정 지능을 크게 개선했다고 요약할 수 있습니다.
이 논문은 제한된 장거리 문맥 모델링과 낮은 대비 조건에서의 구조적 식별 문제를 해결하기 위해, 선형 시간 깊이 상태 공간 모델링과 기하학적 인식을 활용한 어텐션 메커니즘을 통합한 경량 프레임워크인 BiM-GeoAttn-Net 을 제안하여 3D 대동맥 박리 CTA 분할의 정확도와 효율성을 크게 향상시켰음을 보여줍니다.
이 논문은 하류 데이터의 주석 없이도 사전 훈련된 지각 모듈을 재학습하지 않고, 개인화된 VLM 기반 에이전트가 스칼라 지각 피드백을 통해 유익한 시점을 탐색하도록 함으로써 새로운 환경에서의 비지도 크로스 도메인 지각 성능을 획기적으로 개선하는 'Sea²' 프레임워크를 제안합니다.
이 논문은 단일 RGB 이미지에서 3D 기하학적 기초 모델을 활용하여 3D 장면의 진화를 예측하고 이를 행동 생성에 통합함으로써, 기존 2D 기반 또는 명시적 포인트 클라우드 방법에 비해 양손 조작의 성공률과 공간 이해도를 획기적으로 향상시키는 새로운 프레임워크를 제안합니다.
이 논문은 과거 데이터를 저장하지 않고도 조직병리 슬라이드 이미지에서 보고서를 생성하는 과정에서 발생하는 catastrophic forgetting 문제를 해결하기 위해, frozen patch-embedding 공간에 구축된 컴팩트한 '발자국 (footprint)'을 활용하여 가상의 슬라이드 표현과 스타일 지시자를 통해 새로운 도메인에 적응하는 새로운 continual learning 프레임워크를 제안합니다.
이 논문은 복잡한 SAR 영상 환경에서 잡음 제거, PPA 어텐션 기반의 특징 추출 강화, 그리고 NWD 기반의 가우시안 유사도 손실 도입을 통해 YOLOv8 기반의 CPN-YOLO 모델을 제안하여 선박 탐지 성능을 획기적으로 개선한 연구입니다.
이 논문은 DICOM 메타데이터의 불완전성과 이미지 데이터의 이질성을 해결하기 위해 교차 주의 메커니즘과 학습 가능한 사전 기반 인코딩을 결합한 엔드 - 투 - 엔드 멀티모달 프레임워크를 제안하여, 다양한 평가 환경에서 기존 방법들보다 뛰어난 DICOM 시리즈 분류 성능을 입증했습니다.
이 논문은 제한된 학습 데이터로 인해 기존 방법들이 편광 특성 복원에 어려움을 겪는 문제를 해결하기 위해, 이미지 확산 사전 지식을 편광 불확실성으로 안내하여 고오류 영역을 정밀하게 복원하는 새로운 확산 기반 컬러 편광 이미지 디모자이킹 모델을 제안합니다.
이 논문은 BERT 와 CLIP 을 활용한 멀티모달 멀티태스크 모델과 의사레이블 기반 데이터 증강 기법을 통해 AI 생성 이미지 탐지 및 생성 모델 식별 성능을 향상시키고, 'CT2' 대회에서 상위권을 차지한 결과를 제시합니다.
이 논문은 SAM 에서 생성된 마스크를 활용한 계층적 어텐션 마스킹과 텍스트 프롬프트 기반 가중치를 적용한 모델 구성 기법을 통해 추가 학습 없이 원격 탐사 데이터에 대한 최첨단 개체별 분할 성능을 달성하는 새로운 방법인 ReSeg-CLIP 을 제안합니다.