Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment
이 논문은 실제 배포 환경에서 정답 레이블 없이도 객체 탐지 모델의 신뢰성을 지속적으로 평가하고 비교할 수 있는 모델 독립적인 지표인 '누적 합의 점수 (CCS)'를 제안합니다.
1871 편의 논문
이 논문은 실제 배포 환경에서 정답 레이블 없이도 객체 탐지 모델의 신뢰성을 지속적으로 평가하고 비교할 수 있는 모델 독립적인 지표인 '누적 합의 점수 (CCS)'를 제안합니다.
이 논문은 기존 데이터셋의 한계를 극복하고 도시 가로수 재고 관리를 위한 10 가지 이상의 태스크를 지원하며, 두 도시에서 수집된 21,007 개의 주석된 나무 인스턴스를 포함하는 다중 모달 벤치마크 데이터셋인 'WHU-STree'를 소개하고 그 잠재력과 향후 연구 방향을 제시합니다.
이 논문은 제한된 컴퓨팅 자원과 엄격한 프라이버시 제약 하에서도 실시간으로 작업 지시를 제공하고 안전성을 보장하기 위해 5 개의 역할 특화 에이전트와 적응형 단계 융합 (ASF) 기술을 활용한 새로운 멀티에이전트 산업 조율 어시스턴트 'MICA'를 제안하고 그 유효성을 검증합니다.
이 논문은 대규모 시각-언어 모델 (LVLM) 이 비일관적인 맥락에서 객체 인식에 실패하는 문제를 해결하기 위해 'ORIC' 프레임워크와 벤치마크를 제안하고, 이를 통해 모델의 신뢰성을 향상시키는 방법을 제시합니다.
이 논문은 이진 이벤트 스트림의 푸리에 도메인 교차 상관 방식을 활용하여 기존 카메라 기반 시스템보다 약 3.5 배 빠른 2.88ms 의 처리 지연을 달성하고, 낮과 밤의 다양한 환경에서 3000m 이상 성공적으로 주행하며 횡방향 오차를 15cm 이하로 유지하는 실시간 이벤트 기반 시각 교시 및 반복 (VT&R) 항법 시스템을 제안합니다.
이 논문은 현재 비디오 벤치마크가 청각 정보를 제대로 평가하지 못해 음성 인코더가 배제되는 문제를 지적하고, LLaVA-OneVision 기반의 확장 모델을 통해 청각 정보가 대화 이해 및 교차 모달 작업에서 명확한 성능 향상을 가져온다는 것을 입증합니다.
이 논문은 단일 이미지로부터 고충실도 표면과 SDF 장을 수 초 내에 효율적으로 재구성하는 경량 프레임워크인 FINS 를 제안하여 기존 방법들의 한계를 극복하고 로봇 표면 추종 작업 등 다양한 응용 분야에 그 유효성을 입증합니다.
본 논문은 Visual Geometry Grounded Transformers(VGGT) 의 막대한 계산 및 메모리 비용을 해결하기 위해, 활성화 분포의 꼬리 무거운 문제와 다중 뷰 데이터의 불안정성을 각각 해결하는 '이중 평활화 세밀 양자화'와 '노이즈 필터링 다양성 샘플링' 기술을 도입한 양자화 프레임워크 QuantVGGT 를 제안하며, 4 비트 양자화 시 3.7 배의 메모리 감소와 2.5 배의 속도 향상을 달성하면서도 98% 이상의 재구성 정확도를 유지함을 보여줍니다.
이 논문은 단일 트랜스포머 디코더 레이어 내에서의 쿼리 충돌 문제를 해결하기 위해 프레임 간 객체 운동을 명시적으로 예측하여 트랙 쿼리를 사전에 업데이트하는 '모션 인식 트랜스포머 (MATR)'를 제안함으로써, 추가 데이터 없이도 DanceTrack, SportsMOT, BDD100k 등 다양한 벤치마크에서 최첨단 성능을 달성한 다중 객체 추적 모델을 소개합니다.
이 논문은 3D 가우스 스플래팅을 기반으로 반사 표면에서도 높은 정밀도의 메쉬 재구성을 가능하게 하는 재료 인식 최적화 프레임워크인 GS-2M 을 제안하며, 외부 모델 의존 없이 다중 뷰 광도 변이를 활용한 거칠기 감독 전략을 통해 신경망 구성 요소를 제거하고 고품질 삼각 메쉬를 생성합니다.
이 논문은 비전 기반 모델 (VFMs) 을 강력한 교사 모델로 활용하여 자기 학습 패러다임 내에서 도메인 적응형 멀티 태스크 밀도 예측을 수행하는 효율적인 프레임워크인 FAMDA 를 제안하며, 이를 통해 로봇 공학 응용 분야에서 최첨단 성능을 달성하면서도 경량화된 모델을 구현합니다.
이 논문은 양자화 및 어텐션 희소화 기법을 통합하여 비디오 생성 모델의 계산 비용과 메모리 사용량을 획기적으로 줄이면서도 성능 저하를 최소화하는 'QuantSparse' 프레임워크를 제안합니다.
이 논문은 텍스트, 음악, 이전 모션 등 다양한 입력에 기반하여 두 사람의 상호작용적이고 반응적인 3D 모션을 생성하는 최초의 통합 프레임워크인 DualFlow 를 제안하며, 정렬 흐름 (Rectified Flow) 과 검색 증강 생성 (RAG) 기법을 활용하여 추론 속도를 높이고 의미적 정합성 및 동기화를 개선한 것을 보여줍니다.
본 논문은 혈역학의 나비에-스토크스 방정식에서 유도된 물리 기반의 제 2 차 동적 시스템을 바탕으로, 제로 FLOPs 축 스와퍼, 적응형 공간 필터, 게이트형 TCN 을 결합한 경량 모델 PHASE-Net 을 제안하여 헤드 모션과 조명 변화 하에서도 높은 정확도와 효율성을 갖춘 원격 광용적맥파 (rPPG) 측정 솔루션을 제시합니다.
이 논문은 안과 질환의 조기 진단과 편향 평가를 지원하기 위해 12 가지 질환과 5 가지 영상 모달리티를 아우르는 대규모 멀티모달 데이터셋 LMOD+ 와 24 개의 최신 멀티모달 대규모 언어 모델에 대한 체계적인 벤치마크 평가를 제시합니다.
이 논문은 오토레거시 비디오 확산 모델에서 발생하는 잠재 공간의 분포 편차와 맥락 간섭 문제를 해결하기 위해, 학습 없이도 사용자가 언제든지 원하는 대상을 자유롭게 변형하고 조작할 수 있는 'DragStream'이라는 새로운 스트리밍 드래그 기반 비디오 조작 프레임워크를 제안합니다.
이 논문은 강화 학습 기반의 자기회귀 (AR) 모델인 AR-Drag 을 제안하여, 기존 양방향 확산 모델의 지연 문제를 해결하고 저지연으로 정밀한 모션 제어가 가능한 고품질 실시간 이미지-동영상 생성을 실현했습니다.
본 논문은 2018 년부터 2025 년까지 뇌 영상 분야에서 라벨 없이 병변을 탐지하기 위해 적용된 비지도 딥 생성 모델 연구 33 건을 체계적으로 검토하여, 이러한 방법론의 잠재력과 방법론적 이질성 및 외부 검증 부족과 같은 한계점을 종합적으로 분석했습니다.
이 논문은 오디오-비주얼 세분화 작업에서 발생하는 다중 모달 의미 드리프트와 공발생 혼란 문제를 해결하기 위해 충돌 기반 다중 모달 리허설 (CMR) 프레임워크를 제안하고, 이를 통해 기존 단일 모달 방법보다 우수한 성능을 입증합니다.
본 논문은 자율주행의 하류 인식 작업 성능 향상을 위해 3D 어셋 렌더링과 세계 모델 미세 조정을 결합한 새로운 합성 데이터 생성 프레임워크인 Dream4Drive 와 대규모 3D 자산 데이터셋을 제안하여, 기존 방법론의 한계를 극복하고 다양한 훈련 조건에서 인식 모델의 성능을 효과적으로 개선함을 보여줍니다.