GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations
이 논문은 객체 탐지 모델의 공간적 위치 정보를 시각-언어 모델에 명시적으로 결합하여 카운팅 오류를 줄이고 추론 시간을 단축하는 'GroundCount' 프레임워크를 제안하며, 이를 통해 다양한 모델에서 카운팅 정확도를 유의미하게 향상시킵니다.
1863 편의 논문
이 논문은 객체 탐지 모델의 공간적 위치 정보를 시각-언어 모델에 명시적으로 결합하여 카운팅 오류를 줄이고 추론 시간을 단축하는 'GroundCount' 프레임워크를 제안하며, 이를 통해 다양한 모델에서 카운팅 정확도를 유의미하게 향상시킵니다.
이 논문은 현실적인 이미지 생성에서 과도한 선명도 문제를 해결하기 위해 대규모 데이터셋 (CFD), 객관적 평가 지표 (CFM), 그리고 훈련이 불필요한 색상 충실도 보정 기법 (CFR) 을 제안하여 생성된 이미지의 색상 충실도를 평가하고 개선하는 포괄적인 프레임워크를 제시합니다.
이 논문은 컴퓨터 과학자와 미술사가의 협업을 통해 비전 - 언어 모델이 예술적 스타일을 인식하는 메커니즘을 분석한 결과, 추출된 개념의 90% 가 미술사가들에 의해 관련성이 있다고 평가되었으며, 모델이 때로는 형식적 대비와 같은 다른 방식으로 개념을 이해하여 스타일 예측에 성공함을 밝혔습니다.
이 논문은 자율주행 의사결정의 정확성과 물리적 근거를 강화하기 위해 미래 세계의 역학을 압축된 토큰으로 예측하는 '동역학 CoT' 방식을 도입한 새로운 주행 VLA 모델인 DynVLA 를 제안하고, 이를 통해 기존 텍스트 및 시각 CoT 방법보다 우수한 성능을 입증합니다.
이 논문은 텍스트-음악 생성 모델을 비디오 이벤트 곡선으로만 미세 조정하고 추론 시 비디오 이벤트 곡선으로 대체하는 V2M-Zero 를 제안하여, 짝지어진 데이터 없이도 비디오와 음악 간의 시간적 정렬을 달성함을 보여줍니다.
이 논문은 복잡한 레이아웃과 페이지 간 단절 문제를 해결하기 위해 크로스페이지 콘텐츠 통합 알고리즘과Difficulty-adaptive 커리큘럼 학습 등을 도입한 금융 도메인 특화 문서 파싱 시스템 'Agentar-Fin-OCR'과 이를 평가하기 위한 벤치마크 'FinDocBench'를 제안합니다.
이 논문은 전통적인 열화상 기법의 한계를 극복하고 경성 물리 법칙을 준수하는 미분 가능 물리 솔버를 활용하여 3D 열 확산 장을 연속 신경장으로 파라미터화함으로써, 비파괴 검사를 위한 정량적 3D 재료 특성 재구성 및 결함 위치 파악의 정확도를 획기적으로 향상시킨 'NeFTY' 프레임워크를 제안합니다.
이 논문은 RGB-깊이 이미지를 표면 광장 (Surface Light Field) 샘플로 활용하여 기하학과 뷰 의존적 외관을 통합된 3D 잠재 공간으로 토큰화하고, 이를 기반으로 단일 이미지에서 조명과 재질이 일관된 고품질 3D 객체를 생성하는 'LiTo'를 제안합니다.
이 논문은 유튜브 코미디 영상 분석을 통해 학습된 LLM 비평가와 다양한 역할을 수행하는 에이전트 군집을 활용하여, 전문적인 스케치 코미디 수준의 자동화 AI 시스템 'COMIC'을 제안하고 그 성능을 입증합니다.
이 논문은 기존 단방향 생성의 한계를 극복하고 병렬 실행이 가능한 컴팩트 양방향 트랜스포머 아키텍처를 제안하여 MSCOCO 벤치마크에서 비시각 - 언어 사전학습 모델을 제외한 최첨단 성능을 달성한 연구입니다.
이 논문은 자율주행 환경에서 차량이나 장애물로 인해 가려진 보행자의 키 포인트를 수치 분포 기반의 생성적 적대 신경망 (SDR-GAIN) 을 통해 실시간으로 정확하게 복원하는 새로운 방법을 제안하고 COCO 및 JAAD 데이터셋에서 기존 방법보다 우수한 성능과 마이크로초 단위의 추론 속도를 입증했습니다.
이 논문은 다양한 카메라 각도와 가려짐으로 인한 어려움을 극복하기 위해 3D 축구장 모델과 검출된 필드 라인을 비선형 최적화 과정에 활용하는 'PnLCalib'라는 새로운 최적화 기반 보정 파이프라인을 제안하여 기존 방법들보다 향상된 정확도와 견고성을 달성했다고 설명합니다.
이 논문은 사전 훈련된 텍스트 - 이미지 확산 모델의 강건한 지각 능력을 활용하여 제한된 데이터로도 뛰어난 일반화 성능을 보이는 새로운 블라인드 이미지 품질 평가 방법인 DP-IQA 를 제안하고, 이를 경량화하여 다양한 자연 환경 데이터셋에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 음악의 스타일과 사용자 프롬프트를 통합하여 다양한 스타일의 춤을 생성하고, 공간 - 시간 마스킹 메커니즘을 통해 궤적 기반 생성, 춤 끼워넣기, 춤 인페인팅 등 다양한 제어 작업을 수행할 수 있는 '스타일 가이드 모션 확산 (SGMD)' 모델을 제안합니다.
이 논문은 단일 인체 기반 또는 분리 모델링 방식의 한계를 극복하기 위해 인과적 상호작용 주입, 역할 진화 스캐닝, 지역적 패턴 증폭 기법을 도입한 효율적이고 효과적인 인간 - 인간 모션 생성 프레임워크인 TIMotion 을 제안하고 InterHuman 및 InterX 데이터셋에서 우수한 성능을 입증합니다.
이 논문은 양자화와 희소화 연산에서 발생하는 불연속성 문제를 해결하기 위해 양자화를 첨가 노이즈로 모델링하고, 이를 보정하는 정교한 기울기 경로를 제공하는 통합 프레임워크를 제안하여 임의의 정밀도와 희소성 수준에서 안정적으로 신경망을 학습시키는 방법을 제시합니다.
이 논문은 기존 데이터 축소 기법에 특징 또는 주의 주석과 같은 '우월 정보(Privileged Information)'를 추가로 합성하여 모델 학습을 보조함으로써, ImageNet-1K 등 다양한 데이터셋에서 기존 방법들의 성능을 획기적으로 향상시킨 'DRUPI' 방법을 제안합니다.
이 논문은 잠재 변수의 변환을 희소 성분으로 분해하여 시퀀스 데이터에서 비지도 학습을 수행함으로써, 독립적인 요인과 변환 원리를 모두 포착하는 새로운 형태의 분리된 표현을 학습하고 데이터 가능성과 근사 공변성 오류 측면에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 수중 원격 조작 차량의 실시간 시각 피드백을 위해 사전 임무 정보를 활용한 학습 기반의 새로운 뷰 합성 기법을 통해 기존 방법보다 우수한 압축률과 화질을 달성하는 모델 기반 이미지 압축 기술을 제안합니다.
이 논문은 사전 훈련된 비전 - 언어 모델의 특성을 활용한 클래스 기반 클러스터링과 적응형 임계값 기반의 선택적 질의 전략을 통해, 적은 레이블 데이터로도 높은 정확도를 달성하는 예산 효율적 액티브 프롬프트 학습 프레임워크를 제안합니다.