From Synthetic Scenes to Real Performance: Enhancing Spatial Reasoning in VLMs
이 논문은 편향과 불균형을 제거하기 위해 속성을 체계적으로 샘플링한 합성 데이터로 시각-언어 모델을 미세 조정함으로써, 실제 세계의 공간 추론 성능을 COCO 데이터셋 전체로 학습한 모델보다 13% 향상시켰음을 보여줍니다.
10070 편의 논문
이 논문은 편향과 불균형을 제거하기 위해 속성을 체계적으로 샘플링한 합성 데이터로 시각-언어 모델을 미세 조정함으로써, 실제 세계의 공간 추론 성능을 COCO 데이터셋 전체로 학습한 모델보다 13% 향상시켰음을 보여줍니다.
이 논문은 시각적 또는 의미론적 내용이 없는 절차적으로 생성된 데이터로 비전 트랜스포머를 사전 학습시켜 추상적인 계산적 선입관을 주입함으로써, ImageNet-1K 에서 데이터 효율성과 성능을 크게 향상시킨다는 것을 보여줍니다.
이 논문은 멀티모달 모델의 축소 시 지각 능력이 추론 능력보다 더 크게 저하된다는 점을 발견하고, 이를 해결하기 위해 시각적 세부 정보를 추출한 후 단계적 추론을 수행하는 'Extract+Think' 접근법을 제안하여 효율성과 성능을 동시에 개선합니다.
이 논문은 조직 병리 이미지와 유전자 발현 프로파일을 통합하여 공간적 유전자 발현을 예측하는 새로운 모델인 DKAN 을 제안하며, 외부 유전자 데이터베이스를 활용한 의미적 표현, 예시 검색에 대한 의존성 제거, 그리고 이질적 모달리티 간의 효과적인 정렬을 통해 기존 방법론의 한계를 극복하고 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 시계열 순서에 무감각한 기존 자기지도학습의 한계를 극복하기 위해 플랙킷-루 (Plackett-Luce) 모델 기반의 순차적 정렬 및 시공간 퍼즐 손실 함수를 도입한 'PL-Stitch' 프레임워크를 제안하여 수술 및 요리와 같은 절차적 비디오 작업에서 우수한 성능을 입증했습니다.
이 논문은 세포 이질성으로 인한 형태 변이 문제를 해결하기 위해 동적 전문가 라우팅과 계층적 게이트 메커니즘을 도입한 'SAGE' 프레임워크를 제안하며, 다양한 조직병리 이미지 세그멘테이션 데이터셋에서 뛰어난 성능과 일반화 능력을 입증했습니다.
이 논문은 복잡한 도시 환경에서 효율적이고 안정적인 고충실도 대규모 장면 재구성을 위해 분산 2D 가우스 스플래팅을 기반으로 구조화된 밀도 향상, 점진적 하이브리드 기하 최적화, 깊이 기반 외관 모델링을 통합한 새로운 프레임워크 'MetroGS'를 제안합니다.
IDSplat 은 인간의 수동 주석이 필요 없는 자기지도 학습 방식으로 3D 가우시안 스플래팅을 통해 동적 주행 장면을 재구성하면서 LiDAR 기반의 제로샷 언어 추적과 조향 각도 보정 기법을 활용하여 객체별 인스턴스 분해와 일관된 운동 궤적을 동시에 달성하는 프레임워크입니다.
이 논문은 보행자 행동, 환경, 위치, 차량 운동 등 네 가지 핵심 차원의 다양한 맥락 정보를 점진적 융합 전략과 상호 주의 메커니즘을 통해 통합하는 '다중 맥락 융합 트랜스포머 (MFT)'를 제안하여 도시 환경에서의 보행자 횡단 의도 예측 정확도를 획기적으로 향상시켰음을 보여줍니다.
이 논문은 동아시아 지역의 복잡한 대기 역학을 고려한 고해상도 CMAQ-OBS 데이터셋을 구축하고, 그룹 상대적 정책 최적화 (GRPO) 를 도입하여 장기 예보의 오탐지율을 크게 줄이면서도 신뢰성을 높인 실시간 대기질 예보 프레임워크를 제안합니다.