MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data
이 논문은 이미지와 같은 시드 데이터 없이도 추론 능력을 향상시키기 위해 제안자, 코더, 솔버라는 세 가지 역할을 도입하고 그룹 상대적 정책 최적화 (GRPO) 를 활용한 강화 학습 기반의 자기 진화 프레임워크인 MM-Zero 를 제안합니다.
2768 편의 논문
이 논문은 이미지와 같은 시드 데이터 없이도 추론 능력을 향상시키기 위해 제안자, 코더, 솔버라는 세 가지 역할을 도입하고 그룹 상대적 정책 최적화 (GRPO) 를 활용한 강화 학습 기반의 자기 진화 프레임워크인 MM-Zero 를 제안합니다.
이 논문은 카메라 시점, 손 크기, 녹화 조건 등의 차이로 인한 도메인 이동 문제를 해결하기 위해, 20 차원 관절 각도 기술자를 기반으로 한 기하학적 인식 메트릭 학습 프레임워크를 제안하여 저자원 환경에서 다양한 수화 언어 간 소수 샷 인식 성능을 획기적으로 향상시켰음을 보여줍니다.
본 논문은 복잡한 위상적 특성을 가진 혈관 해부학 구조의 모델링 과제를 해결하기 위해, 자연어 프롬프트를 통한 위상적 사전 지식을 시각 표현과 통합한 범용 기반 모델 'TubeMLLM'과 이를 평가하는 새로운 멀티모달 벤치마크 'TubeMData'를 제안하며, 다양한 데이터셋에서 기존 모델 대비 뛰어난 제로샷 일반화 성능과 위상적 일관성을 입증합니다.
이 논문은 양극성 샘플을 고차원 공간의 컴팩트한 집합으로, 음극성 샘플을 원점으로 매핑하는 새로운 손실 함수를 제안하여 양극성 클래스의 특징만 추출하는 경량 분산 합성곱 신경망 (DisCNN) 을 통해 복잡한 배경 속 객체 탐지 및 미시적 클래스에 대한 우수한 일반화 성능을 입증했습니다.
이 논문은 MRI 데이터의 부족과 다양한 자기장 세기 간의 공통된 열화 패턴을 활용하기 위해 사전 훈련된 3D 기반 모델과 자기장 특이적 스펙트럼 보정 메커니즘을 통합한 'UniField'라는 통합 프레임워크를 제안하고, 대규모 공개 데이터셋을 통해 기존 최첨단 방법보다 PSNR 및 SSIM 성능을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 드론 및 회전 기계의 안전을 위해 고속 회전 물체의 미세초 지연 추적이 가능한 새로운 이벤트 기반 방법인 'HelixTrack'을 제안하고, 이를 검증하기 위한 새로운 데이터셋 'TQE'를 소개합니다.
이 논문은 의류의 전신 이미지에서 일관된 평면 의류 표현을 생성하기 위해 전역적 의류 단서를 포착하는 'GCBM'과 평면 구조적 사전지식을 주입하는 'FSCM'을 통해 인간의 관찰과 평면 의류 합성 간의 간극을 해소하는 새로운 확산 기반 프레임워크인 BridgeDiff 를 제안하고 있습니다.
이 논문은 기존 잠재 공간의 압축으로 인한 정보 손실 문제를 해결하기 위해, DINOv2 의 밀집 시각 표현 공간에서 조건부 확산 트랜스포머와 시간 기반 게이트 모듈을 활용하여 구조적 안정성과 행동 정확도를 향상시킨 새로운 내비게이션 월드 모델 (RAE-NWM) 을 제안합니다.
이 논문은 생성형 AI 에 의해 생성된 이미지의 검출 성능을 향상시키기 위해 사전 학습된 의미적 편향을 제거하고 포렌식 증거에 집중하도록 하는 '기하학적 의미 분해 (GSD)' 모듈을 제안하여 다양한 미지의 생성 방식에 대한 일반화 능력을 크게 개선했습니다.
이 논문은 고해상도 입력과 경량 실시간 추론 간의 상충 관계를 해결하기 위해, 밀집 픽셀 예측 대신 극좌표 표현을 통한 희소 정점 회귀로 인스턴스 분할을 재정의한 'Poly-DETR'을 제안하고, 다양한 데이터셋에서 기존 마스크 기반 방법보다 뛰어난 성능과 효율성을 입증합니다.
이 논문은 교통 표지판, 차량, 차선 감지 및 행동 모방을 위한 사전 학습 및 맞춤형 신경망을 통합한 다중 모델 접근법을 제안하여 자율 주행 차량의 인식 및 의사결정 성능을 향상시키는 방법을 종합적으로 연구합니다.
이 논문은 이질적인 노드 특징을 가진 멀티모달 그래프 학습의 유연성과 표현력을 향상시키기 위해, 모달리티별 가상 노드를 도입하여 동적 정보 경로를 통해 적응적이고 희소한 메시지 전파를 가능하게 하는 새로운 프레임워크인 DiP 를 제안하고 다양한 벤치마크에서 기존 방법보다 우수한 성능을 입증합니다.
이 논문은 웹 기반 실내 투어 비디오에서 3D 재구성 없이 RGB 프레임으로부터 암시적 기하 표현을 추출하여 시뮬레이터 데이터의 한계를 극복하고, 다양한 벤치마크에서 새로운 최첨단 성능과 강력한 제로샷 내비게이션 능력을 달성하는 대규모 비전 - 언어 내비게이션 프레임워크를 제안합니다.
이 논문은 산업용 텍스트-3D 생성의 한계를 해결하기 위해 카테고리 간 지식 간섭을 제거하는 다중 전문가 LoRA 앙상블과 고차원 구조적 의존성을 포착하는 교차 뷰 하이퍼그래프 기하 강화 방식을 결합한 'ForgeDreamer' 프레임워크를 제안합니다.
이 논문은 3D 가우스의 크기를 주기적으로 축소하고 알파 블렌딩에 엔트로피 제약을 도입하여 픽셀당 가우스 리스트 길이를 줄이고 렌더링 해상도를 점진적으로 증가시키는 전략을 통해, 렌더링 품질을 유지하면서 3D 가우스 스플래팅의 학습 효율성을 획기적으로 향상시켰습니다.
이 논문은 그림자, 급격한 움직임, 결함이 있는 마스크와 같은 현실 세계의 불완전한 조건에서도 안정적인 비디오 객체 제거를 가능하게 하는 세 가지 핵심 설계 (MUSE, DA-Seg, 커리큘럼 2 단계 학습) 를 통해 새로운 최첨단 성능을 달성한 'Stable Video Object Removal (SVOR)' 프레임워크를 제안합니다.
이 논문은 3D 형상을 볼록체 집합으로 분해하는 기존 문제를 해결하기 위해 특징 필드 학습을 도입하여, 대규모 데이터셋에서 자기지도 학습이 가능한 최초의 오픈 월드 볼록 분해 모델을 제안합니다.
이 논문은 텍스트-이미지 생성 과정에서 이미지 사용자가 인지하는 정서적 반응이나 기억력 등 인지적 속성을 다차원적으로 정밀하게 제어할 수 있도록 'Cognitive Space'와 'Semantic Manifold' 간의 매핑을 기반으로 한 새로운 프레임워크 'CogBlender'를 제안합니다.
이 논문은 다양한 모달리티 간의 고유한 차이를 고려한 모달리티 인식 퓨전과 RGB 및 X 모달 스트림의 시계열 정보를 독립적으로 처리하는 분해된 시간 전파 메커니즘을 도입하여, 다섯 가지 멀티모달 추적 벤치마크에서 최첨단 성능을 달성한 새로운 프레임워크 MDTrack 을 제안합니다.
이 논문은 잡음이 포함된 다중 뷰 이미지로부터 3D 장면을 재구성하기 위해, 깨끗한 2D 렌더링만으로 학습 가능한 경량 피드포워드 백본과 대규모 잡음 - 청정 벤치마크를 제안하는 'DenoiseSplat'을 소개합니다.