Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models
이 논문은 다이어그램의 구조적 특성을 반영한 '하드' 샘플과 두 가지 특수 손실 함수를 도입한 대비 학습 방식을 제안하여, 기존 멀티모달 모델이 다이어그램 이해에서 보이는 한계를 극복하고 이미지 - 텍스트 매칭 및 시각적 질문 답변 성능을 크게 향상시켰음을 보여줍니다.
6941 편의 논문
이 논문은 다이어그램의 구조적 특성을 반영한 '하드' 샘플과 두 가지 특수 손실 함수를 도입한 대비 학습 방식을 제안하여, 기존 멀티모달 모델이 다이어그램 이해에서 보이는 한계를 극복하고 이미지 - 텍스트 매칭 및 시각적 질문 답변 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 이해 모듈이 생성 모듈의 디자인 책임을 명확히 분담하도록 하는 'Draw-In-Mind(DIM)' 데이터셋과 모델을 제안하여, 상대적으로 작은 파라미터 규모로도 최신 이미지 편집 벤치마크에서 최상위 성능을 달성함을 보여줍니다.
이 논문은 구면 가우시안 로브를 도입하고 원시 개수 및 파라미터를 통합적으로 최적화하는 'MEGS' 프레임워크를 제안하여, 기존 3D 가우시안 스플래팅의 렌더링 메모리 병목 현상을 해결하고 엣지 디바이스에서의 효율성을 크게 향상시켰습니다.
이 논문은 continual learning 환경에서 모델의 적응 능력 (가소성) 저하를 완화하기 위해 활성화 함수의 형태와 포화 특성을 분석하여 새로운 비선형 함수를 제안하고, 다양한 과목과 강화학습 환경에서 그 유효성을 입증했습니다.
이 논문은 수동 UV 매핑의 의존성을 해소하고 의미론적 일관성과 가시성 (시각적 가림) 을 고려하여 3D 메시 파라미터화를 자동화하는 비지도 학습 프레임워크를 제안합니다.
이 논문은 자율주행을 일반화된 언어 문제로 재해석하여 프론트뷰 카메라 입력으로부터 직접 궤적을 생성하는 단일 단계 엔드투엔드 프레임워크인 Max-V1 을 제안하며, nuScenes 데이터셋에서 기존 방법 대비 30% 이상 성능을 향상시키고 뛰어난 도메인 간 일반화 능력을 입증했습니다.
이 논문은 3D 가우시안 스플래팅을 N 차원 이방성 베타 커널로 일반화하여 공간, 각도, 시간 차원의 복잡한 광원 효과를 보조 네트워크 없이 실시간으로 렌더링하고 해석 가능한 속성을 학습하는 통합 프레임워크인 '범용 베타 스플래팅 (Universal Beta Splatting)'을 제안합니다.
이 논문은 저조도 환경에서 적외선 (IR) 영상의 활성 발광 패턴 노이즈를 제거하여 고품질 이미지를 복원하고, 이를 통해 RGB 기반 로봇 비전 시스템이 외부 조명 없이도 극저조도 환경에서 안정적으로 작동할 수 있도록 하는 'CLEAR-IR'이라는 새로운 접근법을 제안합니다.
이 논문은 기계 학습 연산자 (MLO) 가 훈련 해상도와 다른 해상도에서 추론할 때 발생하는 에일리어싱 및 취약성 문제를 지적하고, 이를 해결하기 위해 다중 해상도 훈련 프로토콜을 제안합니다.
본 논문은 DINOv2 의 SAE 를 통해 선형 표현 가설을 검증하고, 작업별 개념의 기능적 특성을 규명한 후, 토큰 표현이 단순한 희소성이 아닌 아키타입의 볼록 혼합으로 구성된다는 '민코프스키 표현 가설 (MRH)'을 제안하여 비전 트랜스포머의 해석 가능성을 새로운 기하학적 관점에서 재정립합니다.
이 논문은 모노큘러 4D 재구성의 불확실성을 고려하여 가우시안 원시들의 신뢰도를 기반으로 시공간 그래프를 구축하고 불확실성 인식 최적화를 통해 가려짐과 극단적인 시점에서의 재구성 품질을 향상시키는 'USplat4D' 프레임워크를 제안합니다.
이 논문은 멀티모달 대형 언어 모델 (MLLM) 을 활용하여 객체 간 활동과 상호작용에 대한 텍스트 설명을 생성하고 이를 노멀 비디오의 설명과 비교함으로써 복잡한 상호작용 기반 이상을 탐지하고 설명 가능성을 제공하는 새로운 반지도식 비디오 이상 탐지 프레임워크를 제안합니다.
이 튜토리얼은 3D 가우스 스플래팅 (3DGS) 의 이론적 배경과 파이프라인을 개괄하고, 메모리 효율성 및 조명 표현 등의 한계를 해결하기 위한 최근 연구 동향과 표면 재구성, 아바타 모델링 등 다양한 응용 분야를 종합적으로 다룹니다.
이 논문은 밀집된 텍스트와 그래픽 요소가 혼재된 정보 집약적 이미지에서 시각적 추론의 정확성과 효율성을 동시에 향상시키기 위해, 경량 드래프트 전문가들이 생성한 다양한 추론 경로를 강력한 판정 모델이 통합하고 합의 기반 선택 메커니즘을 통해 최종 답변을 도출하는 훈련 없는 'Speculative Verdict(SV)' 프레임워크를 제안합니다.
이 논문은 기존 CLIP 기반 방법의 한계를 극복하고, 시각 토큰과 텍스트 서브스페이스 간의 동적 정렬을 최적 수송 문제로 모델링하여 토큰 단위의 적응을 가능하게 함으로써 제로샷 이상 탐지 성능을 향상시킨 TokenCLIP 을 제안합니다.
이 논문은 단일 이미지에 국한된 기존 한계를 극복하기 위해 다중 이미지 샘플로 구성된 새로운 벤치마크 MMSD3.0 과 교차 이미지 추론 모델 (CIRM) 을 제안하여, 실제 세계의 다중 이미지 맥락에서 발생하는 멀티모달 풍자 감지 성능을 획기적으로 향상시켰습니다.
이 논문은 적대적 공격 하에서 CLIP 의 성능 저하를 유발하는 텍스트와 이미지 특징 간의 불일치 문제를 해결하기 위해, 최적 수송 기반의 학습 없는 프레임워크인 COLA 를 제안하여 전역적 정렬과 국소적 구조 일관성을 복원함으로써 다양한 벤치마크에서 적대적 공격에 대한 강인성을 크게 향상시킨다는 내용을 담고 있습니다.
이 논문은 사전 학습된 시각 표현의 취약성을 해결하기 위해 작업과 관련된 시각적 단서에만 주의를 기울이고 방해 요소를 무시하도록 학습되는 경량화된 '주의 기반 특징 집계 (AFA)' 메커니즘을 제안하여, 데이터 증강이나 추가 미세 조정 없이도 시각적 교란이 있는 환경에서 강인한 시각 - 운동 정책을 가능하게 함을 보여줍니다.
이 논문은 흐름 매칭 (Flow Matching) 모델에서 제한된 샘플링 예산 하에 희귀하지만 중요한 결과를 포착하기 위해 점수 기반 정규화와 중요도 가중치를 도입하여 비 IID 샘플링을 수행하고 편향 없는 기대값 추정을 가능하게 하는 새로운 프레임워크를 제안합니다.
본 연구는 제한된 뇌 MRI 데이터를 활용한 뇌종양 분류 실험을 통해, 의료 도메인 특화 데이터로 사전 학습된 RadImageNet DenseNet121 보다는 대규모 일반 도메인 데이터로 학습된 최신 범용 CNN 인 ConvNeXt-Tiny 가 더 높은 정확도 (93%) 를 보여 의료 영상 분석에서 일반 도메인 사전 학습 모델의 전이 학습 효과가 더 우수할 수 있음을 입증했습니다.