MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry
MERG3R 는 GPU 메모리 제한으로 인해 대규모 이미지 컬렉션에 적용하기 어려웠던 신경 시각 기하학 모델들을 위해, 이미지를 분할·재구성한 후 효율적으로 병합하는 훈련 없는 분할 정복 프레임워크를 제안하여 확장성과 정확도를 동시에 향상시킵니다.
5561 편의 논문
MERG3R 는 GPU 메모리 제한으로 인해 대규모 이미지 컬렉션에 적용하기 어려웠던 신경 시각 기하학 모델들을 위해, 이미지를 분할·재구성한 후 효율적으로 병합하는 훈련 없는 분할 정복 프레임워크를 제안하여 확장성과 정확도를 동시에 향상시킵니다.
이 논문은 캡션 기반 쿼리로 훈련된 기존 비디오 모멘트 검색 모델이 검색 쿼리 환경에서 성능이 저하되는 원인을 분석하고, '액티브 디코더 쿼리 붕괴' 문제를 해결하기 위해 아키텍처를 개선하여 검색 쿼리, 특히 다중 모멘트 검색에서 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 환자별 MRI 영상에 대해 투명성과 해석 가능성을 유지하면서도 딥러닝 모델과 경쟁력 있는 진단 성능을 내기 위해, 기존 상위 k 개 특징 선택 방식의 한계를 극복하고 각 환자마다 최적의 상호보완적 특징 집합을 2 단계 검색 전략으로 효율적으로 추출하는 새로운 프레임워크를 제안합니다.
이 논문은 인종이나 성별과 같은 외형적 특성이 아닌 종교, 국적, 사회경제적 지위와 같은 문화적 맥락에 따른 편향을 측정하기 위해, 동일한 인물을 다양한 실제 문화적 배경에 배치한 약 6 만 개의 합성 반사실 (counterfactual) 이미지 데이터셋인 'Cultural Counterfactuals'를 제안하고 이를 통해 대규모 시각 - 언어 모델 (LVLM) 의 문화적 편향을 정량화하는 방법을 제시합니다.
이 논문은 SMPL 기반의 미분 가능 부피 모델을 제안하여, 큰 관절 운동을 처리하는 KTPolyRigid 변환을 통해 태아 MRI 의 해부학적 일관성을 보장하고 접힘 아티팩트를 줄이며 태아 장기 분할 및 그룹 간 정합을 가능하게 합니다.
이 논문은 C2PA 메타데이터와 워터마킹 검사가 서로 독립적으로 작동할 때 발생하는 '무결성 충돌' 문제를 실증적으로 규명하고, 메타데이터 조작을 통해 생성된 AI 콘텐츠가 인간 제작으로 위장할 수 있음을 보여주며, 두 계층을 통합하여 검증하는 교차 계층 감사 프로토콜을 제안합니다.
이 논문은 지리 공간 데이터의 고유한 특성을 고려한 머신러닝 파이프라인 구축을 위해 PyTorch 기반 라이브러리인 TorchGeo 의 핵심 추상화를 소개하고, Sentinel-2 영상을 활용한 다중 스펙트럼 수역 분할을 위한 종단간 사례 연구를 통해 지리 공간 분석을 위한 예측 결과 생성 방법까지 다루는 튜토리얼을 제안합니다.
이 논문은 스마트 공장의 작업자 활동 모니터링을 위해 웨어러블 센서와 카메라를 활용한 36 명의 참가자로부터 수집된 37 시간 이상의 다중 모달 데이터로 구성된 'OpenMarcie'라는 대규모 데이터셋을 소개하고, 이를 활동 분류, 오픈 보카불러리 캡셔닝, 교차 모달 정렬 등 세 가지 작업에서 벤치마크한 내용을 담고 있습니다.
이 논문은 데이터셋 증류의 효율성을 높이기 위해 샘플 수와 정밀도를 고정된 비트 예산 하에 공동으로 최적화하는 '양자화 인식 데이터셋 증류 (QuADD)' 프레임워크를 제안하고, 이를 통해 기존 방법들보다 비트당 정확도가 뛰어난 성능을 입증합니다.
이 논문은 기존 데이터셋의 단거리 한계를 극복하기 위해 1km 거리까지 감지가 가능한 다양한 센서로 구성된 대규모 고속도로 자율주행 데이터셋 'TruckDrive'를 소개하고, 현재 최첨단 모델들이 150m 이상의 장거리에서 성능이 급격히 저하되는 것을 규명했습니다.
이 논문은 알츠하이머병 예측을 위해 전자건강기록 (EHR) 과 생물의학 지식 그래프를 활용하여 MRI 가 없는 코호트에서도 진단 성능을 13% 향상시키는 MIRAGE 라는 새로운 프레임워크를 제안합니다.
이 논문은 복잡한 문서 시각적 질문 응답 (DocVQA) 과제를 해결하기 위해 논리적 단계 분해, 전문 에이전트 협업, 그리고 논쟁 기반 검증 메커니즘을 통합한 다중 에이전트 프레임워크 'ORCA'를 제안하고, 이를 통해 기존 최첨단 방법론보다 우수한 성능을 입증합니다.
이 논문은 일반 산불 이미지에서 학습된 지식을 활용하여 데이터 부족과 낮은 대비, 연기 등 어려운 조건에서도 효과적으로 토양 화재 (이탄지 화재) 를 탐지할 수 있도록 전이 학습 기반의 심층 학습 모델을 제안합니다.
이 논문은 10 단계 MST 척도로 라벨링된 대규모 오픈 액세스 데이터셋 STW 와 이를 기반으로 한 딥러닝 기반의 최첨단 피부 톤 분류 모델 SkinToneNet 을 제안하여, 기존 방법론의 한계를 극복하고 공개 데이터셋의 공정성을 신뢰할 수 있게 평가할 수 있는 체계를 마련했습니다.
이 논문은 비유클리드 공간에서 골격 기반 인간 동작 인식을 위해 기하학적 변환 계층과 왜곡 인식 최적화 계층을 도입하여 다른 방법들보다 높은 정확도와 낮은 비용으로 동작을 인식하는 종단간 기하학적 심층 신경망 E2E-GNet 을 제안합니다.
이 논문은 하드웨어 결함이나 악천후로 인한 센서 모달리티의 일시적 손실 상황에서도 강인한 3D 객체 감지를 가능하게 하기 위해, 과거 데이터를 기반으로 결손된 특징을 예측하고 불확실성 기반 융합 전략으로 보정하는 'ModalPatch'라는 플러그인 모듈을 제안합니다.
이 논문은 텍스트 중심의 기존 안전 평가 한계를 극복하기 위해 자동 크로스모달 페이로드 생성, 다중 턴 공격 알고리즘, 그리고 인터-턴 모달리티 스위칭 (ITMS) 을 통합한 오픈소스 플랫폼 'MUSE'를 제안하며, 이를 통해 멀티모달 LLM 의 정렬이 오디오, 이미지, 비디오 등 다른 모달리티로 일반화되지 않을 수 있음을 실험적으로 입증했습니다.
이 논문은 SPD 행렬 도메인의 제임스 이중원뿔 재매개변수화를 기반으로 새로운 핀슬러 및 쌍대 정보 기하학적 구조를 도입하여, 측지선이 직선에 대응되도록 하고 힐베르트 심플렉스 거리를 일반화하는 새로운 기하학적 틀과 부등식을 제시합니다.
이 논문은 기존 하이브리드 아키텍처의 하다마르 변환을 공간적 국소성과 다중 해상도 표현을 제공하는 헤어 웨이블릿 변환으로 대체하여 파라미터 효율성을 높이고 Tiny-ImageNet 에서 기존 모델보다 우수한 성능을 보이며 IBM 양자 하드웨어에서 검증된 WTHaar-Net 을 제안합니다.
이 논문은 비디오 데이터 기반의 3D 인간 재구성과 오픈심 (OpenSim) 통합을 통해 마커리스 환경에서 임상적으로 유의미하고 정밀한 보행 분석을 가능하게 하는 새로운 프레임워크를 제안합니다.