Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection
이 논문은 DINOv3 임베딩의 공간적 및 문맥적 의존성을 명시적으로 모델링하는 2 차 자기회귀 (AR) 모델을 제안하여, 기존 메모리 뱅크 기반 방법의 계산 및 메모리 오버헤드를 줄이면서도 의료 영상 이상 탐지에서 경쟁력 있는 성능을 달성하는 효율적인 비지도 프레임워크를 제시합니다.
5561 편의 논문
이 논문은 DINOv3 임베딩의 공간적 및 문맥적 의존성을 명시적으로 모델링하는 2 차 자기회귀 (AR) 모델을 제안하여, 기존 메모리 뱅크 기반 방법의 계산 및 메모리 오버헤드를 줄이면서도 의료 영상 이상 탐지에서 경쟁력 있는 성능을 달성하는 효율적인 비지도 프레임워크를 제시합니다.
이 논문은 비강성 복부 수술 장면의 4 차원 재구성을 평가하기 위해 6 건의 돼지 사체 실험을 통해 수집된 30 만 프레임 이상의 엔도스코프 영상과 정밀 구조광 기하 데이터를 포함한 '드레스덴 (Dresden) 데이터셋'을 제안합니다.
이 논문은 3D 가우시안 스플래팅 (3DGS) 의 시점 의존적 효과 (예: 반사광) 를 유지하면서 사용자의 단일 편집 이미지만으로 2 초 내에 전체 장면을 사실적으로 재색칠할 수 있는 VIRGi 라는 새로운 방법을 제안합니다.
이 논문은 고해상도 단일 이미지에서 국부적 디테일과 전역적 일관성을 동시에 유지하며 정밀한 깊이와 표면 법선을 추정하기 위해, 사전 학습된 기하학적 사전 지식을 통합하고 교차 패치 어텐션 및 GridMix 샘플링 전략을 활용한 '초고해상도 기하 트랜스포머 (URGT)'를 제안합니다.
이 논문은 4 만 명 이상의 환자로부터 수집된 210 만 개의 조직 슬라이드 타일로 학습된 'BRIGHT'라는 유방 병리 전용 기초 모델을 제안하여, 일반적 전문성과 기관별 특화 지식을 결합한 협업 프레임워크를 통해 다양한 임상 과제에서 기존 일반 모델들을 능가하는 최첨단 성능을 입증했습니다.
이 논문은 수학적 개념 학습을 위한 AI 생성 비디오의 품질을 평가하기 위해, 공간적/시간적 충실도와 프롬프트 정합성을 세분화하여 주석한 최초의 데이터셋 'EduAIGV-1k'와 이를 기반으로 한 새로운 평가 모델 'EduVQA'를 제안합니다.
이 논문은 대규모 언어 모델이 텍스트 설명을 고품질의 TikZ 과학 도표로 변환하는 능력을 향상시키기 위해, DaTikZ-V4 라는 대규모 고품질 데이터셋을 구축하고 역그래픽 기반 이미지 인코더를 활용한 강화 학습을 도입한 'TikZilla' 모델을 제안하며, 이를 통해 GPT-4o 를 능가하고 GPT-5 와 대등한 성능을 달성함을 보여줍니다.
이 논문은 극지방 해상 안전 항해를 위해 위성에 탑재된 FPGA 에서 저전력으로 실시간 해빙 분할을 수행할 수 있도록, Sentinel-1 SAR 영상에 최적화된 소형 딥러닝 모델 'TinyIceNet'을 제안하고 하드웨어 - 알고리즘 공동 설계의 효과를 입증합니다.
이 논문은 해상도 저하 없이 미세한 진단적 특징을 보존하고 BioMedCLIP 을 활용한 의미적 조건부 학습을 통해 폐 초음파 이미지의 고품질 합성을 가능하게 하는 'AWDiff'라는 새로운 확산 기반 증강 프레임워크를 제안합니다.
이 논문은 2D 확산 모델의 사전 지식을 활용하면서도 3D 일관성을 유지하는 것이 어렵다는 문제를 해결하기 위해, 3D 일관성 검증이 용이하다는 점에 착안하여 VGGT 기반의 보상 신호를 활용한 강화 학습 프레임워크인 RL3DEdit 을 제안합니다.
이 논문은 신체의 큰 구조적 안정성과 얼굴, 손의 미세한 표현력을 통합하고, 다양한 캐릭터에 대한 일반화 능력과 빠른 추론 속도를 보장하며 텍스트 기반 제어도 지원하는 강건하고 정교한 전신 캐릭터 애니메이션을 위한 통합 DiT 기반 프레임워크인 'Kling-MotionControl'을 제안합니다.
이 논문은 선형 활성화 조정이 이미지 품질을 저하시키는 문제를 해결하기 위해 안전하지 않은 영역에서만 비선형 운송 맵을 활성화하는 '조건부 활성화 수송 (CAT)' 프레임워크를 제안하고, 이를 통해 텍스트 - 이미지 모델의 안전성을 유지하면서 이미지 충실도를 보존함을 입증합니다.
이 논문은 오버모달 LLM 에서 발생하는 교차 모달 환각을 완화하기 위해, 관련 없는 모달리티의 왜곡에 대한 불변성과 관련 모달리티의 변화에 대한 민감성을 강제하며 텍스트 편향을 줄이는 '모달리티 분리 선호 최적화 (MoD-DPO)' 프레임워크를 제안하고 그 유효성을 입증합니다.
이 논문은 비디오 VAE 를 통해 구조와 운동을 분리하고, 세계 모델의 시간적 추론 능력과 잠재 행동의 컴팩트함을 통합한 새로운 'CoWVLA(Chain-of-World VLA)' 패러다임을 제안하여 로봇 시뮬레이션 벤치마크에서 기존 방법들을 능가하는 성능을 입증했습니다.
이 논문은 다양한 물리적 구현체에 공통적으로 필요한 공간 지능을 공유 기반대로 활용하여, SSR(기반 구축 - 전문화 - 조화) 패러다임과 GRPO 최적화를 통해 자율 주행, 로봇, UAV 등을 아우르는 범용 embodied intelligence 모델인 ACE-Brain-0 을 제안하고 다양한 벤치마크에서 최첨단 성능을 입증했습니다.
이 논문은 다양한 지구 관측 센서 데이터 간의 비단일적 관계를 확률적으로 모델링하여, 재학습 없이도 다양한 조건에서 물리적으로 일관된 다중 모달 데이터 생성과 번역을 가능하게 하는 COP-GEN 이라는 잠재 확산 트랜스포머를 제안합니다.
이 논문은 생성이 이해를 향상시키는 시나리오를 체계적으로 분석하기 위해 UniG2U-Bench 를 제안하고, 통합 멀티모달 모델이 직접 추론보다 일반적으로 성능이 낮지만 공간 지능이나 다단계 추론과 같은 특정 과제에서는 생성이 이해에 도움이 된다는 핵심 발견을 제시합니다.
이 논문은 잡음이 많거나 불완전한 비제약 비디오에서 전 세계 좌표계의 인간 움직임을 복원하기 위해 카메라 좌표계와 전 세계 좌표계로 운동을 분해하는 두 개의 확산 모델을 결합한 'DuoMo'를 제안하여 기존 방법 대비 전 세계 복원 오차를 크게 줄이고 파라메트릭 모델을 우회하여 메쉬 꼭짓점을 직접 생성하는 최첨단 성능을 달성했다고 요약할 수 있습니다.
LoGeR 는 학습 기반의 하이브리드 메모리 모듈을 통해 긴 비디오 시퀀스에서도 최적화 과정 없이 3D 재구성을 확장하여, 기존 방법론보다 훨씬 긴 시간 범위에서 일관성 있고 정밀한 재구성을 가능하게 합니다.
이 논문은 Transfusion 프레임워크를 활용한 원천 멀티모달 사전학습 실험을 통해 시각적 표현의 최적화, 언어와의 시너지, 세계 모델링의 자연스러운 등장, 그리고 MoE 아키텍처를 통한 언어와 비주얼 데이터 간의 스케일링 비대칭성 해결이라는 네 가지 핵심 통찰을 제시합니다.