DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction
이 논문은 잡음이 포함된 다중 뷰 이미지로부터 3D 장면을 재구성하기 위해, 깨끗한 2D 렌더링만으로 학습 가능한 경량 피드포워드 백본과 대규모 잡음 - 청정 벤치마크를 제안하는 'DenoiseSplat'을 소개합니다.
3300 편의 논문
이 논문은 잡음이 포함된 다중 뷰 이미지로부터 3D 장면을 재구성하기 위해, 깨끗한 2D 렌더링만으로 학습 가능한 경량 피드포워드 백본과 대규모 잡음 - 청정 벤치마크를 제안하는 'DenoiseSplat'을 소개합니다.
이 논문은 작업 진행 상황을 명시적인 마일스톤으로 감지하고 실패 시 복구하는 'See, Plan, Rewind (SPR)' 프레임워크를 제안하여, 추가 학습 없이도 LIBERO 및 LIBERO-Plus 벤치마크에서 기존 모델보다 뛰어난 강건성과 일반화 성능을 달성함을 보여줍니다.
이 논문은 생성된 SVG 의 렌더링 결과를 시각적으로 피드백하여 생성기와 비판가가 상호작용하는 '생성 - 검토 - 정제' 루프를 통해 텍스트 기반 SVG 생성의 품질과 복잡성을 획기적으로 향상시킨 'IntroSVG' 프레임워크를 제안합니다.
이 논문은 결손된 모달리티가 있는 의료 영상 분할에서 전문가 간의 일관성을 제어하고 임상적으로 중요한 전경 영역에 초점을 맞춘 'CLoE' 프레임워크를 제안하여, 불완전한 입력 상황에서도 강력한 성능과 일반화 능력을 달성함을 보여줍니다.
이 논문은 곡면 비시각 촉각 센서의 보정을 위해 일상적인 물체와의 간단한 접촉만으로 정밀한 3D 재구성을 가능하게 하는 효율적이고 물리 일관성이 있는 NLiPsCalib 프레임워크와 이를 검증한 NLiPsTac 센서를 제안합니다.
이 논문은 Unreal Engine 5 기반의 고충실도 시뮬레이션으로 생성된 136 개의 위성 모델을 포함하는 대규모 다중 모달 벤치마크 'SpaceSense-Bench'를 제안하여, 궤도상 자율 우주 임무를 위한 정밀한 우주선 인식 및 자세 추정 연구의 한계를 극복하고 데이터 확장성의 중요성을 입증했습니다.
이 논문은 MLLM 의 정밀한 시각적 불일치 감지 능력을 평가하기 위한 'OddGridBench' 벤치마크를 제안하고, 커리큘럼 학습과 거리 기반 보상을 결합한 강화학습 프레임워크 'OddGrid-GRPO' 를 통해 해당 능력을 획기적으로 향상시키는 방법을 제시합니다.
이 논문은 정적 추론을 넘어 경쟁적이고 시간 제약이 있는 환경에서의 LLM 전략적 의사결정 능력을 평가하기 위해 1 대 1 제로섬 상호작용을 기반으로 한 'STAR' 벤치마크를 제안하고, 추론의 깊이뿐만 아니라 신속한 실행 능력이 전략적 지능에 필수적임을 규명합니다.
이 논문은 분류 작업에 국한되었던 테스트 시간 적응 (TTA) 기법을 이미지 회귀 문제로 확장하기 위해, 소스 데이터 없이도 소스 예측 지지 공간과 직교 여공간을 동시에 정렬하는 '예측 스펙트럼 보정 (PSC)'이라는 새로운 프레임워크를 제안하고 있습니다.
이 논문은 잠재 공간의 반복적 최적화를 기반으로 하여, 압축 및 이미지 처리와 같은 다양한 공격에 대한 견고성을 크게 향상시키면서도 정보 은닉의 증명 가능한 보안성을 유지하는 새로운 스테가노그래피 프레임워크를 제안합니다.
이 논문은 뇌졸중 평가용 CT 관류 이미징의 비정형 역문제 해결을 위해 물리 법칙과 증거론적 딥러닝을 결합하여 물리 제약 위반에 따른 불확실성을 정량화하고 정확도와 신뢰성을 동시에 향상시킨 'EPPINN' 프레임워크를 제안하고 임상 데이터에서 우수한 성능을 입증했습니다.
이 논문은 기존 자기지도 학습의 한계를 극복하기 위해 다중 뷰 회전 증강과 균형을 기반으로 한 적대적 미니맥스 게임을 도입한 'M3GCLR' 프레임워크를 제안하여, NTU RGB+D 및 PKU-MMD 데이터셋에서 최첨단 성능을 달성한 뼈 기반 동작 인식 연구를 소개합니다.
이 논문은 제한된 주석과 고해상도 의료 영상 처리의 어려움을 해결하기 위해 프리컴퓨팅된 특징을 활용하고 경량화된 다중 인스턴스 학습 헤드를 결합하여, 대규모 유방 촬영 이미지 분류에서 최상의 성능을 달성하면서도 훈련 복잡성을 획기적으로 줄인 'MIL-PF' 프레임워크를 제안합니다.
이 논문은 고정된 시야각 (FoV) 에 의존하는 기존 방법의 한계를 극복하고, 이중 판별 학습과 커리큘럼 학습 전략을 통해 단일 모델만으로도 다양한 시야각과 방향 변화에 강인한 교차 뷰 지리 위치 추정 (CVGL) 을 가능하게 하는 'SinGeo'프레임워크를 제안합니다.
본 논문은 이벤트 카메라의 고유한 시간적 연속성을 활용하여 비주얼 지오메트리 기반 트랜스포머 (VGGT) 로부터 시공간 및 다중 뷰 기하학적 사전 지식을 3 단계 증류 전략을 통해 전이함으로써, 기존 방법론의 시간적 불일치 문제를 해결하고 정밀한 단안 깊이 추정을 가능하게 하는 새로운 프레임워크인 EventVGGT 를 제안합니다.
이 논문은 기존 커버리스 스테가노그래피 방법의 접근 제어 한계를 해결하기 위해, 무작위 기저 메커니즘과 잠재 벡터 융합 모듈을 도입하여 사용자별 접근 제어가 가능한 훈련 없는 확산 기반 다중 이미지 스테가노그래피 프레임워크 'MIDAS'를 제안합니다.
이 논문은 2024 년 12 월부터 2025 년 4 월까지 진행된 ICDAR 2025 복잡한 레이아웃 문서 이미지 기계 번역 (DIMT) 경연대회에 대한 개요, 데이터셋, 작업 정의, 평가 프로토콜 및 69 개 팀의 참가 결과를 요약하고, 대규모 모델 접근법이 복잡한 레이아웃 문서 번역을 위한 유망한 패러다임을 제시함을 보여줍니다.
이 논문은 YOLO 기반 객체 탐지 모델의 아키텍처 탐색 비용을 획기적으로 줄이기 위해, COCO-mini 데이터셋으로 학습된 1,500 개의 아키텍처와 자기 진화 메커니즘을 통해 정밀도를 높인 예측 모델을 포함한 'YOLO-NAS-Bench'라는 최초의 대리 벤치마크를 제안합니다.
이 논문은 트랜스포머 기반의 확산 모델에 비해 계산 효율성과 훈련 속도가 월등히 뛰어난 'FCDM(Fully Convolutional Diffusion Model)'을 제안하며, 이를 통해 현대적인 합성곱 설계가 효율적인 생성 모델링을 위한 강력한 대안이 될 수 있음을 입증합니다.
이 논문은 방향성 객체 탐지 (OBB) 의 고유한 도전 과제를 해결하면서도 실시간 효율성을 유지하는 최초의 실시간 방향성 탐지 트랜스포머인 RiO-DETR 을 제안하고, DOTA-1.0, DIOR-R, FAIR-1M-2.0 등 다양한 데이터셋에서 속도 - 정확도 균형을 크게 개선했음을 입증합니다.