TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction
이 논문은 정렬된 토큰 기반의 가우스 예측 모듈과 비대칭 듀얼 플로우 디코더를 통해 포즈 정보 없이도 다중 뷰 이미지로부터 정밀한 3D 가우스 재구성과 카메라 포즈 추정을 동시에 수행하는 'TokenSplat' 프레임워크를 제안합니다.
5803 편의 논문
이 논문은 정렬된 토큰 기반의 가우스 예측 모듈과 비대칭 듀얼 플로우 디코더를 통해 포즈 정보 없이도 다중 뷰 이미지로부터 정밀한 3D 가우스 재구성과 카메라 포즈 추정을 동시에 수행하는 'TokenSplat' 프레임워크를 제안합니다.
이 논문은 복잡한 문자 체계와 데이터 부족으로 인해 OCR 이 어려운 크메르어의 다양한 텍스트 모달리티를 단일 모델로 처리하고 성능을 향상시키기 위해 모달리티 인식 적응형 특징 선택 (MAFS) 기술을 도입한 범용 크메르어 텍스트 인식 (UKTR) 프레임워크와 최초의 종합 벤치마크를 제안합니다.
이 논문은 크메르어 장면 문서 레이아웃 분석의 데이터 부족 문제를 해결하기 위해, 전용 데이터셋, 증강 도구, 그리고 방향성 바운딩 박스를 활용한 YOLO 기반 레이아웃 감지 프레임워크를 포함한 최초의 포괄적인 연구 결과를 제시합니다.
이 논문은 그래프 합성곱 신경망 (GCN) 을 활용하여 시각적으로 눈에 띄지 않으면서도 최소한의 데이터 오염으로 모든 대상 클래스를 제어하는 새로운 범용 백도어 공격 기법인 IU 를 제안하고, ImageNet-1K 실험을 통해 높은 공격 성공률과 은밀성을 입증했습니다.
이 논문은 산업용 내시경 영상과 극좌표 변환 기반의 파노라마 이미지 스티칭 기술을 활용하여 파이프라인 내벽을 평면 파노라마 이미지로 효율적으로 재구성하고 결함 검출을 지원하기 위한 시스템을 제안합니다.
이 논문은 생성 이미지 검출의 일반화 성능을 향상시키기 위해 단일 결정 경로를 피하고 다양한 시각을 유지하는 '반-특성 붕괴 학습' 프레임워크를 제안하며, 이를 통해 기존 방법들보다 뛰어난 교차 모델 검출 성능을 입증합니다.
이 논문은 다양한 손 형태를 통합 토크나이저로 매핑하고 물리 법칙 기반의 동적 정제 모듈을 통해 자연어 명령만으로 물리적으로 타당한 다재도 손 조작을 가능하게 하는 최초의 프레임워크인 'UniHM'을 제안합니다.
이 논문은 확산 확률 모델을 활용하여 CT 뇌 영상을 기반으로 뇌졸중의 진행과 결과를 예측하는 자기지도식 시공간 표현을 개발하고, 5,824 개의 CT 영상을 포함한 대규모 데이터셋에서 내일 중증도 및 퇴원 시 기능적 결과를 예측하는 데 있어 기존 방법보다 뛰어난 성능을 입증했습니다.
이 논문은 확산 모델의 무훈련 가속화 방법 간 상호작용을 체계적으로 분석하고, 프렌레 - 세레 공식의 기하학적 특성을 활용한 '일관된 총 회전 스케줄 (TORS)'을 제안하여 10 단계 샘플링으로도 고품질 이미지를 생성할 수 있음을 입증했습니다.
이 논문은 MedRAX 기반의 흉부 X-ray 에이전트에서 발생하는 인종적 편향을 종단적 성능뿐만 아니라 도구 노출, 전환, 추론과 같은 과정별 단계로 세분화하여 분석하고, 에이전트 시스템의 공정한 배포를 위해 프로세스 수준의 편향 감지 및 완화의 필요성을 강조합니다.
이 논문은 인공신경망의 층별 특징이나 작업별 활성화가 아닌 자극 표현의 역동적 진화를 모델링하여 뇌 기반 좌표계로 매핑하는 '신경 기능 정렬 공간 (NFAS)'을 제안하고, 이를 통해 다양한 모달리티의 45 개 사전 학습 모델이 뇌의 통합 시스템에서 구조화된 조직을 보임을 입증합니다.
이 논문은 템플릿 기반 분할 파이프라인에서 변형장 (deformation field) 의 특성을 활용하여 기존 출력 공간 기반 방법보다 훨씬 효율적이고 정밀한 볼륨 불확실성 정량화를 가능하게 하는 'ConVOLT'라는 새로운 프레임워크를 제안합니다.
NERFIFY 는 대형 언어 모델을 네RF 도메인 특화 설계 (문맥 자유 문법, 그래프 기반 사고, 시각 피드백 등) 와 결합하여 학술 논문을 실행 가능한 Nerfstudio 플러그인으로 자동 변환함으로써, 기존 방법론의 한계를 극복하고 복잡한 비전 연구의 재현성을 획기적으로 가속화하는 다중 에이전트 프레임워크입니다.
이 논문은 Tekken 3 의 단일 플레이어 데이터만으로 학습된 12 억 파라미터 확산 트랜스포머 기반의 COMBAT 모델을 통해, 명시적인 적대적 정책 지도 없이도 실시간으로 플레이어의 행동에 반응하는 지능적인 적대 기체를 생성하는 새로운 세계 모델을 제시합니다.
이 논문은 랜덤 워크 트랜스포머 게이트와 동적 손실 균형 기법을 도입하여 다양한 메쉬 분석 방법의 강점을 결합한 '메쉬 전문가 혼합 (MME)' 프레임워크를 제안하며, 메쉬 분류, 검색, 의미론적 분할 작업에서 최첨단 성능을 달성했습니다.
이 논문은 고해상도와 저해상도 특징 간의 내재적 차이를 활용하는 신경 구별 프롬프트 (Neural Discrimination Prompt) 메커니즘을 도입하여, UHD 이미지 복원 및 향상 작업에서 최첨단 성능을 유지하면서도 계산 효율성을 극대화한 'UHDPromer'라는 새로운 트랜스포머 아키텍처를 제안합니다.
본 논문은 PCA 기반의 병렬 전략과 Mamba-Transformer 하이브리드 아키텍처를 결합하여 점군 완성의 계산 효율성과 재구성 정확도를 동시에 극대화한 PPC-MT 프레임워크를 제안합니다.
이 논문은 뇌졸중 재활 평가의 정밀도를 높이기 위해 단일 레이어 내에서 각 프레임이 여러 시간적 윈도우에 동시 주의를 기울이는 '다중 소속 시간적 주의 (MMTA)' 메커니즘을 도입하여, 기존 모델의 한계를 극복하고 비디오 및 IMU 데이터에서 미세한 운동 분할 성능을 향상시킨 단일 단계 아키텍처를 제안합니다.
이 논문은 X-ray 관상동맥 조영술 (XCA) 비디오의 혈관 분할을 위해 SAM3 기반의 교사 - 학생 프레임워크, 모션 인식 일관성, 그리고 점진적 신뢰도 정규화를 결합한 'SMART'라는 반지도 학습 방법을 제안하여 적은 주석 데이터로도 최첨단 성능을 달성함을 보여줍니다.
이 논문은 태그 MRI 의 해부학적 이미지 복원, 고해상도 영상 합성, 그리고 운동 추정을 통합하는 새로운 비선형 블라인드 역문제 프레임워크를 제안하여, MR 물리학과 생성적 사전지식을 결합해 기존 방법들보다 우수한 성능을 달성함을 보여줍니다.