Revisiting Shape from Polarization in the Era of Vision Foundation Models
이 논문은 1,954 개의 실제 3D 스캔 객체로 생성된 고품질 편광 데이터셋과 DINOv3 사전 학습 지식을 활용하여 소량의 데이터로도 RGB 기반 비전 파운데이션 모델을 능가하는 정밀한 표면 법선 추정이 가능함을 입증했습니다.
4368 편의 논문
이 논문은 1,954 개의 실제 3D 스캔 객체로 생성된 고품질 편광 데이터셋과 DINOv3 사전 학습 지식을 활용하여 소량의 데이터로도 RGB 기반 비전 파운데이션 모델을 능가하는 정밀한 표면 법선 추정이 가능함을 입증했습니다.
이 논문은 인스턴스 의존적 부분 레이블 학습에서 발생하는 인스턴스 얽힘 문제를 해결하기 위해 클래스별 증강과 내부/외부 클래스 규제를 결합한 새로운 CAD 프레임워크를 제안하고, 이를 통해 클래스 경계를 명확히 하고 분류 성능을 향상시킨다는 것을 보여줍니다.
이 논문은 정적 상호작용의 한계를 극복하고 시각 - 언어 모델의 적대적 공격 전이성을 향상시키기 위해, 역동적인 대조 학습과 의미 증강을 결합한 새로운 방법인 SADCA 를 제안하고 그 효과성을 실험을 통해 입증합니다.
이 논문은 단일 학습 패러다임의 한계를 극복하고 다양한 특징 표현을 통합하여 멀티모달 대규모 언어 모델 (MLLM) 에 대한 적대적 예제의 전이성을 획기적으로 향상시키는 새로운 '다중 패러다임 협력 공격 (MPCAttack)' 프레임워크를 제안합니다.
이 논문은 3D 가우스 스플래팅 훈련 중 명시적인 SfM 특징 트랙을 유지하며 기하학적 앵커와 광학적 손실을 결합한 'GloSplat' 프레임워크를 제안하여, 기존 COLMAP 기반 방법보다 정확하고 COLMAP 없는 방법보다 빠른 3D 재구성을 가능하게 합니다.
이 논문은 추론 깊이가 증가함에 따라 발생하는 구조적 편향 (Structural Drift) 문제를 해결하기 위해 역사적 해결 과정의 위상적 의존성을 인코딩한 정렬 그래프를 도입하여, 그라디언트 기반 최적화 없이도 FormalGeo7k 벤치마크에서 최첨단 성능을 달성하는 훈련 없는 자동 추론 프레임워크를 제안합니다.
이 논문은 드림포즈 3D 를 기반으로 방송 영상에서 피치어의 18 가지 생체역학 지표를 정밀하게 추출하여 토미 존 수술 등 주요 부상을 예측하는 확장 가능한 단일 카메라 기반 부상 위험 선별 시스템을 제안합니다.
이 논문은 기존 방법의 한계를 극복하기 위해 알레토릭 및 에피스테믹 불확실성을 모델링하여 매칭 신뢰도를 추정하는 'SURE'라는 새로운 반밀도 특징 매칭 프레임워크를 제안하고, 다양한 벤치마크에서 기존 최첨단 모델보다 우수한 정확도와 효율성을 입증했습니다.
이 논문은 메타데이터에 의존하지 않고 프롬프트 기반의 노이즈 표현 학습을 통해 다양한 현실적인 sRGB 노이즈 이미지를 생성하고, 이를 실제 노이즈 제거 작업의 일반화 성능 향상에 성공적으로 적용하는 새로운 프레임워크인 PNG 를 제안합니다.
이 논문은 229 개의 생체역학적 특징을 기반으로 방송 3D 포즈 시퀀스만으로 119,561 개의 프로 야구 투구 데이터를 분석하여 80.4\% 의 정확도로 8 가지 투구 유형을 사전에 예측하고, 상체 역학이 예측 신호의 64.9\% 를 차지하며 그립 차이는 포즈만으로는 구분 불가능함을 규명했습니다.
이 논문은 CT 이미지와 보고서 간의 구조적 대응 관계를 학습하기 위해 구조별 이미지 - 텍스트 대비 학습과 동적 다양성 강화 부정 큐를 도입한 2 단계 프레임워크를 제안하여, 두 공개 데이터셋에서 임상 효율성 측면에서 새로운 최첨단 성능을 달성했습니다.
이 논문은 변형 가능한 상태 공간 모델과 릴레이 토큰 메커니즘을 도입하여 비디오 및 오디오의 조작 구간을 정밀하게 식별하는 새로운 프레임워크인 'DeformTrace'를 제안하며, 기존 방법들의 한계를 극복하고 적은 파라미터로 최첨단 성능을 달성함을 보여줍니다.
이 논문은 다중 모달리티 간 이질성과 개인화 요구를 동시에 해결하기 위해, 각 모달리티별 인코더를 연방 학습하고 부분적으로 개인화된 퓨전 디코더를 도입한 'FedMEPD'라는 새로운 연방 학습 프레임워크를 제안하여 뇌 종양 분할 성능을 향상시킨 연구입니다.
이 논문은 이질적인 데이터 모달리티를 가진 클라이언트 간의 개인화된 성능과 모델 이질성 문제를 해결하기 위해, 양측의 학습을 강화하는 적대적 정렬, 세분화 인식 융합, 유사도 기반 앙상블 증류 기법을 통합한 다중 모달 연합 학습 프레임워크인 FedAFD 를 제안합니다.
이 논문은 전역 자기주의 메커니즘이 세밀한 공간 정보를 흐리게 할 수 있는 비전 트랜스포머의 한계를 극복하기 위해, 학습 가능한 가우시안 커널을 도입하여 패치 간 국소적 상호작용을 강화함으로써 분류 성능을 유지하면서 분할 성능을 크게 향상시키는 간단한 부가 모듈을 제안합니다.
이 논문은 사전 학습된 비디오 확산 모델의 한계를 극복하고 고해상도 고프레임레이트 슬로우 모션 생성을 위해, 잠재 시퀀스의 시간적 모델링과 구조 인식 운동 가이드, 그리고 시간적 일관성 손실을 도입하여 충실도와 일관성을 모두 확보한 새로운 비디오 프레임 보간 방법인 FC-VFI 를 제안합니다.
이 논문은 생성된 텍스트에 대한 어텐션을 적응적으로 증가시키는 AdaIAT 기법을 제안하여, 대형 시각 - 언어 모델 (LVLM) 의 환각 현상을 줄이면서도 언어적 일관성과 예측 능력을 유지하는 균형을 달성함을 보여줍니다.
이 논문은 이동하는 카메라 시점에서 발생하는 원근 왜곡 문제를 해결하기 위해, 가시적 특징을 고려한 3D 적대적 텍스처 최적화 기법을 제안하여 동적 환경에서도 로봇의 시각-운동 정책을 효과적으로 교란할 수 있음을 입증합니다.
이 논문은 오버헤드 크레인 LiDAR 를 활용한 산업용 실내 공간의 사람 탐지 및 추적을 위해 전용 데이터셋을 구축하고, VoxelNeXT 와 SECOND 와 같은 3D 탐지기를 적응시켜 근거리에서 0.97 의 높은 평균 정밀도를 달성함과 동시에 실시간 추적 가능성을 입증했습니다.
이 논문은 병리학자의 진단 워크플로우를 모방하여 신뢰할 수 있는 해석 가능성을 제공하는 적응형 프로토타입 기반 약지도 학습 프레임워크를 제안함으로써 전립선암 조직병리 이미지의 자동 등급 분류 성능과 신뢰도를 동시에 향상시켰습니다.