NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization
이 논문은 대조적 손실의 정규화 항 추정을 개선하기 위해 볼록 분석과 변분 분석을 기반으로 보조 변수를 신경망으로 근사화하는 새로운 최적화 프레임워크인 NeuCLIP 을 제안하고, 대규모 데이터셋에서 기존 방법보다 우수한 성능을 입증합니다.
5479 편의 논문
이 논문은 대조적 손실의 정규화 항 추정을 개선하기 위해 볼록 분석과 변분 분석을 기반으로 보조 변수를 신경망으로 근사화하는 새로운 최적화 프레임워크인 NeuCLIP 을 제안하고, 대규모 데이터셋에서 기존 방법보다 우수한 성능을 입증합니다.
이 논문은 인간 자세 예측의 재현성 문제를 해결하기 위한 통합 파이프라인을 제시하고, 최신 음성 모델을 적용하여 성능을 개선하며, 실제 환경의 노이즈를 반영한 데이터셋을 통해 모델의 강건성과 비지도 미세조정 효과를 평가합니다.
MatPedia 는 RGB 외관과 물리적 속성을 결합한 새로운 표현 방식을 기반으로 비디오 확산 아키텍처를 활용하여 텍스트 및 이미지 기반 생성과 고유 분해 등 다양한 재료 합성 작업을 단일 아키텍처에서 고품질로 수행하는 범용 생성 기반 모델을 제안합니다.
이 논문은 고정된 도구 호출 방식을 극복하고 다중 에이전트 간 협력적 정책 계획 (CPP) 과 다중 에이전트 강화 학습 (MARL) 을 도입하여 동적으로 정책을 정제함으로써 비디오 이해 성능을 획기적으로 향상시킨 VideoChat-M1 을 제안합니다.
이 논문은 텍스트, 이미지, 조도, 환경 맵 등 다양한 조명 표현을 단일 잠재 공간으로 통합하여 상호 호환성을 확보하고 조명 기반 검색, 환경 맵 생성, 조명 제어 등 다양한 작업에서 유연한 조도 조작을 가능하게 하는 'UniLight'를 제안합니다.
이 논문은 잠재 확산 모델 기반의 역문제 솔버의 불안정성을 해결하기 위해, 측정 일관성 라인지 Corrector(MCLC) 를 제안하여 솔버 동역학과 확산 역동 간의 격차를 줄임으로써 잠재 공간에서 더 안정적이고 신뢰할 수 있는 성능을 달성함을 보여줍니다.
이 논문은 저선량 전신 PET 영상의 노이즈를 제거하면서도 해부학적 구조를 보존하기 위해 웨이블릿 기반 구조적 사전 지식을 도입한 3D 확산 모델 기반의 WCC-Net 을 제안하고, 기존 방법들보다 우수한 성능과 일반화 능력을 입증합니다.
이 논문은 2D 투영 기반의 다단계 접근법을 통해 3D 해부학적 구조를 추정하고 이를 활용하여 경추 골절을 자동으로 식별하는 효율적인 파이프라인을 제안하며, 이는 전문 방사선사의 진단 수준에 준하는 성능을 달성하면서도 중간 처리 단계의 차원을 축소하여 임상 적용 가능성을 입증했습니다.
이 논문은 의료 영상 분야에서 시각적 강화 미세 조정 (RFT) 의 한계를 극복하기 위해 지각과 추론 능력을 동시에 증강시키는 'VRFT-Aug' 프레임워크를 제안하고, 이를 통해 기존 방법론보다 우수한 성능을 입증했습니다.
본 논문은 보행 시 발바닥 압력 패턴을 기반으로 한 생체 인식 기술의 발전과 남은 과제를 논의하기 위해 UNB StepUP-P150 데이터셋을 활용한 '제1 회 국제 StepUP 보행 생체 인식 대회'의 방법론, 23 개 팀의 참여 결과, 그리고 최우수 팀의 성능과 일반화 한계 등을 종합적으로 보고합니다.
이 논문은 복잡한 추적 모듈 없이 ViT 인코더만으로도 실시간 비디오 분할이 가능하도록, 이전 프레임의 쿼리를 재사용하고 새로운 쿼리와 융합하는 경량 메커니즘을 도입한 'VidEoMT'를 제안하여 기존 모델 대비 5~10 배 빠른 속도와 경쟁력 있는 정확도를 달성했다고 요약할 수 있습니다.
이 논문은 여러 유해 카테고리 간의 충돌로 인해 기존 안전 가이드 방식이 오히려 유해 생성률을 높이는 문제를 해결하기 위해, 생성 단계에서 유해 카테고리를 동적으로 식별하고 해당 카테고리에만 정밀하게 안전 조향을 적용하는 'CASG'라는 훈련 없는 프레임워크를 제안합니다.
이 논문은 단안 기초 모델과 교차 뷰 어텐션을 결합한 다중 뷰 표면 법선 예측 모델과 역 렌더링 최적화 프레임워크를 융합하여, 다중 뷰 포토그래메트리 수준의 고품질 3D 얼굴 기하학을 카메라 수와 계산 비용을 획기적으로 줄여 단 몇 초 만에 재구성하는 'Skullptor' 방법을 제안합니다.
이 논문은 배치 내 정렬의 한계를 극복하고 유전체 및 조직병리 데이터를 메모리에 축적하여 학습하는 '모멘텀 메모리 지식 증류 (MoMKD)' 프레임워크를 제안함으로써, 유전체 데이터 없이도 조직병리 이미지만으로 정확한 암 진단이 가능하도록 하는 강력한 지식 증류 패러다임을 제시합니다.
이 논문은 시각적 장소 인식 (VPR) 시스템이 다양한 환경 구간에서 사용자가 정의한 성능 요구사항을 충족하도록, 참조 주행 데이터 쌍을 기반으로 매핑 데이터베이스의 밀도를 자동으로 선택하는 동적 방식을 제안합니다.
이 논문은 비전 - 언어 모델의 환각 현상을 유발하는 '공간적 신용 붕괴'를 식별하고, 가중치 수정 없이 추론 시 주시 패치와 그 주변에 시각적 정보를 재분배하여 환각을 획기적으로 줄이면서도 생성 품질과 지연 시간을 최적화하는 '공간적 신용 재분배 (SCR)' 방법을 제안합니다.
이 논문은 MVS, MVPS, MVSfP 등 다양한 다중 뷰 3D 재구성 기법의 성능을 정량적으로 평가할 수 있도록 25 개의 물체와 8,500 개의 정렬된 이미지 및 정밀한 3D 메쉬를 포함한 'EvalMVX'라는 새로운 벤치마크 데이터셋을 제안하고, 이를 기반으로 최신 13 개 방법을 평가하여 향후 연구 방향을 제시합니다.
이 논문은 불균형 데이터, 배경 잡음, 도메인 간 이질성 문제를 해결하기 위해 Focal Loss, 경량 어텐션 게이트, 정렬 모듈을 도입하여 MambaBDA 프레임워크를 개선함으로써 다양한 재난 환경에서 건물의 피해 평가 정확도와 일반화 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 지식 증류에서 온도 매개변수가 옵티마이저나 교사 모델의 전처리/미세조정 등 다른 훈련 요소들과 밀접하게 연관되어 있음을 규명하고, 이를 체계적으로 분석하여 실제 적용 시 온도 선택을 위한 실용적인 지침을 제시합니다.
본 논문은 추론 시 효율성을 유지하면서 학습 중 융합 모듈과 다중 정렬 기법을 통해 이미지와 텍스트의 모달리티 간 격차를 해소하고 표현 학습 성능을 극대화하는 ITO 프레임워크를 제안합니다.