Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization
이 논문은 채널별 기능 분해와 매니폴드 정규화를 통해 다양한 열화 유형을 효율적으로 처리하면서도 뛰어난 성능을 달성하는 새로운 이미지 복원 프레임워크인 MIRAGE 를 제안합니다.
8938 편의 논문
이 논문은 채널별 기능 분해와 매니폴드 정규화를 통해 다양한 열화 유형을 효율적으로 처리하면서도 뛰어난 성능을 달성하는 새로운 이미지 복원 프레임워크인 MIRAGE 를 제안합니다.
이 논문은 제한된 기존 데이터셋의 한계를 극복하고 실제 환경으로의 일반화 성능을 검증하기 위해, 80 시간 분량의 15 개 영상과 16 가지 클래스로 구성된 3 가지 영역 (스태지드, 합성, 자연 발생) 을 아우르는 통합 벤치마크 'OmniFall'을 제안합니다.
이 논문은 구조적 변화가 필요한 이미지 편집 시 발생하는 아티팩트를 해결하고 원본의 구조와 질감을 정확히 유지하기 위해 대응 관계 기반 노이즈 보정과 보간된 어텐션 맵을 도입한 새로운 프레임워크 'Cora'를 제안합니다.
이 논문은 기존 궤적 예측 모델에 통합되어 환경적 충돌을 방지하는 능력을 크게 향상시키는 대비 학습 기반의 ECAM(환경 충돌 회피 모듈) 을 제안하고 ETH/UCY 데이터셋을 통해 그 유효성을 입증합니다.
이 논문은 LLM 의 지식을 활용하여 텍스트 정보를 강화하고, CLIP 기반의 멀티모달 융합 및 다중 어텐션 메커니즘을 통해 도메인 간 선호도와 복잡한 사용자 관심을 효과적으로 포착함으로써 기존 방법보다 우수한 성능을 보이는 새로운 크로스 도메인 순차 추천 모델인 LLM-EMF 를 제안합니다.
이 논문은 편향된 교사 모델로부터 균형 잡힌 지식을 추출하기 위해 교차 그룹 손실과 그룹 내 손실을 재구성하고 각각을 보정 및 재가중하는 '장기 꼬리 지식 증류 (LTKD)' 프레임워크를 제안하여, 기존 방법들보다 전반적 및 꼬리 클래스 정확도에서 우수한 성능을 입증합니다.
이 논문은 SFT 와 RLVR 간의 트레이드오프를 동적으로 관리하고 시각적 감독 메커니즘을 결합한 'DyME'라는 새로운 학습 패러다임을 제안함으로써, 제한된 용량의 소형 시각 - 언어 모델 (SVLM) 에도 안정적이고 효과적인 추론 능력을 부여하는 것을 목표로 합니다.
이 논문은 열대 우림의 개별 수관 탐지를 위해 3 개 국가의 드론 영상에서 83,000 개 이상의 수관을 수동으로 라벨링한 'SelvaBox'라는 대규모 오픈 액세스 데이터셋을 소개하고, 이를 통해 고해상도 입력의 중요성과 다른 데이터셋에 대한 제로샷 탐지 성능을 입증했습니다.
이 논문은 단일 이미지 변형을 넘어 개념의 확률적 분포를 조작하여 원본 개념을 유지하면서도 다양하고 효율적인 적대적 예제를 생성하는 새로운 프레임워크를 제안합니다.
이 논문은 기상학 분야에서 인간의 지식을 반영한 해석 가능한 머신러닝 알고리즘인 설명 가능 부스팅 머신 (EBM) 을 활용하여 위성 영상에서 오버슈팅 탑을 식별하는 방법을 제시하고, 복잡한 모델의 정확도는 다소 낮지만 인간과 기계의 협업을 통해 투명하고 신뢰할 수 있는 예보 모델 개발의 가능성을 보여줍니다.
이 논문은 비전 - 언어 모델의 개인화와 일반화 사이의 균형을 달성하기 위해, 로컬 데이터에 맞춰 적응하는 모달리티별 어댑터와 전역적으로 공유되는 프로젝션 레이어를 결합한 새로운 개인화 페더러드 학습 프레임워크인 pFedMMA 를 제안합니다.
이 논문은 긴 꼬리 분포를 가진 분류 문제에서 기존 방법의 한계를 극복하고, 예측 집단의 크기와 클래스별 커버리지 간의 균형을 이루는 새로운 컨포멀 예측 기법을 제안하고 실증합니다.
이 논문은 레이블이 없는 비디오 데이터를 활용하여 다양한 신경 - 행동 분석 과제의 성능을 향상시키는 새로운 자기지도 학습 기반의 BEAST 프레임워크를 제안합니다.
이 논문은 단안 이미지와 CNN 기반의 기본 도형 초기화기를 활용하여 정밀한 포즈가 없어도 비협조적 우주선의 3D 모델을 3D 가우스 스플래팅 (3DGS) 으로 빠르게 학습하고 고충실도 3D 표현을 생성하는 방법을 제안합니다.
이 논문은 자율주행의 3D 점유율 예측을 위해 깊이 기반 리프팅에 높이 점수 프로젝션과 방향 인식 합성곱을 도입하여 정밀한 기하학적 구조를 유지하면서도 높은 추론 속도를 달성한 DA-Occ 프레임워크를 제안합니다.
이 논문은 사전 공격 유형 지식 없이도 비전 - 언어 모델을 활용해 악성 백도어 공격을 자동으로 탐지하고 중립화 가이드를 생성하여 텍스트 - 이미지 모델의 편향을 제거하면서도 원본 모델의 화질과 다양성을 유지하는 'AutoDebias' 프레임워크를 제안합니다.
이 논문은 3D 의료 영상 분할을 위해 원격 탐사 모델인 AMBER 를 기반으로 주파수 도메인에서의 전역 토큰 믹싱을 수행하는 AMBER-AFNO 아키텍처를 제안하여, 기존 트랜스포머의 계산 병목 현상을 해결하면서도 경량화된 모델 크기로 최고 수준의 분할 성능을 달성함을 보여줍니다.
AnimateScene 는 3D 장면 재구성과 4D 인간 애니메이션을 통합하여 인간과 배경 간의 충돌 방지, 조명 및 스타일 정합, 그리고 동적 카메라 궤적 처리를 가능하게 하는 통합 프레임워크를 제안합니다.
이 논문은 꽃과 곤충 간의 전기적 상호작용 데이터를 딥러닝 (U-Net) 모델에 학습시켜, 곤충이 감지한 전기장으로부터 꽃의 기하학적 형태를 정확하게 재구성하는 새로운 역전기 영상화 프레임워크를 제시합니다.
이 논문은 다이어그램의 구조적 특성을 반영한 '하드' 샘플과 두 가지 특수 손실 함수를 도입한 대비 학습 방식을 제안하여, 기존 멀티모달 모델이 다이어그램 이해에서 보이는 한계를 극복하고 이미지 - 텍스트 매칭 및 시각적 질문 답변 성능을 크게 향상시켰음을 보여줍니다.