Bridging Human Evaluation to Infrared and Visible Image Fusion
이 논문은 인간 평가와 적외선/가시광선 이미지 융합을 연결하기 위해 대규모 인간 피드백 데이터셋과 보상 모델을 구축하고, 그룹 상대적 정책 최적화를 통해 융합 네트워크를 미세 조정하여 인간 시각적 선호도와 더 잘 부합하는 최첨단 성능을 달성하는 피드백 강화 프레임워크를 제안합니다.
5504 편의 논문
이 논문은 인간 평가와 적외선/가시광선 이미지 융합을 연결하기 위해 대규모 인간 피드백 데이터셋과 보상 모델을 구축하고, 그룹 상대적 정책 최적화를 통해 융합 네트워크를 미세 조정하여 인간 시각적 선호도와 더 잘 부합하는 최첨단 성능을 달성하는 피드백 강화 프레임워크를 제안합니다.
이 논문은 2D 키 포인트 검출과 9D 회전 표현을 통합하여 단일 단계로 6D 포즈를 추정하는 Yolo-Key-6D 를 제안함으로써, 실시간성과 정확도를 동시에 확보하는 효율적인 모노큘러 6D 포즈 추정 프레임워크를 제시합니다.
이 논문은 다양한 실제 환경과 스타일화된 아바타에서도 고충실도 입술 동기화를 가능하게 하는 'UniSync'라는 통합 프레임워크를 제안하고, 새로운 벤치마크를 통해 기존 방법론보다 뛰어난 성능을 입증했습니다.
이 논문은 제한된 주석 데이터와 고해상도 점구름 표현이라는 어려움에도 불구하고, 점구름을 점진적으로 축소하고 특징 공간에서 이웃 정보를 통합하는 합성곱 기반 아키텍처를 통해 점토판 메타데이터 분류 성능을 Point-BERT 보다 향상시킨 새로운 네트워크를 제안합니다.
이 논문은 OOD(Out-of-Distribution) 검출과 분류 오류 예측을 통합적으로 평가하는 새로운 프레임워크와 지표를 제안하고, 이를 통해 제안된 SURE+ 방법이 기존 단일 점수 기반 접근법보다 신뢰성이 뛰어난 분류 모델을 구축할 수 있음을 입증합니다.
이 논문은 UAV 환경의 동적 제약과 제한된 온보드 자원을 고려하여 트랜스포머 기반 추적기와 확장 칼만 필터를 결합한 모듈형 비동기 추적 아키텍처 (MATA) 와 임베디드 시스템에 적합한 새로운 평가 프로토콜 및 NT2F 지표를 제안하고, 이를 통해 실시간 성능과 견고성을 입증했습니다.
이 논문은 미묘한 미적 차이를 구별하는 세밀한 이미지 미적 평가 (IAA) 를 위해 대규모 데이터셋 FGAesthetics 와 상대적 순위 기반의 차별적 점수 학습 프레임워크 FGAesQ 를 제안하여 기존 모델의 한계를 극복하고 정밀한 평가 성능을 입증합니다.
이 논문은 손글씨 인식에서 훈련 데이터와 다른 언어 분포를 가진 타겟 도메인에서 발생하는 성능 저하를 해결하기 위해, 추가 학습 없이 추론 시 n-그램 언어 모델을 트랜스포머 디코더에 주입하여 동적으로 적응하는 NGI(외부 n-그램 주입) 방법을 제안하고 그 유효성을 입증합니다.
이 논문은 기존 방식의 한계를 극복하기 위해 단일 패시 거리 가중치 추출 메커니즘과 GPU 가속 아키텍처를 도입한 DISC(Dense Integrated Semantic Context) 를 제안하여 대규모 오픈셋 의미 지도 작성의 정확성과 실시간 처리 능력을 획기적으로 향상시켰습니다.
본 논문은 메모리 뱅크나 교사 - 학생 구조 없이 RGB 와 3D 지형 정보를 융합하여 노이즈나 결손 모달리티 상황에서도 강인한 이상 탐지를 가능하게 하는 경량화되고 모달리티 유연한 비지도 프레임워크인 'CMDR-IAD'를 제안하며, MVTec 3D-AD 벤치마크와 실제 산업 데이터셋에서 최첨단 성능을 입증했습니다.
이 논문은 딥러닝 기반의 CNN(특히 DenseNet121) 을 활용하여 고 b-value 유방 DWI 이미지에서 발생하는 과/저강도 아티팩트를 슬라이스 단위로 효과적으로 탐지하고 그 위치를 시각화할 수 있음을 입증했습니다.
이 논문은 가시적인 시공간 이해를 넘어 보이지 않는 과거나 미래의 공간적 인과 결과를 추론하는 새로운 패러다임인 '공간적 인과 예측 (SCP)'과 이를 평가하기 위한 벤치마크 'SCP-Bench'를 제안하고, 기존 모델들의 한계를 분석하여 향후 발전 방향을 제시합니다.
이 논문은 Habitat 2.0 시뮬레이터와 고충실도 HM3D 장면을 기반으로 사전 지도 없이 시각 정보만으로 복잡한 실내 환경에서 충돌을 피하며 목표 지점에 도달하는 능력을 평가하기 위해 고안된 충돌 인식형 반응적 시각 항법 벤치마크인 RVN-Bench 를 제안합니다.
이 논문은 단일 입력 이미지에서 구조 정보는 유지하면서 다양한 질감과 색상을 생성하는 합성 데이터 방법과 교차 스케일 정보를 활용하며 색상 정보를 분리하는 네트워크를 제안하여, 다양한 도메인에서 강인한 범용 멀티모달 호모그래피 추정을 가능하게 합니다.
이 논문은 이질적인 다양한 로봇 손의 3 차원 정교한 조작을 위해 시간 중심이 아닌 구조 중심의 행동 표현을 도입하고, 관절별 궤적을 변수 길이 시퀀스로 처리하는 '구조적 행동 트랜스포머 (SAT)'를 제안하여 교차 구현체 기술 전이와 샘플 효율성을 크게 향상시켰음을 보여줍니다.
이 논문은 5,000 명의 환자로부터 수집된 22,000 개 이상의 3D MRI 데이터를 기반으로 사전 학습된 도메인 특화 비전 기반 모델인 ProFound 를 제안하며, 전립선 암 검출부터 분할까지 11 가지 임상 과제에서 기존 최첨단 모델과 경쟁력 있거나 더 우수한 성능을 입증합니다.
이 논문은 대규모 멀티모달 모델 (MLLM) 을 활용한 3D 미리보기 생성 단계와 미세 조정된 FLUX.2 모델을 기반으로 한 스킨 디코딩 단계를 결합한 오픈소스 양단계 파이프라인 'BLOCK'을 제안하여, 임의의 캐릭터 컨셉에서 픽셀 단위 정확한 마인크래프트 스킨을 생성하는 방법을 제시합니다.
이 논문은 RAG 기반의 데이터 증류 파이프라인과 다목적 재가중 최적화 전략을 결합한 'UniRain'을 제안하여, 다양한 야간 및 주간 조건에서 비줄무늬와 빗방울로 인한 왜곡을 모두 효과적으로 제거하는 범용 이미지 비 제거 프레임워크를 구축했습니다.
이 논문은 시각 기반 모델 (VFMs) 의 구조적 지식을 활용하여 비정형 이벤트 스트림의 자기지도 학습을 혁신하고, 기존 방법론의 한계를 극복하여 다양한 다운스트림 작업에서 뛰어난 일반화 성능과 데이터 효율성을 달성하는 새로운 사전 학습 프레임워크를 제안합니다.
이 논문은 학습 가능한 매개변수를 통해 예측 유형, 적분 영역 및 잔차 항을 동적으로 조정하여 저 NFE 환경에서 확산 모델의 샘플링 효율성과 생성 품질을 동시에 향상시키는 범용 ODE 솔버 'Dual-Solver'를 제안합니다.