PRIMA: Pre-training with Risk-integrated Image-Metadata Alignment for Medical Diagnosis via LLM
이 논문은 RAG 를 통해 임상 지식을 통합하고 DINOv3 와 개선된 BERT 를 활용한 이중 인코더 사전 학습 전략을 제안하여, 의료 이미지와 메타데이터 간의 정밀한 정렬을 통해 기존 방법보다 뛰어난 진단 성능과 강건성을 달성하는 PRIMA 프레임워크를 소개합니다.
7596 편의 논문
이 논문은 RAG 를 통해 임상 지식을 통합하고 DINOv3 와 개선된 BERT 를 활용한 이중 인코더 사전 학습 전략을 제안하여, 의료 이미지와 메타데이터 간의 정밀한 정렬을 통해 기존 방법보다 뛰어난 진단 성능과 강건성을 달성하는 PRIMA 프레임워크를 소개합니다.
이 논문은 텍스트 프롬프트에 픽셀 주석이 달린 소수의 지원 이미지를 결합하고, 텍스트와 시각적 특징을 융합하는 학습 기반 검색 증강 어댑터를 도입하여, 개방 어휘 분할의 제로샷 성능과 완전 지도 학습 간의 격차를 획기적으로 줄이는 새로운 Few-shot 설정을 제안합니다.
이 논문은 시각 - 언어 모델의 추론 능력 부재가 훈련 데이터의 보고 편향 (reporting bias) 에 기인하며, 단순한 규모 확장이 아닌 의도적인 암묵 정보 수집을 통한 데이터 큐레이션이 이러한 결함을 해결하는 핵심임을 주장합니다.
이 논문은 이벤트 카메라의 내재적 파라미터가 객체 탐지 모델 성능에 미치는 영향을 심층 분석하고, 이를 통해 센서 간 일반화 능력을 갖춘 적응형 감지 모델을 구축하기 위한 결합 분포 학습 기법을 제시합니다.
이 논문은 사전에 로드된 대규모 참조 데이터셋의 이미지 레이블만 전송하여 픽셀 데이터 전송을 완전히 제거하고, 1MB 미만의 초소형 페이로드로도 높은 분류 정확도를 유지하는 새로운 데이터셋 서비스 방법인 'PLADA'를 제안합니다.
이 논문은 가시성 없는 영역을 투명하게 표현하는 3D 장면 표현 (OSCR) 과 마스크 자기 주의를 도입하여, 텍스트-이미지 생성에서 다중 객체의 3D 배치와 깊이 일관성을 유지하면서 정확한 가림 (occlusion) 처리를 가능하게 하는 'SeeThrough3D' 모델을 제안합니다.
이 논문은 입력 이미지 수에 비례하여 계산 및 메모리 요구 사항이 선형적으로 증가하도록 키 - 값 (KV) 공간 표현을 고정 크기의 MLP 로 응축하는 'VGG-T'를 제안하여, 기존 오프라인 피드 - 포워드 3D 재구성 방법의 성능 한계를 극복하고 대규모 장면 재구성과 시각적 위치 추정에서 뛰어난 효율성과 정확성을 달성했습니다.
이 논문은 그룹 기반 강화학습과 정밀한 보상 신호를 활용하여 의료 다중 모달 대규모 언어 모델이 객관식 형식을 넘어 임상적으로 신뢰할 수 있는 자유형 답변을 생성할 수 있도록 한 'MediX-R1' 프레임워크를 제안하고, 이를 통해 기존 오픈소스 베이스라인을 능가하는 성능을 입증했습니다.
이 논문은 이미지와 노이즈를 동시에 추정하고 반원호 각도로 재매개변수화하여 역확산 과정의 안정성과 고차 ODE 솔버 적용을 가능하게 함으로써 생성 속도와 품질을 동시에 향상시키는 새로운 확산 모델을 제안합니다.
이 논문은 동적 모드 분해 (DMD) 를 기반으로 비디오 시퀀스의 고유값 변화를 분석하여 실시간 보안 영상에서 전경 움직임을 효과적으로 감지하는 해석 가능한 알고리즘을 제안하고, 다양한 실제 조건에서 성능을 검증합니다.
이 논문은 딥러닝 기반 수중 이미지 향상 (UIE) 기술의 물리 모델, 알고리즘 분류, 평가 지표 및 최신 기법들의 정량적·정성적 비교 분석을 체계적으로 제공하여 향후 연구 방향을 제시합니다.
이 논문은 기존 대규모 시각 - 언어 모델 (LVLM) 환각 평가 벤치마크의 신뢰성과 타당성 문제를 지적하고, 이를 측정하는 HQM 프레임워크와 고품질 벤치마크인 HQH 를 제안하여 모델의 심각한 환각 현상을 규명하고 향후 개선 방향을 제시합니다.
PoseAdapt 은 새로운 작업에 맞춰 기존 모델을 재학습하지 않고도 지속 가능한 인간 포즈 추정을 가능하게 하는 오픈 소스 continual learning 프레임워크 및 벤치마크 세트를 제안합니다.
이 논문은 대규모 언어 모델 (LLM) 의 뛰어난 언어 이해 능력을 CLIP 에 효율적으로 통합하여 긴 캡션 처리 능력을 향상시키고, 대규모 재학습 없이 다양한 다운스트림 작업에서 최첨단 성능을 달성하는 새로운 미세 조정 프레임워크 'LLM2CLIP'을 제안합니다.
이 논문은 비전 - 언어 (VL) 인코더의 사전 학습 최적화를 탐구하기 위해 메타 분석을 수행하고, 대규모 VL 모델의 일부 부분을 동결하여 연산 비용을 절감하면서도 하위 작업 성능을 유지할 수 있음을 입증하는 동시에, 이러한 연구를 용이하게 하는 'Renaissance'라는 새로운 VL 평가 프레임워크를 제안합니다.
이 논문은 복잡한 해상 환경에서 무인 수상정 (USV) 의 시각 기반 객체 추적을 위해 7 가지 추적 알고리즘과 제어 기법을 벤치마크한 결과, SeqTrack 추적기와 LQR 제어기가 각기 가장 우수한 성능을 보였음을 입증합니다.
이 논문은 사전 학습된 분할 네트워크를 활용하여 소수의 주석만으로 객체 중심 표현을 학습함으로써 복잡한 시각 환경에서 샘플 효율성을 극대화하는 새로운 모델 기반 강화학습 프레임워크인 OC-STORM 을 제안하고, Atari 100k 와 Hollow Knight 벤치마크에서 기존 기법들을 압도하는 성능을 입증합니다.
이 논문은 시각적 유추 추론 능력을 평가하기 위해 VOILA 라는 새로운 벤치마크를 제안하고, 현재 MLLM 들이 이미지 간 관계 이해와 고수준 추론에서 인간에 비해 현저히 낮은 성능을 보이지만 단계적 프롬핑 전략을 통해 일부 개선될 수 있음을 규명했습니다.
이 논문은 액션 청킹을 통합한 비전 - 언어 - 행동 (VLA) 모델의 추론 효율성을 저하시키는 문제를 해결하기 위해, 모델 구조 변경 없이 훈련 없이도 추론 속도를 획기적으로 높이는 최초의 병렬 디코딩 프레임워크인 PD-VLA 를 제안하고 그 유효성을 실증합니다.
이 논문은 이미지 및 비디오 생성과 이해를 아우르는 대규모 인간 선호도 데이터셋을 기반으로 구축된 최초의 통합 보상 모델 'UnifiedReward'를 제안하여, 다양한 시각 작업 간의 시너지 효과를 통해 인간 선호도에 부합하는 멀티모달 모델 정렬을 달성함을 보여줍니다.