MediX-R1: Open Ended Medical Reinforcement Learning
이 논문은 그룹 기반 강화학습과 정밀한 보상 신호를 활용하여 의료 다중 모달 대규모 언어 모델이 객관식 형식을 넘어 임상적으로 신뢰할 수 있는 자유형 답변을 생성할 수 있도록 한 'MediX-R1' 프레임워크를 제안하고, 이를 통해 기존 오픈소스 베이스라인을 능가하는 성능을 입증했습니다.
7808 편의 논문
이 논문은 그룹 기반 강화학습과 정밀한 보상 신호를 활용하여 의료 다중 모달 대규모 언어 모델이 객관식 형식을 넘어 임상적으로 신뢰할 수 있는 자유형 답변을 생성할 수 있도록 한 'MediX-R1' 프레임워크를 제안하고, 이를 통해 기존 오픈소스 베이스라인을 능가하는 성능을 입증했습니다.
이 논문은 이미지와 노이즈를 동시에 추정하고 반원호 각도로 재매개변수화하여 역확산 과정의 안정성과 고차 ODE 솔버 적용을 가능하게 함으로써 생성 속도와 품질을 동시에 향상시키는 새로운 확산 모델을 제안합니다.
이 논문은 동적 모드 분해 (DMD) 를 기반으로 비디오 시퀀스의 고유값 변화를 분석하여 실시간 보안 영상에서 전경 움직임을 효과적으로 감지하는 해석 가능한 알고리즘을 제안하고, 다양한 실제 조건에서 성능을 검증합니다.
이 논문은 딥러닝 기반 수중 이미지 향상 (UIE) 기술의 물리 모델, 알고리즘 분류, 평가 지표 및 최신 기법들의 정량적·정성적 비교 분석을 체계적으로 제공하여 향후 연구 방향을 제시합니다.
이 논문은 기존 대규모 시각 - 언어 모델 (LVLM) 환각 평가 벤치마크의 신뢰성과 타당성 문제를 지적하고, 이를 측정하는 HQM 프레임워크와 고품질 벤치마크인 HQH 를 제안하여 모델의 심각한 환각 현상을 규명하고 향후 개선 방향을 제시합니다.
PoseAdapt 은 새로운 작업에 맞춰 기존 모델을 재학습하지 않고도 지속 가능한 인간 포즈 추정을 가능하게 하는 오픈 소스 continual learning 프레임워크 및 벤치마크 세트를 제안합니다.
이 논문은 대규모 언어 모델 (LLM) 의 뛰어난 언어 이해 능력을 CLIP 에 효율적으로 통합하여 긴 캡션 처리 능력을 향상시키고, 대규모 재학습 없이 다양한 다운스트림 작업에서 최첨단 성능을 달성하는 새로운 미세 조정 프레임워크 'LLM2CLIP'을 제안합니다.
이 논문은 비전 - 언어 (VL) 인코더의 사전 학습 최적화를 탐구하기 위해 메타 분석을 수행하고, 대규모 VL 모델의 일부 부분을 동결하여 연산 비용을 절감하면서도 하위 작업 성능을 유지할 수 있음을 입증하는 동시에, 이러한 연구를 용이하게 하는 'Renaissance'라는 새로운 VL 평가 프레임워크를 제안합니다.
이 논문은 복잡한 해상 환경에서 무인 수상정 (USV) 의 시각 기반 객체 추적을 위해 7 가지 추적 알고리즘과 제어 기법을 벤치마크한 결과, SeqTrack 추적기와 LQR 제어기가 각기 가장 우수한 성능을 보였음을 입증합니다.
이 논문은 사전 학습된 분할 네트워크를 활용하여 소수의 주석만으로 객체 중심 표현을 학습함으로써 복잡한 시각 환경에서 샘플 효율성을 극대화하는 새로운 모델 기반 강화학습 프레임워크인 OC-STORM 을 제안하고, Atari 100k 와 Hollow Knight 벤치마크에서 기존 기법들을 압도하는 성능을 입증합니다.
이 논문은 시각적 유추 추론 능력을 평가하기 위해 VOILA 라는 새로운 벤치마크를 제안하고, 현재 MLLM 들이 이미지 간 관계 이해와 고수준 추론에서 인간에 비해 현저히 낮은 성능을 보이지만 단계적 프롬핑 전략을 통해 일부 개선될 수 있음을 규명했습니다.
이 논문은 액션 청킹을 통합한 비전 - 언어 - 행동 (VLA) 모델의 추론 효율성을 저하시키는 문제를 해결하기 위해, 모델 구조 변경 없이 훈련 없이도 추론 속도를 획기적으로 높이는 최초의 병렬 디코딩 프레임워크인 PD-VLA 를 제안하고 그 유효성을 실증합니다.
이 논문은 이미지 및 비디오 생성과 이해를 아우르는 대규모 인간 선호도 데이터셋을 기반으로 구축된 최초의 통합 보상 모델 'UnifiedReward'를 제안하여, 다양한 시각 작업 간의 시너지 효과를 통해 인간 선호도에 부합하는 멀티모달 모델 정렬을 달성함을 보여줍니다.
이 논문은 텍스트-이미지 확산 모델이 숨겨진 인스턴스 경계 정보를 내포하고 있음을 규명하여, 주석 없이도 경계를 추출하는 'TRACE' 방법을 제안함으로써 기존 방식보다 81 배 빠른 추론 속도와 높은 성능을 달성했다고 주장합니다.
이 논문은 대규모 언어 모델이나 추가 모듈 없이 단일 모델로 다양한 이미지 열화를 효율적으로 복원하기 위해 잠재 공간의 가중 재할당과 공간 - 주파수 병렬 융합 전략을 제안하는 'AnyIR'을 소개하며, 기존 방법 대비 매개변수와 연산량을 대폭 줄이면서도 최상의 성능을 달성함을 보여줍니다.
이 논문은 사용자의 피드백과 동기화된 대화 에이전트를 통해 이미지 생성을 점진적으로 정제하고 모호성을 해소하는 'Twin-Co' 프레임워크를 제안하여 사용자 경험과 생성 품질을 동시에 향상시키는 방법을 제시합니다.
본 논문은 확산 모델이 학습한 스코어 함수를 기반으로 -라플라시안 연산자를 수치적으로 근사하고 이론적 오차 한계를 증명하여, 조건부 텍스트가 없는 상황에서도 훈련 데이터의 암기를 효과적으로 식별할 수 있음을 보여줍니다.
본 연구는 사전 학습된 트랜스포머 기반의 SMIT 모델을 균형 있는 커리큘럼 학습으로 미세 조정하여, 라벨이 지정된 훈련 데이터의 양을 크게 줄이면서도 다양한 환자 및 영상 조건에 걸쳐 방사선 치료 계획에 필요한 심장 하부 구조 분할의 정확도와 견고성을 유지할 수 있음을 입증했습니다.
이 논문은 비전 - 언어 모델 (VLM) 의 잠재 공간 내 안전 결정 경계를 탐지하고 교차하는 새로운 'JailBound' 프레임워크를 제안하여, 기존 방법론의 한계를 극복하고 다양한 모델에서 기존 최첨단 기법보다 높은 성공률로 안전 장벽을 우회하는 공격을 가능하게 함을 보여줍니다.
이 논문은 대규모 데이터와 계산 자원이 없이도 비전 - 언어 모델이 학습 중 자신의 필요에 따라 가장 유익한 샘플을 동적으로 선택하여 효율적으로 학습할 수 있도록 하는 'PROGRESS'라는 새로운 프레임워크를 제안하고 그 우수성을 입증합니다.