CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation
이 논문은 기존 제로샷 모델인 nnInteractive 의 성능 한계를 극복하기 위해, 주석 데이터 흐름에 따라 소수의 파라미터만 지속적으로 미세 조정하는 CLoPA 전략을 제안하여 다양한 의료 영상 작업에서 전문가 수준의 분할 성능을 달성함을 보여줍니다.
4144 편의 논문
이 논문은 기존 제로샷 모델인 nnInteractive 의 성능 한계를 극복하기 위해, 주석 데이터 흐름에 따라 소수의 파라미터만 지속적으로 미세 조정하는 CLoPA 전략을 제안하여 다양한 의료 영상 작업에서 전문가 수준의 분할 성능을 달성함을 보여줍니다.
이 논문은 물리적 제약이나 안전 문제로 실제 탐사가 불가능한 상황에서 에이전트가 능동적 탐색 없이도 목표 지향적 미래 경로를 정신적으로 시뮬레이션하여 공간적 '만약에' 질문에 답할 수 있도록 돕는 최초의 대규모 데이터셋인 'WanderDream'을 제안하고, 이를 통해 세계 모델과 다중 모달 언어 모델의 상황 인식 추론 능력을 검증합니다.
이 논문은 Vision Foundation 모델의 특징 정렬을 통해 학습을 안정화하고, MeanFlow 디코더를 활용한 1 차원 인과적 이미지 토크나이저 'CaTok'을 제안하여 ImageNet 재구성 및 생성 성능에서 최첨단 결과를 달성했다고 요약할 수 있습니다.
이 논문은 Pinterest 의 대규모 이미지 생성 시스템인 'Canvas'를 소개하며, 다목적 기초 모델을 다양한 작업별 데이터셋으로 세밀하게 파인튜닝하여 배경 향상 및 비율 확장 등 구체적인 제품 요구사항을 충족시키고, 이를 통해 사용자 참여율을 크게 향상시켰음을 보고합니다.
이 논문은 손실 가중치와 출력 매개변수화 (노이즈, 깨끗한 이미지, 속도 기반) 가 데이터 매니폴드의 내재적 차원, 모델 아키텍처, 데이터셋 크기와 어떻게 상호작용하는지 체계적인 수치 실험을 통해 분석하여, 플로우 매칭 모델의 설계 선택에 대한 실용적인 통찰을 제공합니다.
이 논문은 비전 - 언어 모델의 고정된 특징 공간에 텍스트 생성 경로보다 정밀한 연속 기하학적 정보가 내재되어 있으며, 경량 프로브나 LoRA 미세 조정을 통해 이러한 잠재된 기하학적 신호를 효과적으로 추출할 수 있음을 보여줍니다.
이 논문은 자연어 처리의 '규모 확장' 패러다임에 의존하지 않고 'MUST' 감독 설계 원칙을 통해 제한된 컴퓨팅 자원으로도 최첨단 성능을 달성하는 자원 효율적인 방사선학 기초 모델인 GreenRFM 을 제안합니다.
이 논문은 의료 영상과 같은 전문 분야에서 희소 비디오 주석을 점과 마스크 모두에 대해 프레임 간 및 비디오 간에 전파할 수 있는 경량 프레임워크 'Match4Annotate'를 제안하며, DINOv3 특징을 기반으로 한 암시적 신경 표현과 변형 장을 통해 기존 방법론보다 우수한 성능을 달성함을 보여줍니다.
이 논문은 외부 모델에 의존하지 않고 생성 프레임워크 내에서 표현 학습을 통합하는 'Self-Flow'라는 자기지도 흐름 매칭 패러다임을 제안하며, 이질적인 노이즈 수준을 적용하는 듀얼 타임스텝 스케줄링 기법을 통해 이미지, 비디오, 오디오 등 다양한 모달리티에서 우수한 생성 성능과 확장성을 달성함을 보여줍니다.
이 논문은 밀집된 작물 수확을 위해 방향 조건부 가림 추론과 방향 인식 그래프 신경 아키텍처를 활용하여 고추 식물의 장기를 연결하는 장면 그래프를 학습하고, 이를 통해 과일을 수확할 때 방해되는 잎을 효과적으로 식별하는 SG-DOR 프레임워크를 제안합니다.
이 논문은 22 개 병원 9,215 명의 태아 초음파 이미지 45,139 장으로 학습된 인공지능 시스템이 구순구개열의 산전 진단 정확도를 93% 이상의 민감도와 95% 이상의 특이도로 달성하여 숙련된 전문의 수준에 도달하고 초급 전문의의 진단 능력을 향상시키며, 희귀 질환에 대한 임상 교육까지 동시에 개선할 수 있음을 보여줍니다.
이 논문은 CNN 과 트랜스포머 아키텍처 모두에 적용 가능한 범용 프레임워크인 SCAN 을 제안하여, 정보 병목 원리를 기반으로 한 자기-신뢰도 맵을 생성함으로써 기존 시각적 설명 방법의 한계를 극복하고 높은 충실도와 명확성을 갖춘 해석 가능한 AI 를 실현합니다.
이 논문은 다양한 오디오 - 비주얼 태스크의 입력과 출력을 이산 토큰 시퀀스로 표준화하고, 다중 스케일 시공간 감지 네트워크와 교차 모달 가이드를 통해 단일 아키텍처로 통합 학습하는 'AV-Unified' 프레임워크를 제안하여 복잡한 오디오 - 비주얼 장면 이해를 가능하게 합니다.
이 논문은 단일 광선 가정을 위반하는 확산형 LiDAR 의 특성으로 인해 기존 캘리브레이션 방법이 적용되지 않는 문제를 해결하기 위해, 스캔된 후방 반사 패치를 이용해 각 LiDAR 픽셀의 발자국과 상대적 공간 감도를 RGB 이미지 평면에서 추정하여 교차 모드 정렬 및 융합을 위한 명시적 대응 관계를 구축하는 간단한 공간 캘리브레이션 절차를 제안합니다.
이 논문은 사전 학습된 확산 모델의 재학습 없이 언어적 부정을 구조적 제약으로 모델링하여 텍스트-비디오 생성에서 객체 부재 및 다중 부정 등 다양한 부정 현상을 효과적으로 처리하는 새로운 프레임워크 'NEGATE'를 제안합니다.
이 논문은 XFEM 기반의 절제 데이터를 학습하여 대규모 볼륨 메쉬에서 실시간으로 정밀한 조직 변형과 절제 시뮬레이션을 동시에 수행하는 확장 가능한 멀티해상도 게이트형 트랜스포머 모델 'SurgFormer'를 제안합니다.
이 논문은 자율주행 차량의 다중 소스 및 다중 모달 데이터에서 중복성을 정량화하고 이를 제거함으로써 객체 감지 성능을 향상시킬 수 있음을 보여줌으로써, 데이터 품질 분석이 알고리즘 설계만큼 중요함을 강조합니다.
이 논문은 시계열적·공간적 복잡성을 가진 1 인칭 4D 추론 과제를 해결하기 위해, 각 작업의 인지 구조에 맞춰 추론 템플릿과 보상 신호를 적응적으로 정렬하는 2 단계 프레임워크 'EgoReasoner'를 제안하고, 소량의 데이터로 HD-EPIC 벤치마크에서 기존 대형 모델보다 우수한 성능을 달성함을 보여줍니다.
이 논문은 대규모 대비 학습 대신 텍스트 전용 LLM 에서 초기화된 비전 인코더를 사용하여 컴퓨팅 자원이 제한된 환경에서도 정밀한 시각적 표현과 높은 데이터 효율성을 달성하는 경량 비전 - 언어 모델 'Penguin-VL'을 제안합니다.
본 논문은 수술 전문가의 강의 영상에서 수술적 추론 신호를 대규모로 추출한 벤치마크 'SUREON'과 이를 기반으로 수술 안전 평가, 의사결정 근거, 예측 등을 수행하는 고성능 비전 - 언어 모델을 제안합니다.