GrapHist: Graph Self-Supervised Learning for Histopathology
이 논문은 조직 내 세포와 그 상호작용을 그래프로 모델링하여 효율적인 표현 학습을 가능하게 하는 그래프 기반 자기지도 학습 프레임워크 'GrapHist'를 제안하고, 이를 통해 기존 비전 기반 모델보다 적은 파라미터로 뛰어난 성능을 달성함과 동시에 해당 분야의 첫 대규모 그래프 벤치마크를 공개했습니다.
9978 편의 논문
이 논문은 조직 내 세포와 그 상호작용을 그래프로 모델링하여 효율적인 표현 학습을 가능하게 하는 그래프 기반 자기지도 학습 프레임워크 'GrapHist'를 제안하고, 이를 통해 기존 비전 기반 모델보다 적은 파라미터로 뛰어난 성능을 달성함과 동시에 해당 분야의 첫 대규모 그래프 벤치마크를 공개했습니다.
이 논문은 물리적 타당성과 상호작용 의미론을 동시에 고려하여 3D 인간 - 인간 상호작용을 생성하기 위해, CoTransformer 모듈을 통해 전역 상호작용 맥락과 개별 운동 패턴을 분리하고 대비 학습을 적용한 계층적 잠재 확산 모델 (DHVAE) 을 제안합니다.
이 논문은 3D 가우스 스플래팅을 MRI 재구성에 적용하여 물리 일관성 있는 원시 객체, 신경 잔차 필드, 다중 해상도 점진적 학습을 통해 기존 방법 대비 14 배 빠른 속도와 40.31dB PSNR 의 우수한 화질을 달성한 'M-Gaussian' 프레임워크를 제안합니다.
이 논문은 기계적 메커니즘을 기반으로 한 LoRA 미세조정 기법을 통해 의료 비전 - 언어 모델의 재문장 일관성을 크게 향상시키면서도 정확도를 유지하거나 개선하는 방법을 제시합니다.
본 논문은 물리 법칙을 준수하는 다중 해상도 잔차 보정 및 멀티 웨이블릿 기반의 'ReMD' 프레임워크를 제안하여, 기존 확산 모델의 한계를 극복하고 유체 초해상도 작업에서 물리적 일관성을 유지하면서도 효율적으로 고품질 결과를 생성하는 방법을 제시합니다.
이 논문은 추가 학습 없이 그라디언트 기반의 '앵커 및 쉼' 기법을 통해 워터마킹이 적용된 저작권 이미지를 복제하거나 저작권 모호성을 유발할 수 있는 확산 모델의 치명적인 취약점과 '신경 표절' 위협을 규명합니다.
이 논문은 로봇의 자기 가림 (self-occlusion) 문제를 해결하고 인간과의 안전한 협업을 위해 단일 카메라의 한계를 극복하는 다중 뷰 (multi-view) 로봇 작업 진행도 예측 아키텍처를 제안하고, Mobile ALOHA 를 통한 실험으로 그 유효성을 입증했습니다.
이 논문은 의미 인식 기반 정보 추출, 텍스트를 이미지로 변환하는 토큰 압축 기술, 그리고 보조 모델 없이 레이아웃 위반을 감지하는 알고리즘을 통해 학술 포스터 자동 생성의 효율성과 신뢰성을 혁신적으로 개선한 'EfficientPosterGen' 프레임워크를 제안합니다.
BiCLIP 는 시각적 특징이 텍스트 표현을 반복적으로 정제하는 양방향 멀티모달 융합 메커니즘과 증강 일관성 목적 함수를 도입하여, 데이터 부족 및 이미지 열화 환경에서도 기존 최첨단 모델보다 뛰어난 성능을 보이는 견고한 의료 영상 분할 프레임워크를 제안합니다.
이 논문은 웹캠 이미지와 기상 데이터를 후기 융합 (late-fusion) 방식으로 결합하여 후지산의 경관 가시성을 5 개 카테고리로 예측하는 'FujiView' 프레임워크와 대규모 데이터셋을 제안하며, 단기 예측에는 이미지 기반 특징이, 장기 예측에는 기상 데이터가 각각 우세하게 작용하여 높은 정확도를 달성함을 보여줍니다.
이 논문은 다중 모달 기반의 오토레거시 생성 모델을 강화 학습 (GRPO) 과 인간 선호도 기반의 다중 모달 LLM 평가 시스템을 결합하여, 입모양 동기화, 자연스러운 표정, 그리고 운동의 일관성을 극대화한 고품질 오디오 기반 구두 영상 생성 프레임워크인 FlowPortrait 를 제안합니다.
본 논문은 대규모 잡초 - 작물 데이터셋을 구축하고 DINOv3 를 YOLO26 에 통합하여 잡초 탐지 성능과 도메인 간 일반화 능력을 획기적으로 향상시킨 새로운 모델을 제안합니다.
이 논문은 저자원 및 원격 환경에서 전문 장비 없이도 스마트폰을 통해 안구 홍반 정량화, 깜빡임 빈도 추정, 동공 반사 분석, 공막 색소 지수화, 그리고 병변 침범 측정 등 5 가지 설명 가능한 모듈을 제공하는 경량 컴퓨터 비전 기반의 안과 선별 및 장기 추적 시스템 'SKINOPATHY AI'의 아키텍처, 알고리즘, 윤리적 한계를 제시합니다.
이 논문은 종양학적 FDG-PET/CT 스캔에서 전문가의 눈동자 추적 데이터를 기반으로 한 'GazeXPErT' 데이터셋을 제시하여, AI 모델의 해석 가능성과 설명 가능성을 높이고 종양 분할 및 병변 국소화 성능을 향상시키는 방법을 탐구합니다.
이 논문은 극심한 클래스 불균형으로 인해 기존 영역 지표만으로는 화이트보드 획 분할의 실패를 감지하기 어렵다는 문제를 해결하기 위해, 경계 지표와 얇은 획 하위집단 분석을 포함한 새로운 평가 프로토콜을 제안하고, 이를 통해 학습된 모델이 전통적인 이진화 방법보다 평균 정확도는 낮을지라도 worst-case 상황에서 더 높은 신뢰성을 제공함을 입증했습니다.
이 논문은 MLLM 의 시각적 주의를 통합하고 질문 기반 노이즈를 줄인 'ConFoThinking'프레임워크를 제안하여, 시각적 질문 답변 (VQA) 작업에서 정밀한 영역 식별 및 성능 향상을 달성함을 보여줍니다.
본 논문은 생성형 AI 가 복잡한 이미지보다 단순한 색상 생성과 같은 지시사항을 따르는 데 어려움을 겪는 '단순성의 역설'을 규명하기 위해 순응도 (Obedience) 의 계층적 평가 체계와 순수 색상 생성에 특화된 새로운 벤치마크 'VIOLIN'을 제안합니다.
이 논문은 터키산 올리브 품종을 분류하기 위해 스테레오 카메라로 촬영한 이미지를 MobileNetV2 와 EfficientNetB0 같은 CNN 모델로 분석한 결과, 전이 학습을 적용한 EfficientNetB0 가 94.5% 의 정확도로 가장 우수한 성능을 보였음을 입증합니다.
이 논문은 약 5000 만 개의 클립으로 훈련된 비디오 기초 모델 'Summer-22B'의 개발 과정에서 데이터셋 엔지니어링이 가장 많은 노력을 요구했으며, P 파라미터화와 초구면 제약 최적화 등의 기술적 결정 사항과 배운 교훈을 체계적으로 보고합니다.
이 논문은 GUI 에이전트의 장기 작업 시 KV 캐시 메모리 부담을 해결하기 위해, UI 요소의 공간적 중요성과 상호작용 궤적의 의미적 중복성을 고려한 훈련 없는 이중 브랜치 압축 프레임워크인 ST-Lite 를 제안하며, 이를 통해 캐시 사용량을 10-20% 로 줄이면서도 2.45 배의 디코딩 가속화와 동등하거나 더 나은 성능을 달성함을 보여줍니다.