Phi-4-reasoning-vision-15B Technical Report
이 논문은 체계적인 데이터 선별과 고해상도 인코더 아키텍처를 통해 컴퓨팅 자원을 효율적으로 사용하면서도 과학·수학 추론 및 UI 이해에 탁월한 성능을 보이는 소형 오픈 가중치 멀티모달 모델인 Phi-4-reasoning-vision-15B 의 개발 과정과 핵심 통찰을 제시합니다.
5515 편의 논문
이 논문은 체계적인 데이터 선별과 고해상도 인코더 아키텍처를 통해 컴퓨팅 자원을 효율적으로 사용하면서도 과학·수학 추론 및 UI 이해에 탁월한 성능을 보이는 소형 오픈 가중치 멀티모달 모델인 Phi-4-reasoning-vision-15B 의 개발 과정과 핵심 통찰을 제시합니다.
이 논문은 원격 탐사 영상의 과감한 추론 기반 분할을 위해 MLLM 추론과 정밀한 위치 추정을 결합한 제로샷 프레임워크 GeoSeg 과 이를 평가하는 벤치마크 GeoSeg-Bench 를 제안합니다.
이 논문은 오프라인 비디오 이해의 한계를 극복하고 실시간 상호작용을 평가하기 위해 회고적 기억, 실시간 인지, 사전 예측 태스크를 포함하는 새로운 벤치마크인 RIVER 를 제안하고, 이를 통해 실시간 비디오 이해 모델의 발전 방향을 제시합니다.
이 논문은 파레idolia(의인화) 현상을 활용하여 다양한 비전 모델이 모호한 시각적 증거를 해석하는 메커니즘을 분석하고, 비전 - 언어 모델이 의미적 과활성화를 보이는 반면 탐지 기반 모델은 보수적 경향을 보임을 규명하여 모델의 표현 방식이 모호성 하에서의 행동과 편향을 결정한다는 것을 제시합니다.
이 논문은 희소한 전문가 주석을 확장하여 당뇨망막병증의 초기 병변을 정밀하게 식별하고 분류 성능을 향상시키기 위해, 약한 지도 학습과 대비 학습을 결합한 'SAFE'라는 2 단계 프레임워크를 제안합니다.
이 논문은 추론 분할에서 모델이 참조 대상에 집중하도록 유도하여 추론의 정확성을 높이고 불필요한 설명을 줄이기 위해, 대상에 대한 설명적 캡션을 생성하고 이를 문맥과 대비하여 차별적 지각을 학습하는 'DPAD' 방법을 제안합니다.
이 논문은 의료 데이터의 양보다 질이 중요하다는 점을 규명하고 진단적 다양성 기반 샘플링 전략과 임상적 정확도를 최적화하는 'DiTPO' 알고리즘을 제안하여, 적은 학습 데이터로도 방사선 보고서 생성 분야에서 최첨단 성능을 달성하는 강화학습 프레임워크를 제시합니다.
이 논문은 모호한 의학적 영상 분할에서 결정론적 모델의 과도한 확신과 생성 모델의 구조적 오류를 해결하기 위해, 결정론적 합의 사전 지식을 기반으로 3D 경계 잔차장을 예측하여 해부학적 일관성을 유지하면서 불확실성을 정량화하는 '부피 방향성 확산 (VDD)' 모델을 제안합니다.
이 논문은 조합된 이미지 검색 (CIR) 작업에서 기존 대비 학습의 한계를 극복하고 미세한 속성 변경에 대한 정밀한 검색 성능을 향상시키기 위해, 수정 텍스트에 기반한 학습 가능한 속성 가중치와 목표 상대적 부정 샘플링을 도입한 DQE-CIR 방법을 제안합니다.
이 논문은 6 년에 걸친 5 개 해저 사이트의 데이터를 포함한 장기 시각적 국지화를 위한 첫 번째 큐레이션 데이터셋과 정밀한 지상 기준 생성 방법, 그리고 기존 벤치마크보다 낮은 성능을 보이는 최신 시각적 장소 인식 방법들의 평가 결과를 제시합니다.
이 논문은 Stable Diffusion 3 과 같은 다중 텍스트 인코더 모델에서 전체 파라미터의 0.2% 미만만 학습하여 효과적인 백도어 공격을 수행할 수 있음을 규명하고, 이를 위해 저랭크 어댑터만 학습하는 MELT 방법을 제안합니다.
이 논문은 세포 수준의 병리 이미지 분석에서 충분한 학습 데이터가 확보된 경우, 제한된 공간적 제약 하에서 사전 훈련된 대형 모델보다 과업 특화 아키텍처가 더 효과적이고 효율적임을 입증했습니다.
이 논문은 제한된 시야와 오클루전, 레이블 데이터 부족이라는 AR/VR 의 과제를 해결하기 위해 트랜스포머 기반의 정밀한 시공간 추정 모델과 대규모 무레이블 데이터를 활용한 자동 라벨링 시스템을 결합한 'EgoPoseFormer v2'를 제안하며, 이를 통해 기존 최첨단 방법 대비 정확도와 시간적 안정성을 획기적으로 개선하고 있음을 보여줍니다.
이 논문은 CLIP 임베딩을 기반으로 한 레벨 인식 비전 - 언어 프레임워크를 제안하여 다중 뷰 식물 이미지에서 시점 의존성 문제를 해결하고, 단일 다중 태스크 모델을 통해 식물 나이와 잎 수를 기존 방법보다 정밀하게 예측하는 다중 뷰 식물 표현 분석 기법을 소개합니다.
이 논문은 안구 추적 헤드셋의 시선 고정 (안정성) 과 동공 반응 (신규성) 을 결합한 이중 기준 프레임 큐레이터를 제안하여, 웨어러블 기기의 저장 및 배터리 제약 하에서도 전체 스트림과 동등한 학습 성능을 유지하면서 에고센트릭 비디오의 효율적인 데이터 선별을 가능하게 합니다.
이 논문은 점구름 처리를 위한 모듈형 특징 추출을 위한 '추상화 - 정제 (ABS-REF)' 관점을 제시하고, 고차원 위치 인코딩 (HPE) 과 비국소 MLP 를 도입하여 효율성과 성능을 동시에 극대화한 HPENets 를 개발하여 기존 MLP 기반 모델들을 압도하는 결과를 입증했습니다.
이 논문은 뇌 MRI 에서 인구통계학적 예측 신호가 주로 해부학적 변이에 기인하며 촬영 대비도 차이는 데이터셋에 국한된다는 사실을 해리 표현 학습을 통해 규명함으로써, 편향 완화 전략이 해부학적 및 촬영 의존적 원인을 모두 고려해야 함을 시사합니다.
이 논문은 다양한 원격탐사 모달리티 간의 불완전한 관측을 해결하기 위해 공유 잠재 공간 기반의 통합 확산 프레임워크인 'Any2Any'와 대규모 데이터셋 'RST-1M'을 제안하여, 기존 쌍별 변환 방법보다 뛰어난 성능과 미처 보지 못한 모달리티 조합에 대한 제로샷 일반화 능력을 입증합니다.
이 논문은 OCR 기반의 보조 텍스트 정보를 활용하여 초저비트레이트 이미지 압축 시 전체 화질을 유지하면서도 장면 내 작은 글자의 충실도를 획기적으로 향상시키는 'TextBoost' 방법을 제안합니다.
이 논문은 제한된 샘플과 개방형 환경에서의 동작 인식을 위해 영상 데이터에 Feature-Residual Discriminator 를 적용하여 기존 방법의 한계를 극복하고 새로운 최첨단 성능을 달성한 연구입니다.