Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

이 논문은 텍스트 프롬프트에 픽셀 주석이 달린 소수의 지원 이미지를 결합하고, 텍스트와 시각적 특징을 융합하는 학습 기반 검색 증강 어댑터를 도입하여, 개방 어휘 분할의 제로샷 성능과 완전 지도 학습 간의 격차를 획기적으로 줄이는 새로운 Few-shot 설정을 제안합니다.

Tilemachos Aravanis, Vladan Stojnić, Bill Psomas + 2 more2026-02-27💻 cs

VGG-T3^3: Offline Feed-Forward 3D Reconstruction at Scale

이 논문은 입력 이미지 수에 비례하여 계산 및 메모리 요구 사항이 선형적으로 증가하도록 키 - 값 (KV) 공간 표현을 고정 크기의 MLP 로 응축하는 'VGG-T3^3'를 제안하여, 기존 오프라인 피드 - 포워드 3D 재구성 방법의 성능 한계를 극복하고 대규모 장면 재구성과 시각적 위치 추정에서 뛰어난 효율성과 정확성을 달성했습니다.

Sven Elflein, Ruilong Li, Sérgio Agostinho + 4 more2026-02-27💻 cs

MediX-R1: Open Ended Medical Reinforcement Learning

이 논문은 그룹 기반 강화학습과 정밀한 보상 신호를 활용하여 의료 다중 모달 대규모 언어 모델이 객관식 형식을 넘어 임상적으로 신뢰할 수 있는 자유형 답변을 생성할 수 있도록 한 'MediX-R1' 프레임워크를 제안하고, 이를 통해 기존 오픈소스 베이스라인을 능가하는 성능을 입증했습니다.

Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed + 5 more2026-02-27💻 cs

Renaissance: Investigating the Pretraining of Vision-Language Encoders

이 논문은 비전 - 언어 (VL) 인코더의 사전 학습 최적화를 탐구하기 위해 메타 분석을 수행하고, 대규모 VL 모델의 일부 부분을 동결하여 연산 비용을 절감하면서도 하위 작업 성능을 유지할 수 있음을 입증하는 동시에, 이러한 연구를 용이하게 하는 'Renaissance'라는 새로운 VL 평가 프레임워크를 제안합니다.

Clayton Fields, Casey Kennington2026-02-26💬 cs.CL

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

이 논문은 사전 학습된 분할 네트워크를 활용하여 소수의 주석만으로 객체 중심 표현을 학습함으로써 복잡한 시각 환경에서 샘플 효율성을 극대화하는 새로운 모델 기반 강화학습 프레임워크인 OC-STORM 을 제안하고, Atari 100k 와 Hollow Knight 벤치마크에서 기존 기법들을 압도하는 성능을 입증합니다.

Weipu Zhang, Adam Jelley, Trevor McInroe + 2 more2026-02-26🤖 cs.LG

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

이 논문은 액션 청킹을 통합한 비전 - 언어 - 행동 (VLA) 모델의 추론 효율성을 저하시키는 문제를 해결하기 위해, 모델 구조 변경 없이 훈련 없이도 추론 속도를 획기적으로 높이는 최초의 병렬 디코딩 프레임워크인 PD-VLA 를 제안하고 그 유효성을 실증합니다.

Wenxuan Song, Jiayi Chen, Pengxiang Ding + 9 more2026-02-26💻 cs