cs.CV 편의 논문 | Gist.Science

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

이 논문은 기존 제로샷 모델인 nnInteractive 의 성능 한계를 극복하기 위해, 주석 데이터 흐름에 따라 소수의 파라미터만 지속적으로 미세 조정하는 CLoPA 전략을 제안하여 다양한 의료 영상 작업에서 전문가 수준의 분할 성능을 달성함을 보여줍니다.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

이 논문은 물리적 제약이나 안전 문제로 실제 탐사가 불가능한 상황에서 에이전트가 능동적 탐색 없이도 목표 지향적 미래 경로를 정신적으로 시뮬레이션하여 공간적 '만약에' 질문에 답할 수 있도록 돕는 최초의 대규모 데이터셋인 'WanderDream'을 제안하고, 이를 통해 세계 모델과 다중 모달 언어 모델의 상황 인식 추론 능력을 검증합니다.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

이 논문은 Vision Foundation 모델의 특징 정렬을 통해 학습을 안정화하고, MeanFlow 디코더를 활용한 1 차원 인과적 이미지 토크나이저 'CaTok'을 제안하여 ImageNet 재구성 및 생성 성능에서 최첨단 결과를 달성했다고 요약할 수 있습니다.

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

이 논문은 Pinterest 의 대규모 이미지 생성 시스템인 'Canvas'를 소개하며, 다목적 기초 모델을 다양한 작업별 데이터셋으로 세밀하게 파인튜닝하여 배경 향상 및 비율 확장 등 구체적인 제품 요구사항을 충족시키고, 이를 통해 사용자 참여율을 크게 향상시켰음을 보고합니다.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

이 논문은 손실 가중치와 출력 매개변수화 (노이즈, 깨끗한 이미지, 속도 기반) 가 데이터 매니폴드의 내재적 차원, 모델 아키텍처, 데이터셋 크기와 어떻게 상호작용하는지 체계적인 수치 실험을 통해 분석하여, 플로우 매칭 모델의 설계 선택에 대한 실용적인 통찰을 제공합니다.

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

이 논문은 비전 - 언어 모델의 고정된 특징 공간에 텍스트 생성 경로보다 정밀한 연속 기하학적 정보가 내재되어 있으며, 경량 프로브나 LoRA 미세 조정을 통해 이러한 잠재된 기하학적 신호를 효과적으로 추출할 수 있음을 보여줍니다.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

이 논문은 자연어 처리의 '규모 확장' 패러다임에 의존하지 않고 'MUST' 감독 설계 원칙을 통해 제한된 컴퓨팅 자원으로도 최첨단 성능을 달성하는 자원 효율적인 방사선학 기초 모델인 GreenRFM 을 제안합니다.

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

이 논문은 의료 영상과 같은 전문 분야에서 희소 비디오 주석을 점과 마스크 모두에 대해 프레임 간 및 비디오 간에 전파할 수 있는 경량 프레임워크 'Match4Annotate'를 제안하며, DINOv3 특징을 기반으로 한 암시적 신경 표현과 변형 장을 통해 기존 방법론보다 우수한 성능을 달성함을 보여줍니다.

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

이 논문은 외부 모델에 의존하지 않고 생성 프레임워크 내에서 표현 학습을 통합하는 'Self-Flow'라는 자기지도 흐름 매칭 패러다임을 제안하며, 이질적인 노이즈 수준을 적용하는 듀얼 타임스텝 스케줄링 기법을 통해 이미지, 비디오, 오디오 등 다양한 모달리티에서 우수한 생성 성능과 확장성을 달성함을 보여줍니다.

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed ⓘ💻 cs

SG-DOR: Learning Scene Graphs with Direction-Conditioned Occlusion Reasoning for Pepper Plants

이 논문은 밀집된 작물 수확을 위해 방향 조건부 가림 추론과 방향 인식 그래프 신경 아키텍처를 활용하여 고추 식물의 장기를 연결하는 장면 그래프를 학습하고, 이를 통해 과일을 수확할 때 방해되는 잎을 효과적으로 식별하는 SG-DOR 프레임워크를 제안합니다.

Rohit Menon, Niklas Mueller-Goldingen, Sicong Pan, Gokul Krishna Chenchani, Maren Bennewitz2026-03-09💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

이 논문은 22 개 병원 9,215 명의 태아 초음파 이미지 45,139 장으로 학습된 인공지능 시스템이 구순구개열의 산전 진단 정확도를 93% 이상의 민감도와 95% 이상의 특이도로 달성하여 숙련된 전문의 수준에 도달하고 초급 전문의의 진단 능력을 향상시키며, 희귀 질환에 대한 임상 교육까지 동시에 개선할 수 있음을 보여줍니다.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

SCAN: Visual Explanations with Self-Confidence and Analysis Networks

이 논문은 CNN 과 트랜스포머 아키텍처 모두에 적용 가능한 범용 프레임워크인 SCAN 을 제안하여, 정보 병목 원리를 기반으로 한 자기-신뢰도 맵을 생성함으로써 기존 시각적 설명 방법의 한계를 극복하고 높은 충실도와 명확성을 갖춘 해석 가능한 AI 를 실현합니다.

Gwanghee Lee, Sungyoon Jeong, Kyoungson Jhang2026-03-09💻 cs

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

이 논문은 다양한 오디오 - 비주얼 태스크의 입력과 출력을 이산 토큰 시퀀스로 표준화하고, 다중 스케일 시공간 감지 네트워크와 교차 모달 가이드를 통해 단일 아키텍처로 통합 학습하는 'AV-Unified' 프레임워크를 제안하여 복잡한 오디오 - 비주얼 장면 이해를 가능하게 합니다.

Guangyao Li, Xin Wang, Wenwu Zhu2026-03-09💻 cs

Spatial Calibration of Diffuse LiDARs

이 논문은 단일 광선 가정을 위반하는 확산형 LiDAR 의 특성으로 인해 기존 캘리브레이션 방법이 적용되지 않는 문제를 해결하기 위해, 스캔된 후방 반사 패치를 이용해 각 LiDAR 픽셀의 발자국과 상대적 공간 감도를 RGB 이미지 평면에서 추정하여 교차 모드 정렬 및 융합을 위한 명시적 대응 관계를 구축하는 간단한 공간 캘리브레이션 절차를 제안합니다.

Nikhil Behari, Ramesh Raskar2026-03-09💻 cs

NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

이 논문은 사전 학습된 확산 모델의 재학습 없이 언어적 부정을 구조적 제약으로 모델링하여 텍스트-비디오 생성에서 객체 부재 및 다중 부정 등 다양한 부정 현상을 효과적으로 처리하는 새로운 프레임워크 'NEGATE'를 제안합니다.

Taewon Kang, Ming C. Lin2026-03-09💻 cs

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

이 논문은 XFEM 기반의 절제 데이터를 학습하여 대규모 볼륨 메쉬에서 실시간으로 정밀한 조직 변형과 절제 시뮬레이션을 동시에 수행하는 확장 가능한 멀티해상도 게이트형 트랜스포머 모델 'SurgFormer'를 제안합니다.

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving

이 논문은 자율주행 차량의 다중 소스 및 다중 모달 데이터에서 중복성을 정량화하고 이를 제거함으로써 객체 감지 성능을 향상시킬 수 있음을 보여줌으로써, 데이터 품질 분석이 알고리즘 설계만큼 중요함을 강조합니다.

Yuhan Zhou, Mehri Sattari, Haihua Chen, Kewei Sha2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

이 논문은 시계열적·공간적 복잡성을 가진 1 인칭 4D 추론 과제를 해결하기 위해, 각 작업의 인지 구조에 맞춰 추론 템플릿과 보상 신호를 적응적으로 정렬하는 2 단계 프레임워크 'EgoReasoner'를 제안하고, 소량의 데이터로 HD-EPIC 벤치마크에서 기존 대형 모델보다 우수한 성능을 달성함을 보여줍니다.

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

이 논문은 대규모 대비 학습 대신 텍스트 전용 LLM 에서 초기화된 비전 인코더를 사용하여 컴퓨팅 자원이 제한된 환경에서도 정밀한 시각적 표현과 높은 데이터 효율성을 달성하는 경량 비전 - 언어 모델 'Penguin-VL'을 제안합니다.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

본 논문은 수술 전문가의 강의 영상에서 수술적 추론 신호를 대규모로 추출한 벤치마크 'SUREON'과 이를 기반으로 수술 안전 평가, 의사결정 근거, 예측 등을 수행하는 고성능 비전 - 언어 모델을 제안합니다.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

← 이전 다음 →