cs.CV 편의 논문 | Gist.Science

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

본 논문은 의료 이미지 분할이 데이터 양에 따라 전역적 스케일링 법칙을 따르지만 기하학적 구조에 의해 성능 한계가 존재함을 규명하고, 위상 인식 증강 기법이 이러한 한계 내에서 데이터 효율성을 향상시킨다는 것을 15 가지 작업에 대한 대규모 실험을 통해 입증했습니다.

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs

VeCoR -- Velocity Contrastive Regularization for Flow Matching

본 논문은 유동 매칭 (Flow Matching) 모델의 궤적 안정성과 생성 품질을 향상시키기 위해, 목표 방향 정렬과 오프-매니폴드 방향 반발을 동시에 수행하는 '속도 대비 정규화 (VeCoR)'를 제안하여 저단계 및 경량 설정에서도 FID 점수를 크게 개선함을 보여줍니다.

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

이 논문은 비디오 확산 트랜스포머의 길이 외삽 한계를 해결하기 위해 어텐션 분산 현상을 규명하고, 이를 억제하는 훈련 없는 플러그인 방법인 UltraViCo 를 제안하여 기존 방법 대비 4 배의 외삽 성능과 품질 향상을 달성함을 보여줍니다.

Min Zhao, Hongzhou Zhu, Yingze Wang + 6 more2026-03-03💻 cs

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

이 논문은 원격 탐사 이미지의 도메인 차이와 밀집 주석 부족 문제를 해결하기 위해, 희소 점 주석만으로 Segment Anything Model(SAM) 을 적응시키고 점-박스-강화의 반복 루프를 통해 자기 프롬핑 및 의미 정렬을 수행하는 'ReSAM' 프레임워크를 제안하고 다양한 벤치마크에서 우수한 성능을 입증합니다.

M. Naseer Subhani2026-03-03💻 cs

InnoGym: Benchmarking the Innovation Potential of AI Agents

이 논문은 기존 벤치마크가 간과한 해결책의 다양성과 독창성을 평가하기 위해 성능 향상과 신규성 지표를 도입한 AI 에이전트의 혁신 잠재력 평가 프레임워크인 'InnoGym'을 제안하고, 창의성과 효과성 간의 간극을 실증적으로 분석합니다.

Jintian Zhang, Kewei Xu, Jingsheng Zheng + 10 more2026-03-03💬 cs.CL

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

이 논문은 인간의 능동적 시각 메커니즘에서 영감을 받아, 강화 학습과 'Decoupled Turn Policy Optimization (DTPO)' 기법을 통해 각 샘플에 필요한 최소한의 시각 토큰을 자율적으로 결정하고 필요한 경우에만 추가 정보를 획득하는 효율적인 비전 - 언어 모델 'AdaptVision' 을 제안합니다.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

이 논문은 푸리에 분석을 통해 이미지의 구조적 특징과 스타일적 특징을 명시적으로 분리하는 '푸리에 주의 기반 표현 학습 (FARL)' 프레임워크를 제안하여, 비전 - 언어 모델의 소수 샷 일반화 성능을 향상시키는 방법을 제시합니다.

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

이 논문은 4 밴드 플래닛랩스 위성 영상을 기반으로 한 경량 비지도 변이 오토인코더 (VAE) 모델을 개발하여 수단 내 분쟁 관련 화재 지역을 24~30 시간 이내로 탐지하는 데 기존 방법들보다 높은 성능을 보였음을 입증합니다.

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

이 논문은 Mask to Adapt (M2A) 프레임워크를 통해 continual test-time adaptation 에서 선택 전략을 고정하고 공간적 및 주파수적 마스킹 패밀리를 체계적으로 비교한 결과, 아키텍처와 작업에 따라 마스킹 패밀리가 적응의 성패를 결정하며 특히 패치 토큰화 아키텍처에서는 공간적 마스킹이 구조 보존을 통해 주파수적 마스킹의 치명적 불안정성을 극복함을 규명했습니다.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

이 논문은 fMRI 시계열 데이터의 노이즈와 시간적 변동을 극복하고 추상적인 뇌 역동성을 학습하기 위해 의미 토크나이저와 자기 증류 목표를 도입한 'Brain-Semantoks'라는 자기지도 학습 프레임워크를 제안하며, 이를 통해 소량의 라벨 데이터로도 다양한 하위 작업에서 뛰어난 성능과 도메인 적응 없이도 분포 외 일반화 능력을 달성함을 보여줍니다.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

이 논문은 다양한 텍스트 세분성 수준과 시각 영역 간의 계층적 정렬을 위해 크로스 어텐션 기반의 다중 세분성 텍스트 조건부 대비 학습 프레임워크인 $\beta$ -CLIP 을 제안하며, 이를 통해 하드 네거티브 없이도 기존 CLIP 기반 방법론들보다 우수한 밀집 비전 - 언어 정렬 성능을 달성함을 보여줍니다.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

이 논문은 단안 비디오에서 물리적으로 타당한 인간 운동과 시나리오 기하학을 복원하여 로봇 및 AR/VR 의 실사 - 시뮬레이션 (Real2Sim) 응용을 획기적으로 개선하는 'CRISP' 방법을 제안합니다.

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

SoFlow: Solution Flow Models for One-Step Generative Modeling

이 논문은 확산 및 흐름 매칭 모델의 다단계 생성 과정이 초래하는 비효율성을 해결하기 위해, 자코비안-벡터 곱 (JVP) 계산 없이 Classifier-Free Guidance 를 지원하며 ImageNet 에서 MeanFlow 보다 우수한 성능을 보이는 새로운 원스텝 생성 프레임워크인 'Solution Flow Models (SoFlow)'를 제안합니다.

Tianze Luo, Haotian Yuan, Zhuang Liu2026-03-03🤖 cs.LG

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

이 논문은 가족력 데이터를 임상 이미지와 결합한 해석 가능한 다중 모달 AI 프레임워크를 개발하여 피부 질환의 진단 정확도를 향상시키고, 향후 다양한 의료 환경에서의 전향적 임상 검증을 통해 임상 현장에 효과적으로 적용할 수 있는 포괄적인 체계를 제시합니다.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

이 논문은 제한된 라벨 데이터 환경에서 3D 객체 감지 성능을 향상시키기 위해, 교사 모델의 기하학적 지식을 전달하는 키포인트 기반 기하 관계 감독 모듈과 거리 감쇠 메커니즘을 포함한 볼륨 단위 데이터 증강 전략을 제안하는 'GeoTeacher'를 소개합니다.

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

본 연구는 심층 학습 모델 (UNet, ResUNet, AttentionUNet 등) 과 객체 기반 이미지 분석 (OBIA) 을 결합한 'ForCM'을 제안하여 아마존 열대우림의 Sentinel-2 위성 영상을 활용한 산림 피복 매핑 정확도를 기존 OBIA 방법 대비 95.64% 까지 향상시켰음을 보여줍니다.

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

← 이전 다음 →

cs.CV

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

VeCoR -- Velocity Contrastive Regularization for Flow Matching

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

InnoGym: Benchmarking the Innovation Potential of AI Agents

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

SoFlow: Solution Flow Models for One-Step Generative Modeling

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

Aligned explanations in neural networks

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

cs.CV

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

VeCoR -- Velocity Contrastive Regularization for Flow Matching

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

InnoGym: Benchmarking the Innovation Potential of AI Agents

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

βββ-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

SoFlow: Solution Flow Models for One-Step Generative Modeling

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

Aligned explanations in neural networks

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment