cs.CV 편의 논문 | Gist.Science

MediX-R1: Open Ended Medical Reinforcement Learning

이 논문은 그룹 기반 강화학습과 정밀한 보상 신호를 활용하여 의료 다중 모달 대규모 언어 모델이 객관식 형식을 넘어 임상적으로 신뢰할 수 있는 자유형 답변을 생성할 수 있도록 한 'MediX-R1' 프레임워크를 제안하고, 이를 통해 기존 오픈소스 베이스라인을 능가하는 성능을 입증했습니다.

Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed + 5 more2026-02-27💻 cs

Improving Denoising Diffusion Models via Simultaneous Estimation of Image and Noise

이 논문은 이미지와 노이즈를 동시에 추정하고 반원호 각도로 재매개변수화하여 역확산 과정의 안정성과 고차 ODE 솔버 적용을 가능하게 함으로써 생성 속도와 품질을 동시에 향상시키는 새로운 확산 모델을 제안합니다.

Zhenkai Zhang, Krista A. Ehinger, Tom Drummond2026-02-26🤖 cs.AI

Real-Time Motion Detection Using Dynamic Mode Decomposition

이 논문은 동적 모드 분해 (DMD) 를 기반으로 비디오 시퀀스의 고유값 변화를 분석하여 실시간 보안 영상에서 전경 움직임을 효과적으로 감지하는 해석 가능한 알고리즘을 제안하고, 다양한 실제 조건에서 성능을 검증합니다.

Marco Mignacca, Simone Brugiapaglia, Jason J. Bramburger2026-02-26💻 cs

A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning

이 논문은 딥러닝 기반 수중 이미지 향상 (UIE) 기술의 물리 모델, 알고리즘 분류, 평가 지표 및 최신 기법들의 정량적·정성적 비교 분석을 체계적으로 제공하여 향후 연구 방향을 제시합니다.

Xiaofeng Cong, Yu Zhao, Jie Gui + 2 more2026-02-26💻 cs

Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models

이 논문은 기존 대규모 시각 - 언어 모델 (LVLM) 환각 평가 벤치마크의 신뢰성과 타당성 문제를 지적하고, 이를 측정하는 HQM 프레임워크와 고품질 벤치마크인 HQH 를 제안하여 모델의 심각한 환각 현상을 규명하고 향후 개선 방향을 제시합니다.

Bei Yan, Jie Zhang, Zheng Yuan + 2 more2026-02-26🤖 cs.AI

PoseAdapt: Sustainable Human Pose Estimation via Continual Learning Benchmarks and Toolkit

PoseAdapt 은 새로운 작업에 맞춰 기존 모델을 재학습하지 않고도 지속 가능한 인간 포즈 추정을 가능하게 하는 오픈 소스 continual learning 프레임워크 및 벤치마크 세트를 제안합니다.

Muhammad Saif Ullah Khan, Didier Stricker2026-02-26💻 cs

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

이 논문은 대규모 언어 모델 (LLM) 의 뛰어난 언어 이해 능력을 CLIP 에 효율적으로 통합하여 긴 캡션 처리 능력을 향상시키고, 대규모 재학습 없이 다양한 다운스트림 작업에서 최첨단 성능을 달성하는 새로운 미세 조정 프레임워크 'LLM2CLIP'을 제안합니다.

Weiquan Huang, Aoqi Wu, Yifan Yang + 11 more2026-02-26💬 cs.CL

Renaissance: Investigating the Pretraining of Vision-Language Encoders

이 논문은 비전 - 언어 (VL) 인코더의 사전 학습 최적화를 탐구하기 위해 메타 분석을 수행하고, 대규모 VL 모델의 일부 부분을 동결하여 연산 비용을 절감하면서도 하위 작업 성능을 유지할 수 있음을 입증하는 동시에, 이러한 연구를 용이하게 하는 'Renaissance'라는 새로운 VL 평가 프레임워크를 제안합니다.

Clayton Fields, Casey Kennington2026-02-26💬 cs.CL

Benchmarking Vision-Based Object Tracking for USVs in Complex Maritime Environments

이 논문은 복잡한 해상 환경에서 무인 수상정 (USV) 의 시각 기반 객체 추적을 위해 7 가지 추적 알고리즘과 제어 기법을 벤치마크한 결과, SeqTrack 추적기와 LQR 제어기가 각기 가장 우수한 성능을 보였음을 입증합니다.

Muhayy Ud Din, Ahsan B. Bakht, Waseem Akram + 3 more2026-02-26💻 cs

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

이 논문은 사전 학습된 분할 네트워크를 활용하여 소수의 주석만으로 객체 중심 표현을 학습함으로써 복잡한 시각 환경에서 샘플 효율성을 극대화하는 새로운 모델 기반 강화학습 프레임워크인 OC-STORM 을 제안하고, Atari 100k 와 Hollow Knight 벤치마크에서 기존 기법들을 압도하는 성능을 입증합니다.

Weipu Zhang, Adam Jelley, Trevor McInroe + 2 more2026-02-26🤖 cs.LG

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

이 논문은 시각적 유추 추론 능력을 평가하기 위해 VOILA 라는 새로운 벤치마크를 제안하고, 현재 MLLM 들이 이미지 간 관계 이해와 고수준 추론에서 인간에 비해 현저히 낮은 성능을 보이지만 단계적 프롬핑 전략을 통해 일부 개선될 수 있음을 규명했습니다.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo + 4 more2026-02-26💬 cs.CL

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

이 논문은 액션 청킹을 통합한 비전 - 언어 - 행동 (VLA) 모델의 추론 효율성을 저하시키는 문제를 해결하기 위해, 모델 구조 변경 없이 훈련 없이도 추론 속도를 획기적으로 높이는 최초의 병렬 디코딩 프레임워크인 PD-VLA 를 제안하고 그 유효성을 실증합니다.

Wenxuan Song, Jiayi Chen, Pengxiang Ding + 9 more2026-02-26💻 cs

Unified Reward Model for Multimodal Understanding and Generation

이 논문은 이미지 및 비디오 생성과 이해를 아우르는 대규모 인간 선호도 데이터셋을 기반으로 구축된 최초의 통합 보상 모델 'UnifiedReward'를 제안하여, 다양한 시각 작업 간의 시너지 효과를 통해 인간 선호도에 부합하는 멀티모달 모델 정렬을 달성함을 보여줍니다.

Yibin Wang, Yuhang Zang, Hao Li + 2 more2026-02-26💻 cs

TRACE: Your Diffusion Model is Secretly an Instance Edge Detector

이 논문은 텍스트-이미지 확산 모델이 숨겨진 인스턴스 경계 정보를 내포하고 있음을 규명하여, 주석 없이도 경계를 추출하는 'TRACE' 방법을 제안함으로써 기존 방식보다 81 배 빠른 추론 속도와 높은 성능을 달성했다고 주장합니다.

Sanghyun Jo, Ziseok Lee, Wooyeol Lee + 3 more2026-02-26💻 cs

Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation

이 논문은 대규모 언어 모델이나 추가 모듈 없이 단일 모델로 다양한 이미지 열화를 효율적으로 복원하기 위해 잠재 공간의 가중 재할당과 공간 - 주파수 병렬 융합 전략을 제안하는 'AnyIR'을 소개하며, 기존 방법 대비 매개변수와 연산량을 대폭 줄이면서도 최상의 성능을 달성함을 보여줍니다.

Bin Ren, Eduard Zamfir, Zongwei Wu + 7 more2026-02-26💻 cs

Twin Co-Adaptive Dialogue for Progressive Image Generation

이 논문은 사용자의 피드백과 동기화된 대화 에이전트를 통해 이미지 생성을 점진적으로 정제하고 모호성을 해소하는 'Twin-Co' 프레임워크를 제안하여 사용자 경험과 생성 품질을 동시에 향상시키는 방법을 제시합니다.

Jianhui Wang, Yangfan He, Yan Zhong + 12 more2026-02-26💻 cs

Identifying Memorization of Diffusion Models through $p$ -Laplace Analysis: Estimators, Bounds and Applications

본 논문은 확산 모델이 학습한 스코어 함수를 기반으로 $p$ -라플라시안 연산자를 수치적으로 근사하고 이론적 오차 한계를 증명하여, 조건부 텍스트가 없는 상황에서도 훈련 데이터의 암기를 효과적으로 식별할 수 있음을 보여줍니다.

Jonathan Brokman, Itay Gershon, Amit Giloni + 4 more2026-02-26🔢 math

Transformer-based cardiac substructure segmentation from contrast and non-contrast computed tomography for radiotherapy planning

본 연구는 사전 학습된 트랜스포머 기반의 SMIT 모델을 균형 있는 커리큘럼 학습으로 미세 조정하여, 라벨이 지정된 훈련 데이터의 양을 크게 줄이면서도 다양한 환자 및 영상 조건에 걸쳐 방사선 치료 계획에 필요한 심장 하부 구조 분할의 정확도와 견고성을 유지할 수 있음을 입증했습니다.

Aneesh Rangnekar, Nikhil Mankuzhy, Jonas Willmann + 5 more2026-02-26⚡ eess

JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

이 논문은 비전 - 언어 모델 (VLM) 의 잠재 공간 내 안전 결정 경계를 탐지하고 교차하는 새로운 'JailBound' 프레임워크를 제안하여, 기존 방법론의 한계를 극복하고 다양한 모델에서 기존 최첨단 기법보다 높은 성공률로 안전 장벽을 우회하는 공격을 가능하게 함을 보여줍니다.

Jiaxin Song, Yixu Wang, Jie Li + 4 more2026-02-26💻 cs

Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection

이 논문은 대규모 데이터와 계산 자원이 없이도 비전 - 언어 모델이 학습 중 자신의 필요에 따라 가장 유익한 샘플을 동적으로 선택하여 효율적으로 학습할 수 있도록 하는 'PROGRESS'라는 새로운 프레임워크를 제안하고 그 우수성을 입증합니다.

Shivam Chandhok, Qian Yang, Oscar Manas + 3 more2026-02-26🤖 cs.AI

← 이전 다음 →

cs.CV