cs.CV 편의 논문 | Gist.Science

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

이 논문은 Grounding DINO 1.5 와 YOLOv11 을 탐지기로 활용하여 SAM 2.1 을 기반으로 한 제로샷 및 지도 학습 이중 파이프라인을 제안함으로써, 기존 종단간 학습 모델보다 우수한 성능을 보이는 새 이미지 분할 방법을 제시합니다.

Abhinav Munagala2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

이 논문은 학습 데이터 없이 다양한 문서 위조 검출 방법을 평가한 'DOCFORGE-BENCH' 벤치마크를 제시하며, 기존 방법들이 임계값 보정 실패로 인해 실제 배포 환경에서 성능이 크게 저하됨을 규명하고 문서 위조 탐지가 여전히 해결되지 않은 문제임을 강조합니다.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

이 논문은 훈련 시 3D 포인트 트랙 예측을 위한 특권 4D 정보를 활용하여 VLA 모델이 물리적 상호작용의 시공간적 역학을 내재적으로 학습하도록 함으로써 추론 시 추가 비용 없이 로봇 조작 성능을 크게 향상시키는 'Pri4R' 방법을 제안합니다.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

이 논문은 GAP9, STM32N6, Sony IMX500 등 상용 및 연구용 엣지 및 인-센서 AI 프로세서 아키텍처를 비교 검토하고, PicoSAM2 모델을 통한 벤치마크를 통해 지연 시간, 에너지 효율성 및 에너지 - 지연 곱 측면에서 각 플랫폼의 성능과 트레이드오프를 분석합니다.

Luigi Capogrosso, Pietro Bonazzi, Michele Magno2026-03-11🤖 cs.LG

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

이 논문은 CLIP 기반의 전역적 의미 정합과 DINOv3 의 픽셀 단위 인식 간의 간극을 해소하기 위해, 텍스트 입력의 의미 범위에 따라 시각 추상화 수준을 동적으로 조절하는 'Granulon'을 제안하여 다중 세밀도 추론 능력을 획기적으로 향상시키고 할루시네이션을 감소시킨다고 요약할 수 있습니다.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

이 논문은 3D 가우스 스플래팅 (3D Gaussian Splatting) 표현에 내재된 'Trio-Experts'와 'SBAG' 모듈을 활용하여 워터마크의 위치와 품질 보전을 분리하고, 채널별 그룹 마스크를 통해 왜곡에 강인하면서도 고화질을 유지하며 워터마크 선택의 근거를 설명 가능한 3D 워터밍킹 프레임워크를 제안합니다.

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan Li2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

이 논문은 계획과 반성 학습 간의 최적화 비대칭성을 해결하기 위해 반성 강화 학습 (RPCO) 방법론을 도입하여, 기존 벤치마크와 제안한 VCR-bench 에서 Gemini2.5 Pro 를 능가하는 성능을 보이는 'VisionCreator-R1'이라는 반성 강화형 네이티브 시각 생성 에이전트를 제안합니다.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs

Computer Vision-Based Vehicle Allotment System using Perspective Mapping

이 논문은 YOLOv8 객체 감지 모델과 역투영 매핑 (IPM) 기술을 활용하여 4 개의 카메라 뷰를 통합하고 3D 공간으로 시각화함으로써 기존 센서 기반 시스템의 한계를 극복하고 비용 효율적인 스마트 주차 할당 시스템을 제안합니다.

Prachi Nandi, Sonakshi Satapathy, Suchismita Chinara2026-03-11💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

이 논문은 4 가지 암종으로 훈련된 경량화 다중 암종 종양 국소화 모델 (MuCTaL) 이 새로운 암종에서도 높은 성능을 보이며, 디지털 병리학에 배포 가능한 확장성 있는 공간 종양 확률 히트맵 생성 워크플로우를 제시합니다.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

HECTOR: Hybrid Editable Compositional Object References for Video Generation

HECTOR 는 정적 이미지와 동적 비디오를 혼용하여 참조하고 각 객체의 궤적을 명시적으로 지정함으로써 복잡한 시공간 제약을 충족하는 고품질 비디오 생성을 가능하게 하는 하이브리드 편집 가능 구성 객체 참조 프레임워크입니다.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang Ma2026-03-11💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

이 논문은 자율주행용 비전 - 언어 모델 (VLM) 아키텍처가 물리적 패치 공격에 심각한 취약점을 보이며, 다양한 모델 간의 체계적인 비교 평가를 통해 현재 설계가 안전-중요 응용 분야의 적대적 위협을 충분히 처리하지 못함을 입증합니다.

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. Pesé2026-03-11💻 cs

Towards Visual Query Segmentation in the Wild

이 논문은 외부 시각적 쿼리를 기반으로 비정제 비디오 내의 모든 대상 객체를 픽셀 단위로 분할하는 새로운 작업인 '시각적 쿼리 분할 (VQS)'을 제안하고, 이를 위한 대규모 벤치마크 VQS-4K 와 SAM 2 를 확장한 고성능 모델 VQ-SAM 을 소개합니다.

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng Fan2026-03-11💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

이 논문은 교차 센터 도메인 이동 하에서 갑상선 초음파의 분할과 악성도 평가라는 상충되는 요구를 해결하기 위해, CNN 과 비전 트랜스포머의 상호 보완적 강점을 활용하여 다중 커널 게이트 어댑터 (MKGA) 를 제안하고 이를 통해 도메인 간 강건성과 진단 정확도를 향상시켰음을 보여줍니다.

Maziar Sabouri, Nourhan Bayasi, Arman Rahmim2026-03-11🔬 physics

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

이 논문은 임상 가이드라인과 비전 - 언어 모델을 통합하여 의료 이미지의 특징, 개념, 병리를 연결하고 전문가의 추론을 모방한 구조화된 임상 서술을 생성하는 새로운 개념 기반 추론 프레임워크인 MedCBR 을 제안하며, 이를 통해 의료 영상 분석의 해석 가능성과 진단 정확도를 동시에 향상시켰음을 보여줍니다.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin Mousavi2026-03-11🤖 cs.LG

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

이 논문은 MLLM 과 LVLM 의 다중 모달 추론 능력을 활용하여 짧은 비디오와 긴 비디오 모두에서 미세 표정 (ME) 을 이해하고 분석하는 두 가지 새로운 과제 (ME-VQA 및 ME-LVQA) 를 포함하는 2026 년 미세 표정 그랜드 챌린지 (MEGC2026) 를 소개합니다.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. Davison2026-03-11💻 cs

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

이 논문은 확산 트랜스포머 (DiT) 의 고해상도 이미지 생성 시 발생하는 구조적 열화 문제를 해결하기 위해, 텍스트 앵커링 메커니즘과 스펙트럼 진행 패턴을 활용한 동적 온도 제어 방식을 도입하여 추가 샘플링 오버헤드 없이 임의의 해상도와 종횡비를 지원하는 훈련 없는 TIDE 방법을 제안합니다.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming Zhang2026-03-11💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

이 논문은 드론 원격 감지 이미지를 기반으로 비전 언어 모델 (VLM) 을 활용하여 농작물 디지털 트윈을 위한 기능적 - 구조적 식물 모델 (FSPM) 시뮬레이션 설정을 생성하는 새로운 접근법과 이를 평가하기 위한 합성 벤치마크를 제시합니다.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles2026-03-11🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

이 논문은 7 만 건의 다기관 수술 병리 보고서를 기반으로 자연어 검색, 자동 코호트 구축, 임상 질의 응답 등을 통합하여 정적인 병리 아카이브를 능동적인 임상 지능 플랫폼으로 전환하는 통합 LLM 기반 프레임워크 'PathoScribe'를 제안하고 그 유효성을 입증합니다.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

이 논문은 소수의 앵커를 활용하여 도메인 간 시각 - 언어 특징을 정형화된 기하학적 변환으로 정렬하는 단순하고 매개변수가 적은 BiCLIP 프레임워크를 제안함으로써, 다양한 벤치마크에서 최첨단 성능을 달성하는 도메인 적응 방법을 제시합니다.

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

이 논문은 오디오-비주얼 분할 (AVS) 을 위한 최초의 표본 없는 지속적 학습 벤치마크를 제시하고, 저랭크 앵커링 (LRA) 과 오디오 유도 사전 융합 조정을 활용한 ATLAS 라는 강력한 베이스라인을 제안하여 역동적인 환경에서의 지속적 학습과 catastrophic forgetting 문제를 해결합니다.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing Zhu2026-03-11⚡ eess

← 이전 다음 →