cs.CV 편의 논문 | Gist.Science

GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation

이 논문은 DINOv3 의 시각적 특징을 경량 TokenBook 메커니즘을 통해 공간 가이드 마스크로 변환하여 의료 전용 분할 아키텍처에 사전 학습된 지식을 주입하고 미세 조정 없이도 분할 성능과 경계 강건성을 향상시키는 GuiDINO 프레임워크를 제안합니다.

Zhuonan Liang, Wei Guo, Jie Gan + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

이 논문은 의료용 시각 - 언어 모델이 국소적 병리 증거에 기반한 사실적 환각을 줄이고 임상적 추론 능력을 향상시키기 위해, 가설 기반 영역 제안과 점수 기반 마진 최적화를 활용한 'ClinCoT'라는 임상 인식 시각적 사고 체인 프레임워크를 제안합니다.

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

이 논문은 구성적 시각 관계 (CVR) 작업에서 세 개의 이미지로 규칙을 학습하고 나머지 이미지의 이상치를 식별하기 위해 예측 및 검증 패러다임과 증강 이상 대비 학습을 결합한 PR-A $^2$ CL 모델을 제안하여 기존 최첨단 모델보다 뛰어난 성능을 달성했다고 요약할 수 있습니다.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

이 논문은 비전 트랜스포머 프레임워크 내에서 환경 편향 조정, 직교성 기반 콘텐츠-노이즈 분리, 그리고 Nano Banana Pro 를 활용한 인과적 사전 지식 도입을 통해 기존 이미지 잡음 제거 모델의 한계를 극복하고 높은 정확도와 실시간 처리 속도를 달성한 'TCD-Net'을 제안합니다.

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

ArtLLM: Generating Articulated Assets via 3D LLM

이 논문은 기존 방법들의 한계를 극복하고 3D 메시로부터 가변적인 부품과 조인트를 예측하여 고충실도 가동성 3D 자산 생성 및 디지털 트윈 구축을 가능하게 하는 새로운 프레임워크인 ArtLLM 을 제안합니다.

Penghao Wang, Siyuan Xie, Hongyu Yan + 4 more2026-03-03💻 cs

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

이 논문은 기가픽셀 병리 이미지 처리 시 발생하는 계산 병목 현상을 해결하기 위해, 학습 가능한 토큰 압축 프레임워크인 TC-SSA 를 제안하여 진단에 중요한 정보를 유지하면서 시각 토큰 수를 획기적으로 줄이고 진단 정확도를 향상시킨다는 점입니다.

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI

ConVibNet: Needle Detection during Continuous Insertion via Frequency-Inspired Features

이 논문은 초음파 유도 하의 바늘 삽입 중 발생하는 가시성 저하 문제를 해결하기 위해, 시간적 상관관계를 모델링하고 새로운 손실 함수를 도입하여 실시간 바늘 탐지 정확도와 강건성을 크게 향상시킨 'ConVibNet' 프레임워크를 제안합니다.

Jiamei Guo, Zhehao Duan, Maria Neiiendam + 3 more2026-03-03💻 cs

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

이 논문은 가우스 스플랫을 활용한 차분 가능한 엔진을 통해 실제 시각 관측과 로봇 제어 신호로부터 물체 질량을 자동으로 식별하고 이를 기반으로 힘 인식 그리핑 정책을 학습함으로써 시뮬레이션과 현실 간의 격차를 효과적으로 해소하는 'D-REX' 시스템을 제안합니다.

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs

GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection

이 논문은 고해상도 위성 영상의 변화 탐지 분야에서 기존 모델의 한계를 극복하고 적은 파라미터로 최첨단 성능을 달성하기 위해 게이트 메커니즘과 차분 어텐션을 활용한 새로운 GRAD-Former 프레임워크를 제안합니다.

Durgesh Ameta, Ujjwal Mishra, Praful Hambarde + 1 more2026-03-03🤖 cs.AI

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

이 논문은 기존 방법들의 한계를 극복하고 인간의 미적 선호도와 높은 충실도를 동시에 달성하기 위해, 정교한 선호도 데이터셋과 reward 모델을 구축하고 확률적 드리프트를 보정하는 동적 경로 안내 (DPG) 기법을 도입한 얼굴 보정 강화학습 프레임워크 'BeautyGRPO'를 제안합니다.

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

이 논문은 편집 영역을 식별하여 주입 강도를 조절하는 '편집 인지 주입 (Editing-aware Injection)' 기법을 도입하고, 이를 정류 흐름 (Rectified Flow) 모델에 적용하여 미세 조정 없이 고품질의 영상이동 편집을 가능하게 하는 'FREE-Edit' 프레임워크를 제안합니다.

Maomao Li, Yunfei Liu, Yu Li2026-03-03💻 cs

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

이 논문은 시각, 텍스트, 오디오 세 가지 모달리티를 프레임 수준에서 적응적으로 융합하는 'TripleSumm' 아키텍처와 대규모 멀티모달 벤치마크 'MoSu'를 제안하여 기존 비디오 요약 방법의 한계를 극복하고 최첨단 성능을 달성했다고 요약할 수 있습니다.

Sumin Kim, Hyemin Jeong, Mingu Kang + 3 more2026-03-03🤖 cs.LG

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

이 논문은 선형 시간 효율성을 가진 상태 공간 모델 (SSM) 과 관계 모델링이 가능한 트랜스포머를 결합한 하이브리드 아키텍처와 시각 - 텍스트 프롬프팅을 도입하여, 레이블이 부족한 환경에서도 hyperspectral 이미지 분류의 정확도를 획기적으로 향상시킨 VP-Hype 프레임워크를 제안합니다.

Abdellah Zakaria Sellam, Fadi Abdeladhim Zidi, Salah Eddine Bekhouche + 4 more2026-03-03💻 cs

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

RnG 는 부분적인 2D 관측으로부터 완전한 3D 구조를 추론하기 위해 재구성과 생성 작업을 통합한 새로운 퓨드-포워드 Transformer 로서, 재구성 유도 인과 어텐션 메커니즘을 통해 가시 영역의 정밀한 재구성과 보이지 않는 영역의 타당한 생성을 동시에 수행하여 실시간 고충실도 3D 모델링을 가능하게 합니다.

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

이 논문은 텍스트만으로 해결 가능한 불필요한 시각 데이터를 식별하고 시각적 필요성 점수 (VisNec) 를 기반으로 고품질 학습 샘플을 선별함으로써, 소량의 데이터로도 효율적이고 강력한 멀티모달 지시 미세 조정을 가능하게 하는 프레임워크를 제안합니다.

Mingkang Dong, Hongyi Cai, Jie Li + 4 more2026-03-03🤖 cs.AI

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

이 논문은 LLM 기반의 정합을 통해 200 개 이상의 카테고리에 걸친 범용 정합 데이터셋을 구축하고, 이중 분기 아키텍처를 통해 입력 좌표계를 안정적인 정합 공간으로 변환함으로써 개방형 프롬프트 기반 3D 의미 부분 분할의 성능을 획기적으로 개선한 CoSMo3D 를 제안합니다.

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

이 논문은 손목 카메라의 단안 RGB 이미지와 자연어 입력을 기반으로 VLM 을 미세 조정하여 3D 객체 위치를 추정하는 새로운 접근법을 제시하며, 로봇이 인간과 상호작용할 수 있는 수준의 정밀도 (중앙값 MAE 13mm) 를 달성했음을 보여줍니다.

Ari Wahl, Dorian Gawlinski, David Przewozny + 3 more2026-03-03🤖 cs.LG

Towards Policy-Adaptive Image Guardrail: Benchmark and Method

이 논문은 기존 VLM 기반 안전 장벽이 고정된 정책에만 과적합되는 문제를 해결하기 위해, 다양한 정책 하의 일반화 능력을 평가하는 새로운 벤치마크 'SafeEditBench'를 제안하고, 검증 가능한 보상을 활용한 강화학습 방법 'SafeGuard-VL'을 통해 진화하는 안전 정책에 적응하는 강력한 이미지 가드레일 모델을 개발했습니다.

Caiyong Piao, Zhiyuan Yan, Haoming Xu + 4 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

이 논문은 대규모 비전 - 언어 모델의 시각 토큰 가지치기에서 주의 (attention) 와 다양성 (diversity) 기반 방법의 한계를 실증적으로 분석하고, 이미지 특성에 맞춰 적응적으로 조정된 하이브리드 가지치기 전략인 AgilePruner 를 제안하여 성능과 환각 (hallucination) 억제를 동시에 개선하는 방법을 제시합니다.

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

이 논문은 다기관 데이터를 활용하여 단일 기관 편향을 해소하고, 유방 MRI 종양 분할 및 치료 반응 예측 모델의 일반화 능력과 하위 그룹 간 공정성을 동시에 평가하기 위해 'MAMA-MIA 챌린지'를 설계하고 그 결과를 제시한 연구입니다.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

← 이전 다음 →