cs.CV 편의 논문 | Gist.Science

Breaking the Data Barrier: Robust Few-Shot 3D Vessel Segmentation using Foundation Models

이 논문은 사전 학습된 비전 기반 모델 (DINOv3) 을 3D 어댑터 및 멀티스케일 어그리게이터와 결합하여 소량의 데이터로도 도메인 간 전이 성능이 뛰어난 강건한 혈관 분할을 가능하게 하는 새로운 프레임워크를 제안하고, TopCoW 및 로잔 데이터셋에서 기존 최첨단 방법론보다 월등히 우수한 성능을 입증했습니다.

Kirato Yoshihara, Yohei Sugawara, Yuta Tokuoka + 1 more2026-03-02⚡ eess

FluoCLIP: Stain-Aware Focus Quality Assessment in Fluorescence Microscopy

이 논문은 형광 현미경의 염색체 특성에 따른 초점 품질 평가를 위해 새로운 데이터셋 'FluoMix'와 염색 정보를 고려한 CLIP 기반의 'FluoCLIP' 프레임워크를 제안하여, 기존 염색 무관 접근법의 한계를 극복하고 다양한 조건에서 강력한 일반화 성능을 달성함을 보여줍니다.

Hyejin Park, Jiwon Yoon, Sumin Park + 5 more2026-03-02⚡ eess

EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models

이 논문은 다중 모달 대형 언어 모델의 감정 추론 능력을 향상시키기 위해 구조화된 감정 사고와 반성적 감정 보상을 도입한 'EMO-R3'라는 반성적 강화 학습 프레임워크를 제안하고, 이를 통해 모델의 해석 가능성과 감정 지능을 크게 개선했다고 요약할 수 있습니다.

Yiyang Fang, Wenke Huang, Pei Fu + 5 more2026-03-02🤖 cs.AI

BiM-GeoAttn-Net: Linear-Time Depth Modeling with Geometry-Aware Attention for 3D Aortic Dissection CTA Segmentation

이 논문은 제한된 장거리 문맥 모델링과 낮은 대비 조건에서의 구조적 식별 문제를 해결하기 위해, 선형 시간 깊이 상태 공간 모델링과 기하학적 인식을 활용한 어텐션 메커니즘을 통합한 경량 프레임워크인 BiM-GeoAttn-Net 을 제안하여 3D 대동맥 박리 CTA 분할의 정확도와 효율성을 크게 향상시켰음을 보여줍니다.

Yuan Zhang, Lei Liu, Jialin Zhang + 3 more2026-03-02⚡ eess

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

이 논문은 하류 데이터의 주석 없이도 사전 훈련된 지각 모듈을 재학습하지 않고, 개인화된 VLM 기반 에이전트가 스칼라 지각 피드백을 통해 유익한 시점을 탐색하도록 함으로써 새로운 환경에서의 비지도 크로스 도메인 지각 성능을 획기적으로 개선하는 'Sea²' 프레임워크를 제안합니다.

Tianci Tang, Tielong Cai, Hongwei Wang + 1 more2026-03-02🤖 cs.AI

Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation

이 논문은 단일 RGB 이미지에서 3D 기하학적 기초 모델을 활용하여 3D 장면의 진화를 예측하고 이를 행동 생성에 통합함으로써, 기존 2D 기반 또는 명시적 포인트 클라우드 방법에 비해 양손 조작의 성공률과 공간 이해도를 획기적으로 향상시키는 새로운 프레임워크를 제안합니다.

Chongyang Xu, Haipeng Li, Shen Cheng + 4 more2026-03-02💻 cs

Footprint-Guided Exemplar-Free Continual Histopathology Report Generation

이 논문은 과거 데이터를 저장하지 않고도 조직병리 슬라이드 이미지에서 보고서를 생성하는 과정에서 발생하는 catastrophic forgetting 문제를 해결하기 위해, frozen patch-embedding 공간에 구축된 컴팩트한 '발자국 (footprint)'을 활용하여 가상의 슬라이드 표현과 스타일 지시자를 통해 새로운 도메인에 적응하는 새로운 continual learning 프레임워크를 제안합니다.

Pratibha Kumari, Daniel Reisenbüchler, Afshin Bozorgpour + 3 more2026-03-02💻 cs

Denoising-Enhanced YOLO for Robust SAR Ship Detection

이 논문은 복잡한 SAR 영상 환경에서 잡음 제거, PPA 어텐션 기반의 특징 추출 강화, 그리고 NWD 기반의 가우시안 유사도 손실 도입을 통해 YOLOv8 기반의 CPN-YOLO 모델을 제안하여 선박 탐지 성능을 획기적으로 개선한 연구입니다.

Xiaojing Zhao, Shiyang Li, Zena Chu + 5 more2026-03-02💻 cs

Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

이 논문은 DICOM 메타데이터의 불완전성과 이미지 데이터의 이질성을 해결하기 위해 교차 주의 메커니즘과 학습 가능한 사전 기반 인코딩을 결합한 엔드 - 투 - 엔드 멀티모달 프레임워크를 제안하여, 다양한 평가 환경에서 기존 방법들보다 뛰어난 DICOM 시리즈 분류 성능을 입증했습니다.

Tuan Truong, Melanie Dohmen, Sara Lorio + 1 more2026-03-02⚡ eess

Polarization Uncertainty-Guided Diffusion Model for Color Polarization Image Demosaicking

이 논문은 제한된 학습 데이터로 인해 기존 방법들이 편광 특성 복원에 어려움을 겪는 문제를 해결하기 위해, 이미지 확산 사전 지식을 편광 불확실성으로 안내하여 고오류 영역을 정밀하게 복원하는 새로운 확산 기반 컬러 편광 이미지 디모자이킹 모델을 제안합니다.

Chenggong Li, Yidong Luo, Junchao Zhang + 1 more2026-03-02⚡ eess

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

이 논문은 BERT 와 CLIP 을 활용한 멀티모달 멀티태스크 모델과 의사레이블 기반 데이터 증강 기법을 통해 AI 생성 이미지 탐지 및 생성 모델 식별 성능을 향상시키고, 'CT2' 대회에서 상위권을 차지한 결과를 제시합니다.

Xiaoyu Guo, Arkaitz Zubiaga2026-03-02💬 cs.CL

Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

이 논문은 SAM 에서 생성된 마스크를 활용한 계층적 어텐션 마스킹과 텍스트 프롬프트 기반 가중치를 적용한 모델 구성 기법을 통해 추가 학습 없이 원격 탐사 데이터에 대한 최첨단 개체별 분할 성능을 달성하는 새로운 방법인 ReSeg-CLIP 을 제안합니다.

Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga + 2 more2026-03-02💻 cs

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

이 논문은 V2X 통신과 클라우드 컴퓨팅을 활용하여 차량과 클라우드 간 처리를 동적으로 분할하고 양자화 및 압축 기법을 적용함으로써, 대역폭 변동 환경에서도 자율주행 차량의 360 도 3D 환경 인식 지연을 획기적으로 줄이고 정확도를 향상시키는 적응형 클라우드 지원 방식을 제안합니다.

Faisal Hawladera, Rui Meireles, Gamal Elghazaly + 2 more2026-03-02🤖 cs.LG

Altitude-Aware Visual Place Recognition in Top-Down View

이 논문은 고도 변화가 큰 환경에서 추가 하드웨어 없이 지상 특징 밀도 분석과 이미지 분류를 결합한 고도 적응형 비전 기반 장소 인식 (VPR) 방법을 제안하여, 기존 방식 대비 정밀도와 강인성을 크게 향상시켰음을 보여줍니다.

Xingyu Shao, Mengfan He, Chunyu Li + 2 more2026-03-02💻 cs

DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution

이 논문은 열화된 이미지의 인식 성능을 향상시키기 위해 Degradation-Aware Conditional Embedding 기법을 도입하고, 이를 통해 Mamba 기반 네트워크가 실세계 이미지 초해상도에서 충실도와 지각적 품질을 균형 있게 달성하도록 한 DACESR 모델을 제안합니다.

Xiaoyan Lei, Wenlong Zhang, Biao Luo + 3 more2026-03-02💻 cs

SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

이 논문은 인간의 주석이나 외부 흐름 지도 없이도 시공간적 특징의 유사성과 시간적 집적을 통해 3D occupancy 와 흐름을 동시에 예측하는 자기지도학습 기반의 새로운 방법론 'SelfOccFlow'를 제안하고 SemanticKITTI, KITTI-MOT, nuScenes 데이터셋에서 그 유효성을 입증합니다.

Xavier Timoneda, Markus Herb, Fabian Duerr + 1 more2026-03-02💻 cs

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

이 논문은 기존 참조 표현 이해 (REC) 벤치마크의 단점을 보완하고 단순한 단서 의존성을 배제하기 위해 고안된 'Ref-Adv'라는 새로운 벤치마크를 제시하며, 이를 통해 최신 멀티모달 LLM 들이 기존 데이터셋에서는 높은 성능을 보이지만 실제 시각적 추론과 정밀한 grounding 능력에서는 심각한 한계를 드러냄을 규명합니다.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

본 논문은 과거의 병리 확인 결과와 모델 예측을 기억 은행에 저장하여 새로운 사례와 유사한 경험을 기반으로 에이전트의 의사결정 정책을 동적으로 조정하는 'BUSD-Agent'라는 경험 기반 자기 적응형 캐스케이드 에이전트 프레임워크를 제안함으로써, 유방 초음파 선별 및 진단 과정에서 불필요한 생검 추천을 크게 줄이고 특이도를 향상시켰다고 요약할 수 있습니다.

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation

이 논문은 B-스플라인 제어점 공간에서 비동기 추론을 수행하여 조인트 내 및 조인트 간 불연속성을 해결하고, 실시간으로 매끄러운 로봇 조작을 가능하게 하는 ABPolicy 를 제안합니다.

Fan Yang, Peiguang Jing, Kaihua Qu + 2 more2026-03-02💻 cs

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

이 논문은 비대칭 어텐션, 멀티스케일 특징 융합, 다중 태스크 최적화 등을 통합한 경량 2.5D 프레임워크 'SegMate'를 제안하여, 의료 영상 분할에서 연산 비용과 메모리 사용량을 획기적으로 줄이면서도 기존 최첨단 모델에 버금가는 높은 정확도와 일반화 성능을 달성함을 보여줍니다.

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu2026-03-02🤖 cs.LG

← 이전 다음 →