cs.CV 편의 논문 | Gist.Science

sFRC for assessing hallucinations in medical image restoration

이 논문은 의료 영상 복원 시 딥러닝 모델이 생성할 수 있는 환각 (hallucination) 을 탐지하기 위해 작은 패치 단위의 푸리에 링 상관관계 (FRC) 를 스캔하는 sFRC 기법을 제안하고, 이를 다양한 의료 영상 복원 문제에서 효과적으로 검증합니다.

Prabhat Kc, Rongping Zeng, Nirmal Soni + 1 more2026-03-06🔬 physics

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

이 논문은 추론형 비전 - 언어 모델이 다중 이미지 이해 작업에서 발생하는 산만하고 편향된 어텐션 패턴을 해결하기 위해, 추론 과정을 계획 및 집중 단계로 구조화하고 어텐션 게이트를 적용하는 훈련 없는 방법인 'PulseFocus'를 제안하여 주요 벤치마크에서 성능을 향상시켰음을 보여줍니다.

Chenjun Li2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

본 논문은 가변성 공간 이미지 분류를 위한 심층 신경망의 경량화 기법 (가지치기, 양자화, 지식 증류) 을 체계적으로 평가하여, 모델 크기와 계산 비용을 크게 줄이면서도 분류 성능을 유지할 수 있음을 입증했습니다.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

이 논문은 멀티모달 대규모 언어 모델 (MLLM) 이 제로샷 설정에서 비디오 이상 탐지 시 높은 정밀도를 보이지만 재현율 (recall) 이 급격히 저하되는 보수적 편향을 가지며, 클래스별 지시어를 통해 성능을 개선할 수 있으나 여전히 실용적 한계가 있음을 규명합니다.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

이 논문은 저사양 장치 배포에 적합하도록 백프로파게이션 없이 중간 특징 통계와 예측 엔트로피를 최적화하는 메모리 효율적인 제로차 프롬프트 최적화 기법인 FOZO 를 제안하여, 제한된 자원으로 테스트 시간 적응 (TTA) 을 수행하면서도 기존 방법들보다 뛰어난 성능과 강건성을 입증합니다.

Xingyu Wang, Tao Wang2026-03-06💻 cs

Toward Real-world Infrared Image Super-Resolution: A Unified Autoregressive Framework and Benchmark Dataset

이 논문은 실제 환경의 적외선 이미지 초해상도 (IISR) 문제를 해결하기 위해 열 - 구조적 가이드와 적응형 코드북을 활용한 통합 자기회귀 프레임워크 'Real-IISR'과 실제 데이터셋 'FLIR-IISR'을 제안합니다.

Yang Zou, Jun Ma, Zhidong Jiao + 3 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

이 논문의 초록에 따르면, GPT-5 는 텍스트 기반 추론과 일부 다중모달 임상 추론 능력에서 GPT-4o 를 능가하는 유의미한 진전을 보였으나, 신경방사선학 및 유방촬영과 같은 고도로 전문화된 지각 기반 작업에서는 여전히 전문 목적 모델에 미치지 못해 임상 현장에서의 완전한 대체는 아직 이르다는 결론을 내립니다.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

Evaluating and Correcting Human Annotation Bias in Dynamic Micro-Expression Recognition

이 논문은 문화적 배경에 따른 인간 주석 편향을 줄이고 마이크로표정 인식 성능을 향상시키기 위해, 오프셋 프레임의 불확실성을 해결하는 새로운 전역 반단조 차분 선택 전략 (GAMDSS) 아키텍처를 제안하고 이를 통해 다문화 데이터셋에서 주관적 오류를 효과적으로 감소시켰음을 보여줍니다.

Feng Liu, Bingyu Nan, Xuezhong Qian + 1 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

이 논문은 희소 뷰 DSA 데이터에서 고해상도 4D 혈관 재구성을 가능하게 하기 위해, 고품질 사전 지식을 통합한 다중 충실도 텍스처 학습 모듈과 신뢰도 기반 전략, 그리고 방사형 서브픽셀 밀도화 기법을 도입한 'DSA-SRGS'라는 초해상도 가우스 스플래팅 프레임워크를 제안합니다.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

이 논문은 임상 워크플로우를 모방한 템플릿 변형 및 마진 분할 네트워크를 통해 기존 방법의 한계를 극복하고 기하학적 정확도와 임상적 실현 가능성을 크게 향상시킨 치아 크라운 자동 설계 프레임워크 'MADCrowner'를 제안합니다.

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

이 논문은 AI Flow 패러다임과 엣지 - 클라우드 협업 아키텍처를 활용하여 원본 이미지의 수학적 복원을 방지하면서도 동적 윤곽 시각 언어를 통해 의미 있는 행동 인식과 시각적 참조를 가능하게 하는 새로운 프라이버시 보호 감시 프레임워크를 제안합니다.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

이 논문은 원격 탐사 이미지의 회전 객체 검출 문제를 해결하기 위해 다중 스케일 커널 블록, 다방향 컨텍스트 앵커 어텐션 메커니즘, 하향식 경로, 그리고 오일러 각도 인코딩 모듈을 도입하여 RMK RetinaNet 을 제안하고, 다양한 데이터셋에서 우수한 성능과 강건성을 입증합니다.

Huiran Sun2026-03-06💻 cs

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

이 논문은 의료 영상 분석의 공간적 불균형 문제를 해결하기 위해 확산 모델 학습 시 손실 가중치를 적응적으로 조절하는 LAW 와 효율적인 분할을 위한 ORDER 어댑터를 도입하여, 생성 품질과 분할 정확도를 크게 향상시키고 모델 크기를 획기적으로 줄인 'LAW & ORDER' 프레임워크를 제안합니다.

Anugunj Naman, Ayushman Singh, Gaibo Zhang + 1 more2026-03-06💻 cs

Comparative Evaluation of Traditional Methods and Deep Learning for Brain Glioma Imaging. Review Paper

본 논문은 뇌 교종의 정확한 분할과 분류가 치료 계획 및 예후 예측에 필수적임을 강조하며, 기존 전통적 방법과 심층 학습 기법을 비교 분석한 결과 컨볼루션 신경망 (CNN) 아키텍처가 더 우수한 성능을 보인다고 결론 내립니다.

Kiranmayee Janardhan, Vinay Martin DSa Prabhu, T. Christy Bobby2026-03-06💻 cs

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

이 논문은 멀티모달 대규모 언어 모델의 양자화 과정에서 발생하는 '스무딩 불일치'와 '교차 모달 계산 불변성' 문제를 해결하기 위해, 모달리티별 스무딩 인자를 학습하고 SVD 와이팅을 활용한 보상을 도입한 MASQuant 라는 새로운 포스트-트레이닝 양자화 프레임워크를 제안합니다.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

이 논문은 CLIP 비전 인코더의 한계를 극복하기 위해 재구성된 이미지에서 추출한 대비 신호를 확산 모델에 통합하여 판별력과 세부 인지 능력을 동시에 최적화하는 'Diffusion Contrastive Reconstruction (DCR)'을 제안합니다.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

이 논문은 MRI 시퀀스 및 평면 방향과 같은 범주형 메타데이터를 명시적으로 활용하여 특징 추출을 안내함으로써 2D 종양 탐지 성능을 향상시키고, 데이터가 누락된 3D 뇌 종양 분할 시 메타데이터 기반의 교차 주의를 통해 모델의 정확도와 효율성을 동시에 개선하는 'Meta-D' 아키텍처를 제안합니다.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

이 논문은 1,954 개의 실제 3D 스캔 객체로 생성된 고품질 편광 데이터셋과 DINOv3 사전 학습 지식을 활용하여 소량의 데이터로도 RGB 기반 비전 파운데이션 모델을 능가하는 정밀한 표면 법선 추정이 가능함을 입증했습니다.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

이 논문은 인스턴스 의존적 부분 레이블 학습에서 발생하는 인스턴스 얽힘 문제를 해결하기 위해 클래스별 증강과 내부/외부 클래스 규제를 결합한 새로운 CAD 프레임워크를 제안하고, 이를 통해 클래스 경계를 명확히 하고 분류 성능을 향상시킨다는 것을 보여줍니다.

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

이 논문은 정적 상호작용의 한계를 극복하고 시각 - 언어 모델의 적대적 공격 전이성을 향상시키기 위해, 역동적인 대조 학습과 의미 증강을 결합한 새로운 방법인 SADCA 를 제안하고 그 효과성을 실험을 통해 입증합니다.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

← 이전 다음 →