cs.CV 편의 논문 | Gist.Science

RaUF: Learning the Spatial Uncertainty Field of Radar

이 논문은 레이다의 물리적 특성을 기반으로 이방성 확률 모델과 양방향 도메인 어텐션 메커니즘을 도입하여 공간적 불확실성 필드를 학습하고, 모호한 특징-레이블 매핑 문제를 해결하며 잡음을 억제함으로써 저조도 기상 조건에서도 신뢰할 수 있는 공간 감지 및 보정된 불확실성을 제공하는 'RaUF' 프레임워크를 제안합니다.

Shengpeng Wang, Kuangyu Wang, Wei Wang2026-03-03💻 cs

Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

이 논문은 기존 INR 의 주파수 편향을 해결하기 위해 Fourier-체비셰프 특징을 활용하여 작업 관련 주파수를 효율적으로 선택하고 넓은 주파수 대역을 합성하는 '콘텐츠 인식 주파수 인코딩 (CAFE)' 및 그 확장 버전인 CAFE+ 를 제안하고, 다양한 벤치마크를 통해 기존 방법보다 우수한 성능을 입증합니다.

Junbo Ke, Yangyang Xu, You-Wei Wen + 1 more2026-03-03🤖 cs.AI

Vision-Language Feature Alignment for Road Anomaly Segmentation

이 논문은 사전 학습된 비전 - 언어 모델의 의미적 사전 지식을 활용하여 배경 영역의 오탐지를 줄이고 분포 외 (OOD) 장애물 탐지 성능을 향상시키는 'VL-Anomaly'라는 새로운 도로 이상 분할 프레임워크를 제안합니다.

Zhuolin He, Jiacheng Tang, Jian Pu + 1 more2026-03-03💻 cs

SMR-Net:Robot Snap Detection Based on Multi-Scale Features and Self-Attention Network

이 논문은 복잡한 조립 환경에서 기존 비전 방법의 한계를 극복하기 위해 전용 센서와 자기 주의 기반 다중 스케일 특징 융합 네트워크인 SMR-Net 을 제안하여 로봇 스냅 조립의 탐지 및 위치 추정 정밀도를 크게 향상시켰음을 보여줍니다.

Kuanxu Hou2026-03-03💻 cs

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

이 논문은 외부 시각 도구를 활용하여 직관적 관찰에서 미세한 위조 흔적 탐지까지의 추론 과정을 강화하는 'TAR-FAS' 프레임워크를 제안함으로써, 기존 MLLM 기반 얼굴 위조 탐지 방법의 일반화 성능을 획기적으로 개선하고 있습니다.

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

이 논문은 검색 집중형 멀티모달 QA 데이터 부족, 효과적인 검색 궤적 부재, 온라인 API 비용 문제라는 세 가지 과제를 해결하기 위해 하이퍼그래프 기반 데이터 생성, 도구별 전문가 최적화 및 트리 탐색을 통한 궤적 재구성, 오프라인 검색 엔진 구축이라는 세 가지 전략을 통해 강력한 멀티모달 심층 연구 에이전트 'MM-DeepResearch'를 제안합니다.

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures

이 논문은 자율주행 VLA 모델의 강화학습 성능 한계를 극복하기 위해 실패의 원인을 명확히 진단하는 피드백을 제공하여 정책을 개선하는 'ELF-VLA' 프레임워크를 제안하고, 이를 통해 NAVSIM 벤치마크에서 최첨단 성능을 달성했음을 보여줍니다.

Yuechen Luo, Qimao Chen, Fang Li + 5 more2026-03-03💻 cs

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

이 논문은 텍스트 이해와 시각 생성을 위한 혼합 확산 (MoD) 프레임워크와 길이 적응 전략을 통해 멀티모달 이해 및 생성에서 최첨단 성능을 달성한 'LLaDA-o' 모델을 제안합니다.

Zebin You, Xiaolu Zhang, Jun Zhou + 2 more2026-03-03🤖 cs.LG

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

이 논문은 정밀도 인식 양자화와 구조화된 가지치기를 적용한 순차적 8 비트 하드웨어 가속기 'SHIELD8-UAV'를 제안하여, UAV 음향 탐지 및 추적에 필요한 저전력 엣지 추론을 대규모 병렬화 없이 실현한 결과를 제시합니다.

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

Adaptive Augmentation-Aware Latent Learning for Robust LiDAR Semantic Segmentation

이 논문은 악천후 조건에서 LiDAR 포인트 클라우드 시맨틱 분할의 성능 저하를 해결하기 위해 다양한 증강 기법을 활용하면서도 증강으로 인한 의미적 변화를 효과적으로 완화하는 'A3Point'라는 적응형 증강 인식 잠재 학습 프레임워크를 제안하고 있습니다.

Wangkai Li, Zhaoyang Li, Yuwen Pan + 3 more2026-03-03💻 cs

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

이 논문은 사용자 쿼리가 여러 조건을 복합적으로 요구하는 현실적인 시나리오를 평가하기 위해 5 개 제품 도메인을 아우르는 대규모 벤치마크 MCMR 을 제안하고, 이를 통해 다중 조건에 따른 정밀한 멀티모달 검색 성능을 분석하고 개선 방안을 제시합니다.

Xuan Lu, Kangle Li, Haohang Huang + 3 more2026-03-03💻 cs

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

이 논문은 그래픽 디자인의 미적 품질을 평가하기 위해 포괄적인 벤치마크인 AesEval-Bench 와 대규모 학습 데이터를 제안하고, 다양한 비전 - 언어 모델의 성능을 체계적으로 평가하여 인간 수준의 미적 평가가 여전히 어렵다는 점을 규명합니다.

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Unified Vision-Language Modeling via Concept Space Alignment

이 논문은 기존 텍스트 임베딩 공간 SONAR 를 확장하여 비전-언어 정렬을 수행한 V-SONAR 와 이를 기반으로 한 V-LCM 을 제안함으로써, 다양한 언어와 모달리티에 걸친 영상 캡셔닝 및 질문 응답 작업에서 기존 최첨단 모델을 능가하는 성능을 입증했습니다.

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk2026-03-03💬 cs.CL

Differential privacy representation geometry for medical image analysis

이 논문은 의료 영상 분석에서 차분 프라이버시 (DP) 가 성능 저하를 일으키는 메커니즘을 명확히 규명하기 위해, 표현 공간의 기하학적 변위와 작업 헤드의 활용도 차이를 분석하는 새로운 프레임워크인 DP-RGMI 를 제안하고 이를 통해 DP 가 특징을 균일하게 붕괴시키는 것이 아니라 표현의 이방성을 변화시킨다는 사실을 입증했습니다.

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting

이 논문은 소량의 손으로 그린 샘플만으로도 확산 모델을 통해 인간과 유사한 붓터치를 생성하고 제어할 수 있는 'StrokeDiff' 프레임워크를 제안하여, 데이터 효율적인 원시 요소 모델링이 표현력 있고 구조화된 멀티미디어 콘텐츠 제작을 가능하게 함을 보여줍니다.

Dantong Qin, Alessandro Bozzon, Xian Yang + 3 more2026-03-03💻 cs

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

이 논문은 스마트 안경용 웹 네이티브 신경-상징 프레임워크인 'Egocentric Co-Pilot'을 제안하여, 시계열 추론과 계층적 컨텍스트 압축을 통해 장기간의 1 인칭 비디오 기반 질문 답변 및 의사결정을 지원하고, 실시간 스트리밍 파이프라인을 통해 시각 장애 및 인지 과부하 사용자를 위한 접근성 있는 보조 AI 의 실현 가능성을 입증했습니다.

Sicheng Yang, Yukai Huang, Weitong Cai + 8 more2026-03-03🤖 cs.AI

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

이 논문은 수술 중 특정 도구 인스턴스를 언어로 지칭하여 위치를 파악하는 임상적 요구를 충족시키기 위해, 다양한 수술 유형과 조건을 포괄하는 최초의 언어 기반 수술 도구 분할 벤치마크인 'GroundedSurg'를 제안하고 이를 통해 기존 비전 - 언어 모델의 성능 격차와 임상적 추론의 필요성을 입증했습니다.

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation

이 논문은 DINOv3 의 시각적 특징을 경량 TokenBook 메커니즘을 통해 공간 가이드 마스크로 변환하여 의료 전용 분할 아키텍처에 사전 학습된 지식을 주입하고 미세 조정 없이도 분할 성능과 경계 강건성을 향상시키는 GuiDINO 프레임워크를 제안합니다.

Zhuonan Liang, Wei Guo, Jie Gan + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

이 논문은 의료용 시각 - 언어 모델이 국소적 병리 증거에 기반한 사실적 환각을 줄이고 임상적 추론 능력을 향상시키기 위해, 가설 기반 영역 제안과 점수 기반 마진 최적화를 활용한 'ClinCoT'라는 임상 인식 시각적 사고 체인 프레임워크를 제안합니다.

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

이 논문은 구성적 시각 관계 (CVR) 작업에서 세 개의 이미지로 규칙을 학습하고 나머지 이미지의 이상치를 식별하기 위해 예측 및 검증 패러다임과 증강 이상 대비 학습을 결합한 PR-A $^2$ CL 모델을 제안하여 기존 최첨단 모델보다 뛰어난 성능을 달성했다고 요약할 수 있습니다.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

← 이전 다음 →