cs.CV 편의 논문 | Gist.Science

SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking

이 논문은 위성 영상 내 작은 목표물, 흐린 배경, 큰 종횡비 변화 및 빈번한 가려짐과 같은 도전 과제를 해결하기 위해 기하학적 주의 메커니즘과 모션 가이드를 결합하여 130 FPS 의 실시간 성능을 달성한 새로운 Siamese 추적기인 SiamGM 을 제안합니다.

Zixiao Wen, Zhen Yang, Jiawei Li, Xiantai Xiang, Guangyao Zhou, Yuxin Hu, Yuhan Liu2026-03-10💻 cs

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

이 논문은 생성적·재구성적·판별적 접근법과 관심 영역 (ROI) 어텐션 모듈을 결합한 GRD-Net 을 제안하여, 기존 전처리 알고리즘의 의존성을 줄이고 제약 조건이 있는 산업 환경 (예: 의약품 바이알) 에서 더 일반화된 표면 이상 검출 및 국소화를 가능하게 합니다.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

이 논문은 RGB-D 데이터를 활용하여 다양한 장면 이해 작업을 수행하는 효율적인 모델을 제안하며, 향상된 퓨전 인코더와 다중 작업 적응 손실 함수 등을 통해 기존 방법보다 높은 정확도와 처리 속도를 달성함을 보여줍니다.

Guodong Sun, Junjie Liu, Gaoyang Zhang, Bo Wu, Yang Zhang2026-03-10💻 cs

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

이 논문은 이미지 분류에서 OOD(Out-of-Distribution) 감지를 위한 네 가지 주요 학습 목적 함수 (교차 엔트로피, 프로토타입, 트리플릿, 평균 정밀도 손실) 를 체계적으로 비교 분석하여, 교차 엔트로피 손실이 전반적으로 가장 일관된 OOD 감지 성능을 보인다는 사실을 규명했습니다.

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

이 논문은 제약 산업의 고속 Blow-Fill-Seal (BFS) 생산 라인에서 제한된 시간 내에 실시간으로 결함을 탐지하고 위치를 파악하기 위해, 정상 샘플만으로 학습된 생성적 적대 신경망 (GAN) 기반의 잔차 오토인코더 이상 탐지 알고리즘을 통합한 프레임워크를 제안합니다.

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

3DGS-HPC: Distractor-free 3D Gaussian Splatting with Hybrid Patch-wise Classification

이 논문은 이동하는 객체나 그림자 같은 일회성 방해 요인을 효과적으로 제거하여 3D 가우스 스플래팅 (3DGS) 의 재구성 품질을 향상시키기 위해, 국소 공간 일관성을 활용한 패치 단위 분류 전략과 광도 및 지각적 단서를 결합한 하이브리드 분류 메트릭을 도입한 '3DGS-HPC' 프레임워크를 제안합니다.

Jiahao Chen, Yipeng Qin, Ganlong Zhao, Xin Li, Wenping Wang, Guanbin Li2026-03-10💻 cs

Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints

이 논문은 LVLM 이 개별적으로는 안전해 보이는 시각적 요소들을 조합해 유해한 의미를 생성하는 '의미적 슬롯 채우기' 취약점을 발견하고, 이를 악용하여 블랙박스 환경에서 단일 쿼리로 모델의 안전 장치를 우회하는 'StructAttack' 프레임워크를 제안합니다.

Chenxi Li, Xianggan Liu, Dake Shen, Yaosong Du, Zhibo Yao, Hao Jiang, Linyi Jiang, Chengwei Cao, Jingzhe Zhang, RanYi Peng, Peiling Bai, Xiande Huang2026-03-10🤖 cs.LG

Fast Attention-Based Simplification of LiDAR Point Clouds for Object Detection and Classification

이 논문은 자율주행용 LiDAR 포인트 클라우드의 실시간 처리를 위해 태스크 관련 영역을 우선적으로 선택하는 어텐션 기반 학습형 단순화 방법을 제안하여, 기존 방법 대비 높은 다운샘플링 비율에서도 정확도를 유지하면서 계산 효율성을 크게 향상시켰음을 보여줍니다.

Z. Rozsa, Á. Madaras, Q. Wei, X. Lu, M. Golarits, H. Yuan, T. Sziranyi, R. Hamzaoui2026-03-10💻 cs

EmbedTalk: Triplane-Free Talking Head Synthesis using Embedding-Driven Gaussian Deformation

EmbedTalk 는 삼면 (tri-plane) 인코딩 대신 학습된 임베딩을 활용하여 3D 가우스 스플래팅 기반의 말하기 헤드 합성에서 렌더링 품질, 입술 동기화 및 모션 일관성을 향상시키고 모바일 GPU 에서 60FPS 이상의 실시간 성능을 달성하는 새로운 방법을 제안합니다.

Arpita Saggar, Jonathan C. Darling, Duygu Sarikaya, David C. Hogg2026-03-10💻 cs

Looking Into the Water by Unsupervised Learning of the Surface Shape

이 논문은 수면의 굴절로 인한 왜곡을 제거하기 위해 수면 높이와 이미지 색상을 예측하는 두 개의 신경장 (neural-field) 네트워크를 활용한 비지도 학습 기반의 새로운 복원 방법을 제안하며, SIREN 을 통해 수면 구조를 효과적으로 모델링하여 기존 방법보다 우수한 성능을 입증했습니다.

Ori Lifschitz, Tali Treibitz, Dan Rosenbaum2026-03-10💻 cs

Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

이 논문은 고정된 시각 생성 모델에 저랭크 적응 (LoRA) 을 부착하여 신호를 함수로 인코딩하는 새로운 프레임워크를 제안함으로써, 극저 비트레이트에서 강력한 지각적 비디오 압축을 실현하고 압축과 생성을 통합하는 새로운 패러다임을 제시합니다.

Jiajun He, Zongyu Guo, Zhaoyang Jia, Xiaoyi Zhang, Jiahao Li, Xiao Li, Bin Li, José Miguel Hernández-Lobato, Yan Lu2026-03-10🤖 cs.LG

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

이 논문은 비전-언어 모델의 환각 현상이 최종 출력보다는 중간 계층에서 잘못된 가설이 고정되고 전파되는 '과도한 사고 (overthinking)' 과정에서 비롯된다는 점을 규명하고, 이를 측정하는 '과도한 사고 점수'를 도입하여 환각 탐지 성능을 크게 향상시켰음을 제시합니다.

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan2026-03-10💻 cs

Duala: Dual-Level Alignment of Subjects and Stimuli for Cross-Subject fMRI Decoding

이 논문은 제한된 데이터로 새로운 피험자에 적용할 때 발생하는 문제를 해결하기 위해 자극 수준의 의미 정합과 피험자 수준의 분산 기반 특징 교란을 결합한 'Duala' 프레임워크를 제안하여, fMRI 기반 교차 피험자 시각 해독의 성능을 획기적으로 향상시킨다는 내용을 담고 있습니다.

Shumeng Li, Jintao Guo, Jian Zhang, Yulin Zhou, Luyang Cao, Yinghuan Shi2026-03-10💻 cs

Real-Time Glottis Detection Framework via Spatial-decoupled Feature Learning for Nasal Transnasal Intubation

이 논문은 제한된 컴퓨팅 자원을 가진 엣지 장치에서도 실시간으로 작동할 수 있도록 경량화된 Mobile GlottisNet 프레임워크를 제안하여, 복잡한 해부학적 조건에서도 비강 내 삽관 시 신속하고 정확한 성문 감지를 가능하게 합니다.

Jinyu Liu, Gaoyang Zhang, Yang Zhou, Ruoyi Hao, Yang Zhang, Hongliang Ren2026-03-10💻 cs

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

이 논문은 NVIDIA Omniverse 기반의 고충실도 디지털 트윈을 활용해 생성된 합성 데이터와 소량의 실제 데이터를 혼합하여 훈련함으로써, 공항 수하물 카트 탐지 성능을 유지하면서 실제 데이터 주석 작업을 25~35% 줄일 수 있음을 입증합니다.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

이 논문은 장기적 작업과 지속적 학습을 위한 기존 VLA 모델의 한계를 극복하기 위해, 기술 가이드 혼합 전문가 (SG-MoE) 를 활용한 확장 가능한 원자 기술 라이브러리와 유연한 라우팅 인코더를 통해 작업 계획, 원자 기술 추상화, 정밀 행동을 통합적으로 생성하는 'AtomicVLA' 프레임워크를 제안하고 그 우수성을 입증합니다.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence

이 논문은 기하학적 스펙트럼 분석과 비전 - 언어 기반 모델의 시맨틱 사전 지식을 통합하여, 수동 감독 없이도 심한 비등거리 변형 및 클래스 간 설정에서도 강건한 밀도 3D 형상 대응을 가능하게 하는 GLASS 프레임워크를 제안하고 있습니다.

Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun2026-03-10💻 cs

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

이 논문은 언어 편향과 민감성 문제를 해결하기 위해 텍스트 및 시각적 교란을 통한 다중 라운드 반사실 추론을 수행하는 '자기비판 추론 (SCI)' 프레임워크와 모델별 동적 강건성 평가 기준인 'DRBench'를 제안하여, 추론 라운드 수를 늘림으로써 비전 - 언어 모델의 테스트 시간 강건성을 크게 향상시킨다는 내용입니다.

Kaihua Tang, Jiaxin Qi, Jinli Ou, Yuhua Zheng, Jianqiang Huang2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

이 논문은 인간의 개입 없이 원시 비디오 데이터로부터 대규모 3D 가우시안 스플래팅 (3DGS) 재구성과 다양한 공간적 추론 질문 - 답변 쌍을 자동 생성하는 최초의 대규모 멀티모달 데이터셋인 'Holi-Spatial'을 제안하고, 이를 통해 기존 벤치마크의 확장성 한계를 극복하고 시각 - 언어 모델의 공간 지능 성능을 획기적으로 향상시켰음을 보여줍니다.

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

이 논문은 명시적인 광선 추적을 사용하지 않고도 근거리 및 원거리 반사를 효율적으로 모델링하여 표면 재구성과 새로운 뷰 합성 성능을 획기적으로 개선한 'Ref-DGS(반사 이중 가우스 스플래팅)' 프레임워크를 제안합니다.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs

← 이전 다음 →