cs.CV 편의 논문 | Gist.Science

Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

이 논문은 복잡한 실내 환경에서 약한 지도 (이진 점유율) 만으로 3D 언어 임베딩 가우시안을 활용하여 기존 방법들보다 뛰어난 성능을 보이는 단안 개방 어휘 점유율 예측 프레임워크를 제안합니다.

Changqing Zhou, Yueru Luo, Han Zhang + 2 more2026-02-27💻 cs

SPMamba-YOLO: An Underwater Object Detection Network Based on Multi-Scale Feature Enhancement and Global Context Modeling

이 논문은 수중 환경의 열악한 조건과 작은 표적 탐지 문제를 해결하기 위해 다중 스케일 특징 강화와 글로벌 컨텍스트 모델링을 통합한 새로운 SPMamba-YOLO 네트워크를 제안하며, URPC2022 데이터셋에서 기존 YOLOv8n 대비 4.9% 이상 높은 mAP@0.5 성능을 입증했습니다.

Guanghao Liao, Zhen Liu, Liyuan Cao + 2 more2026-02-27💻 cs

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

이 논문은 CLIP 스타일의 대비 학습에 유사성 그래프 정규화 최적 수송 (SIGROT) 손실을 통합하여 저자원 언어인 베트남어 이미지 - 텍스트 검색 성능을 획기적으로 개선한 최초의 기반 비전 - 언어 모델인 ViCLIP-OT 를 제안하고, 여러 벤치마크에서 기존 모델들을 능가하는 성과를 입증합니다.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-02-27🤖 cs.AI

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

이 논문은 스마트 안경의 실제 사용 환경을 반영한 최초의 종합적인 VQA 벤치마크인 'SUPERGLASSES'를 소개하고, 이를 기반으로 검색 증강 생성을 수행하는 새로운 멀티모달 에이전트 'SUPERLENS'를 제안하여 GPT-4o 를 능가하는 성능을 입증했습니다.

Zhuohang Jiang, Xu Yuan, Haohao Qu + 4 more2026-02-27🤖 cs.AI

No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

이 논문은 실제 환경에서 캡션이 누락된 상황에서도 기존 방법보다 우수한 성능을 보이는 'MoFit'이라는 새로운 프레임워크를 제안하여, 생성 모델이 학습 데이터를 암기했는지 여부를 캡션 없이도 정확히 추론할 수 있음을 입증합니다.

Joonsung Jeon, Woo Jae Kim, Suhyeon Ha + 2 more2026-02-27💻 cs

UFO-DETR: Frequency-Guided End-to-End Detector for UAV Tiny Objects

본 논문은 UAV 영상 내 초소형 객체 검출의 어려움을 해결하기 위해 LSKNet 백본, DAttention 및 AIFI 모듈, 그리고 동적 주파수 특징 강화 모듈을 통합한 UFO-DETR 프레임워크를 제안하여 정확도와 계산 효율성을 동시에 향상시킵니다.

Yuankai Chen, Kai Lin, Qihong Wu + 6 more2026-02-27💻 cs

SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs

이 논문은 3D LVLM 의 공간 인식 능력을 향상시키기 위해 점구름 데이터의 기하학적 구조를 보존하고 방향적 의존성을 고려한 구면 좌표 기반의 새로운 위치 임베딩 (SoPE) 과 다중 스케일 주파수 혼합 전략을 제안합니다.

Guanting Ye, Qiyan Zhao, Wenhao Yu + 7 more2026-02-27🤖 cs.AI

IRSDE-Despeckle: A Physics-Grounded Diffusion Model for Generalizable Ultrasound Despeckling

이 논문은 MRI 이미지를 기반으로 한 시뮬레이션 데이터로 학습된 물리 기반 확산 모델 'IRSDE-Despeckle'을 제안하여 초음파 영상의 잡음을 효과적으로 제거하면서도 해부학적 구조를 보존하고 예측 불확실성을 정량화하여 임상 적용의 견고성을 강화하는 방법을 제시합니다.

Shuoqi Chen, Yujia Wu, Geoffrey P. Luke2026-02-27💻 cs

HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models

이 논문은 대규모 시각 - 언어 모델의 환각 현상을 해결하기 위해, 기존 방법의 비효율성과 한계를 극복하고 단일 패스로 시각 증거를 손상시키지 않으면서 환각 패턴만 선택적으로 억제하는 'HulluEdit'라는 새로운 프레임워크를 제안합니다.

Yangguang Lin, Quan Fang, Yufei Li + 3 more2026-02-27💻 cs

Sapling-NeRF: Geo-Localised Sapling Reconstruction in Forests for Ecological Monitoring

이 논문은 GNSS, LiDAR SLAM, NeRF 기술을 융합하여 숲의 어린나무를 정밀하게 지리 위치화하고 3D 재구성함으로써 기존 방법보다 정확한 생태학적 모니터링을 가능하게 하는 새로운 파이프라인을 제안합니다.

Miguel Ángel Muñoz-Bañón, Nived Chebrolu, Sruthi M. Krishna Moorthy + 4 more2026-02-27💻 cs

Asymmetric Idiosyncrasies in Multimodal Models

이 논문은 캡션 생성 모델이 뚜렷한 스타일적 특징을 보이지만, 이를 기반으로 생성된 이미지에서는 이러한 특징이 사라지는 비대칭적 현상을 체계적으로 분석하고, 이를 통해 캡션 모델의 스타일적 특성과 텍스트 - 이미지 생성 모델의 프롬프트 준수 능력을 정량화하는 새로운 방법론을 제시합니다.

Muzi Tao, Chufan Shi, Huijuan Wang + 2 more2026-02-27💻 cs

ProjFlow: Projection Sampling with Flow Matching for Zero-Shot Exact Spatial Motion Control

이 논문은 선형 역문제로 표현 가능한 다양한 애니메이션 작업에 대해 훈련 없이도 정확한 공간적 제약을 만족하면서도 자연스러운 동작을 생성할 수 있는 'ProjFlow'라는 새로운 샘플링 기법을 제안합니다.

Akihisa Watanabe, Qing Yu, Edgar Simo-Serra + 1 more2026-02-27💻 cs

Beyond Detection: Multi-Scale Hidden-Code for Natural Image Deepfake Recovery and Factual Retrieval

이 논문은 다중 스케일 숨겨진 코드와 조건부 트랜스포머 모듈을 활용하여 딥페이크 탐지를 넘어 이미지 복원 및 사실적 정보 검색을 가능하게 하는 통합 프레임워크를 제안하고, 이를 평가하기 위한 ImageNet-S 벤치마크를 구축했습니다.

Yuan-Chih Chen, Chun-Shien Lu2026-02-27💻 cs

TrajTok: Learning Trajectory Tokens enables better Video Understanding

이 논문은 비디오 이해의 효율성과 성능을 동시에 향상시키기 위해 외부 분할 파이프라인 없이 비디오 모델과 통합되어 학습되며, 비디오의 길이에 구애받지 않고 의미적 복잡도에 따라 동적으로 토큰 세분화를 조절하는 종단간 비디오 토크나이저 'TrajTok'을 제안합니다.

Chenhao Zheng, Jieyu Zhang, Jianing Zhang + 6 more2026-02-27💻 cs

SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation

이 논문은 단일 이미지에서 구조화된 3D 장면을 생성하기 위해 엔트로피 최적 수송 (Optimal Transport) 을 활용하여 이미지 패치와 3D 부분 잠재 변수 간의 배타적 1 대 1 라우팅을 강제하고, 이를 통해 객체 간 응집성과 기하학적 정밀도를 크게 향상시킨 'SceneTransporter' 프레임워크를 제안합니다.

Ling Wang, Hao-Xiang Guo, Xinzhou Wang + 9 more2026-02-27💻 cs

← 이전 다음 →

cs.CV