cs.CV 편의 논문 | Gist.Science

Spectrum Shortage for Radio Sensing? Leveraging Ambient 5G Signals for Human Activity Detection

이 논문은 기존 5G 통신 신호를 재사용하여 주파수 부족 문제를 해결하고, 새로운 하드웨어 아키텍처와 크로스 모달 학습 프레임워크를 통해 인간 활동 인식 및 골격 추정 등 정밀한 라디오 센싱을 가능하게 하는 '환경 라디오 센싱 (Ambient Radio Sensing, ARS)' 시스템을 제안하고 실험을 통해 검증했습니다.

Kunzhe Song, Maxime Zingraff, Huacheng Zeng2026-03-05💻 cs

An Effective Data Augmentation Method by Asking Questions about Scene Text Images

이 논문은 장면 텍스트 인식 (STR) 과 손글씨 텍스트 인식 (HTR) 의 정확도를 향상시키기 위해, 문자의 존재, 위치, 빈도 등을 묻는 자연어 질문과 정답을 생성하여 모델이 시각적 특징과 텍스트를 결합해 세밀하게 추론하도록 돕는 새로운 데이터 증강 기법을 제안합니다.

Xu Yao, Lei Kang2026-03-05💻 cs

Hazard-Aware Traffic Scene Graph Generation

이 논문은 기존 장면 그래프의 한계를 극복하고 교통 사고 데이터와 깊이 정보를 활용하여 자차 중심의 위험 인식 및 사고 메커니즘을 정량적으로 표현하는 '교통 장면 그래프 생성'이라는 새로운 작업과 프레임워크를 제안합니다.

Yaoqi Huang, Julie Stephany Berrio, Mao Shan + 1 more2026-03-05💻 cs

DM-CFO: A Diffusion Model for Compositional 3D Tooth Generation with Collision-Free Optimization

이 논문은 텍스트 및 그래프 제약 하에 확산 모델을 통해 치아 배치를 점진적으로 복원하고, 3D 가우시안 기반 충돌 감지 및 정규화 항을 적용하여 충돌이 없는 사실적인 3D 치아 생성을 가능하게 하는 DM-CFO 방법을 제안합니다.

Yan Tian, Pengcheng Xue, Weiping Ding + 5 more2026-03-05💻 cs

Detection and Identification of Penguins Using Appearance and Motion Features

이 논문은 균일한 외형과 빠른 자세 변화, 환경적 노이즈로 인해 어려운 펭귄 감시 문제를 해결하기 위해 YOLO11 에 시간적 일관성을 부여한 2 프레임 기반 감지 모델과 트랙릿 기반 대비 학습을 결합한 프레임워크를 제안하여 펭귄의 탐지 및 식별 성능을 향상시켰습니다.

Kasumi Seko, Hiroki Kinoshita, Raj Rajeshwar Malinda + 1 more2026-03-05💻 cs

Tracking Feral Horses in Aerial Video Using Oriented Bounding Boxes

이 논문은 공중 촬영 영상에서 말의 방향을 180 도 범위 제한 없이 정확히 추정하여 연속 추적을 가능하게 하는 새로운 방향성 경계상자 (OBB) 기반 추적 방법을 제안하고, 299 개의 테스트 이미지에서 99.3% 의 정확도를 입증했습니다.

Saeko Takizawa, Tamao Maeda, Shinya Yamamoto + 1 more2026-03-05💻 cs

Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression

이 논문은 인코더 측에서 뷰 간 정보가 필요 없는 분산 다중 뷰 이미지 압축 (DMIC) 의 성능 한계를 극복하기 위해 제안된 'OmniParallax Attention Mechanism'과 'ParaHydra' 프레임워크를 통해, 기존 최첨단 다중 뷰 압축 코덱보다 압축 효율과 처리 속도를 획기적으로 개선한 최초의 DMIC 방법을 제시합니다.

Haotian Zhang, Feiyue Long, Yixin Yu + 7 more2026-03-05💻 cs

LeafInst - Unified Instance Segmentation Network for Fine-Grained Forestry Leaf Phenotype Analysis: A New UAV based Benchmark

이 논문은 야외 환경의 수목 잎에 대한 정밀한 인스턴스 분할을 위해 UAV 기반의 'Poplar-leaf' 데이터셋을 구축하고, 다중 스케일 및 불규칙한 형태를 효과적으로 처리하는 새로운 'LeafInst' 네트워크를 제안하여 기존 모델보다 우수한 성능을 입증합니다.

Taige Luo, Junru Xie, Chenyang Fan + 5 more2026-03-05💻 cs

RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation

이 논문은 MLLM 을 활용한 텍스트 주석 생성 파이프라인을 도입하고, 다중 모달 트랜스포머 인코더, 적응형 토큰 융합, 그리고 검색 증강 생성 (RAG) 기반의 맥락 인식 추론 모듈을 포함하는 새로운 RAGTrack 프레임워크를 제안하여 기존 RGBT 추적기의 한계를 극복하고 다양한 환경에서 최첨단 성능을 달성함을 보여줍니다.

Hao Li, Yuhao Wang, Wenning Hao + 3 more2026-03-05💻 cs

CoRe-BT: A Multimodal Radiology-Pathology-Text Benchmark for Robust Brain Tumor Typing

이 논문은 진단 시 불완전한 임상 데이터에서도 견고한 뇌종양 분류를 연구하기 위해 MRI, 조직병리 이미지, 병리 보고서 등 다양한 모달리티를 통합한 CoRe-BT 벤치마크를 제안하고, 모달리티 가용성 변화에 따른 다중 모달 학습의 유효성을 평가합니다.

Juampablo E. Heras Rivera, Daniel K. Low, Xavier Xiong + 5 more2026-03-05💻 cs

Extending Neural Operators: Robust Handling of Functions Beyond the Training Set

이 논문은 커널 근사 기법과 RKHS 이론을 활용하여 훈련 데이터 분포를 벗어난 함수와 그 미분값까지 정확하게 처리할 수 있는 신경 연산자 확장 프레임워크를 제안하고, 타원형 편미분방정식 해를 통해 이를 검증했습니다.

Blaine Quackenbush, Paul J. Atzberger2026-03-05🤖 cs.LG

Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

이 논문은 자연스러운 이미지 내에 인간의 눈에는 보이지 않지만 다중 모달 LLM 의 행동을 조작할 수 있는 적대적 지시문을 숨기는 '이미지 기반 프롬프트 인젝션 (IPI)' 공격 기법을 제안하고, 이를 통해 블랙박스 환경에서 최대 64% 의 공격 성공률을 달성할 수 있음을 보여줍니다.

Neha Nagaraja, Lan Zhang, Zhilong Wang + 2 more2026-03-05🤖 cs.AI

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

이 논문은 배경 일관성 유지, 다중 등장인물이 포함된 장면 전환의 매끄러움, 그리고 시간적 연속성을 보장하여 장편 스토리텔링 비디오 생성의 한계를 극복하는 새로운 프레임워크, 데이터셋, 그리고 모델을 제안합니다.

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen + 27 more2026-03-05💻 cs

One-Step Face Restoration via Shortcut-Enhanced Coupling Flow

이 논문은 저화질과 고화질 얼굴 데이터 간의 의존성을 명시적으로 모델링하고 조건부 평균 추정 및 단축 제약 조건을 도입하여, 기존 유동 매칭 기반 방법들의 단점을 해결하고 고품질 얼굴 복원을 단 한 번의 추론으로 가능하게 하는 'SCFlowFR'을 제안합니다.

Xiaohui Sun, Hanlin Wu2026-03-05💻 cs

Field imaging framework for morphological characterization of aggregates with computer vision: Algorithms and applications

이 논문은 현장 조건에서 다양한 시나리오에 적용 가능한 컴퓨터 비전 기반 프레임워크를 개발하여 모래와 자갈 등 건설 골재의 형태적 특성을 자동화되고 정밀하게 분석하는 알고리즘과 그 적용 사례를 제시합니다.

Haohang Huang2026-03-05🤖 cs.AI

← 이전 다음 →

cs.CV