cs.CV 편의 논문 | Gist.Science

FTSplat: Feed-forward Triangle Splatting Network

이 논문은 개별 장면 최적화나 후처리 없이 단일 순전파로 시뮬레이션 준비가 된 연속적인 삼각형 표면을 직접 예측하여 로봇 공학 및 시뮬레이션에 즉시 활용 가능한 고품질 3D 재구성을 가능하게 하는 'FTSplat' 프레임워크를 제안합니다.

Xiong Jinlin, Li Can, Shen Jiawei, Qi Zhigang, Sun Lei, Zhao Dongyang2026-03-09💻 cs

OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving

이 논문은 자율주행 시스템의 안전성을 강화하기 위해 도로 교통 시스템의 전문 지식을 기반으로 한 온톨로지를 구축하고 대규모 시각 언어 모델 (LVLM) 과 확산 모델을 활용하여 사고를 유발하는 도로 구조를 사전에 식별하고 개선 방안을 제시하는 'OD-RASE' 프레임워크를 제안합니다.

Kota Shimomura, Masaki Nambata, Atsuya Ishikawa, Ryota Mimura, Takayuki Kawabuchi, Takayoshi Yamashita, Koki Inoue2026-03-09💻 cs

Facial Expression Recognition Using Residual Masking Network

이 논문은 세그멘테이션 네트워크를 활용한 새로운 마스킹 기법을 도입하여 CNN 의 성능을 향상시킨 'Residual Masking Network'를 제안하고, FER2013 및 VEMO 데이터셋에서 최첨단 정확도를 달성했다고 요약할 수 있습니다.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

이 논문은 다양한 열화 조건에서 특징 간 간섭과 전문가의 전문성 부족 문제를 해결하기 위해, 초구면 기반의 열화 임베딩과 전역 - 국소 세분도 융합 모듈을 통해 네트워크 계층별로 전문화된 전문가를 동적으로 활성화하는 'SLER-IR'이라는 통합 이미지 복원 프레임워크를 제안합니다.

Peng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren2026-03-09💻 cs

Adaptive Radial Projection on Fourier Magnitude Spectrum for Document Image Skew Estimation

이 논문은 문서 이미지의 왜곡 각도를 추정하기 위해 2D 이산 푸리에 크기 스펙트럼에 적응형 방사 투영을 적용한 새로운 방법을 제안하고, 이를 평가하기 위한 고품질 데이터셋 DISE-2021 을 구축하여 기존 방법들보다 뛰어난 성능을 입증했습니다.

Luan Pham, Phu Hao Hoang, Xuan Toan Mai, Tuan Anh Tran2026-03-09💻 cs

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

이 논문은 저해상도 입력에 대한 의미론적 충실도를 측정 가능한 'LucidConsistency' 평가자, 다중 보상 간 대비를 유지하는 '분리된 이점 정규화' 전략, 그리고 대규모 실세계 저해상도 이미지 데이터셋 'LucidLR'을 통해 생성형 초해상도 모델의 환각 현상을 줄이고 지각적 품질과 충실도 간의 균형을 최적화하는 'LucidNFT' 프레임워크를 제안합니다.

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

이 논문은 다양한 입력 이미지의 정보 밀도에 따라 시각 토큰의 할당량을 동적으로 조절하여 비효율적인 학습 파라미터 없이도 비전 - 언어 모델의 효율성과 성능을 동시에 향상시키는 에너지 기반 적응형 토큰 가지치기 프레임워크인 E-AdaPrune 을 제안합니다.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation

이 논문은 구조적 정렬과 교차 뷰 일관성 문제를 해결하기 위해 공간 - 뷰 그래프와 SAM 기반의 판별적 사전 지식을 통합하여 소수 샷 분할 성능을 향상시키는 VINE 프레임워크를 제안합니다.

Hongli Liu, Yu Wang, Shengjie Zhao2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

이 논문은 메모리와 연산 비용을 시퀀스 길이와 무관하게 고정된 예산으로 제한하면서도 3D 기하학적 정확도를 유지하기 위해 자기 선택적 캐싱과 동적 앵커 보호를 결합한 훈련 불필요 프레임워크 OVGGT 를 제안합니다.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Exploring Open-Vocabulary Object Recognition in Images using CLIP

이 논문은 복잡한 재학습과 데이터 주석이 불필요하며, 기존 CLIP 기반 방법보다 높은 평균 AP 를 달성한 객체 분할 후 인식의 2 단계 전략을 기반으로 한 새로운 오픈-보카불러리 객체 인식 (OVOR) 프레임워크를 제안합니다.

Wei Yu Chen, Ying Dai2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

이 논문은 3D 인간 골격 데이터를 시맨틱에 기반한 이미지 형식으로 변환하는 'S2I' 인코딩을 제안하여, 대규모 사전 훈련된 비전 모델의 강력한 능력을 자기지도 학습을 통한 골격 표현 학습에 성공적으로 적용하고 이질적인 데이터 소스를 통합하는 새로운 패러다임을 제시합니다.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

이 논문은 개방형 어휘 객체 탐지 모델의 저비트 양자화로 인한 성능 저하를 해결하기 위해 점진적 양자화 커리큘럼과 텍스트 기반 관계 지식 증류를 통합한 CR-QAT 프레임워크를 제안하고, 이를 통해 제한된 자원 환경에서도 기존 방법보다 우수한 탐지 성능을 달성함을 보여줍니다.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

이 논문은 연속적인 좌표계 변환을 분석적으로 마진화하여 센서 독립적인 물리적 불확실성 매개변수를 활용하고, 베르누이 분포 기반의 확률적 점유 BEV 인코딩을 통해 다양한 LiDAR 환경에서 수동 및 지도 학습 기반 방법과 경쟁하거나 능가하는 3D 장소 인식 성능을 달성한 학습 없는 기술인 PROBE 를 제안합니다.

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

이 논문은 정적인 이미지 쌍 비교를 넘어 변화의 시간적 역학을 명시적으로 모델링하여 두 이미지 간의 차이와 변화 과정을 더 정확하게 설명하는 새로운 프레임워크 'ProCap'을 제안합니다.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

이 논문은 UAV 의 급격한 기동으로 인한 복잡한 관측 조건을 다루기 위해, 기존 벤치마크의 한계를 극복하는 새로운 다중 객체 추적 벤치마크인 'DynUAV'를 제안하고 이를 통해 최첨단 추적기들의 한계를 평가합니다.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

이 논문은 훈련과 추론 간의 분포 차이를 직접 최소화하기 위해 이진 분기 구조와 문법 정규화 손실, 그리고 SDXL 기반의 정밀 제어 모듈을 도입하여 고해상도이고 제어 가능한 참조 기반 스케치 채색의 새로운 표준을 제시합니다.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

이 논문은 깊이 정보와 명시적 기하학적 보정을 배제한 3 시점 RGB 센싱과 VR 원격 조종 데이터를 기반으로 VLA 정책을 적응시켜, 복잡한 온실 환경에서 74.0% 의 성공률로 딸기 수확을 자동화한 'HarvestFlex' 시스템을 제시합니다.

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

본 보고서는 파키스탄산 수술 기구의 제조 결함을 식별하고 수정하기 위해 YOLOv8, ResNet-152, EfficientNet-b4 와 같은 딥러닝 아키텍처를 활용한 자동 광학 검사 (AOI) 시스템을 개발하여 환자 안전과 제조 품질을 향상시키는 방안을 제시합니다.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

이 논문은 비동기적 관측이 특징인 불규칙 샘플링 시계열 데이터의 예측 정확도를 높이기 위해, 시각 및 텍스트 대규모 언어 모델을 활용하여 시간적 패턴과 맥락적 의미를 통합하는 새로운 멀티모달 프레임워크인 MM-ISTS 를 제안합니다.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation

이 논문은 사전 학습된 퍼스펙티브 지식을 유지하면서 경량화된 자기 변조 기법을 통해 360 도 깊이 추정의 일반화 성능을 획기적으로 개선하고, 기존 미세 조정 방식보다 적은 데이터로 더 높은 정확도를 달성하는 RePer-360 을 제안합니다.

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs

← 이전 다음 →

cs.CV