cs.CV 편의 논문 | Gist.Science

Person Detection and Tracking from an Overhead Crane LiDAR

이 논문은 오버헤드 크레인 LiDAR 를 활용한 산업용 실내 공간의 사람 탐지 및 추적을 위해 전용 데이터셋을 구축하고, VoxelNeXT 와 SECOND 와 같은 3D 탐지기를 적응시켜 근거리에서 0.97 의 높은 평균 정밀도를 달성함과 동시에 실시간 추적 가능성을 입증했습니다.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

이 논문은 병리학자의 진단 워크플로우를 모방하여 신뢰할 수 있는 해석 가능성을 제공하는 적응형 프로토타입 기반 약지도 학습 프레임워크를 제안함으로써 전립선암 조직병리 이미지의 자동 등급 분류 성능과 신뢰도를 동시에 향상시켰습니다.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

이 논문은 웹 환경의 변화에 따른 에이전트의 취약성을 평가하기 위해 'TimeWarp' 벤치마크를 제안하고, 여러 버전의 UI 를 아우르는 궤적을 활용한 'TimeTraj' 알고리즘을 통해 웹 에이전트의 일반화 성능과 견고성을 획기적으로 향상시켰음을 보여줍니다.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

이 논문은 방사선과 전문의의 비교 진단 워크플로우를 모방하여 질병 진행과 촬영 차이로 인한 미세한 시각적 변이를 구별하기 위해 자동 참조 표현 및 지상화 캡션링과 같은 위치 인식 태스크를 포함한 사전 학습 프레임워크를 제안함으로써, 흉부 X-ray 이미지에서 임상적으로 관련 있는 변화를 감지하고 추론하는 성능을 획기적으로 개선한 연구입니다.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

이 논문은 DOCCI 데이터셋의 고밀도 인간 작성 설명과 효율적인 멀티모달 정렬을 통해 17 억 파라미터 규모의 소형 모델임에도 불구하고 상세하고 구조화된 이미지 캡션을 생성할 수 있는 'VisionPangu'를 제안합니다.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

이 논문은 헤드마운트 카메라로 촬영된 근접 얼굴 영상에서 발생하는 원근 왜곡을 효과적으로 포착하면서도 기존 정사영 모델의 안정성을 유지하기 위해, 3D 모퍼블 모델 회귀를 위한 새로운 축소 파라미터가 포함된 의사 원근 카메라 모델을 제안합니다.

Toby Chong, Ryota Nakajima2026-03-06💻 cs

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

이 논문은 저조도 이미지 향상 (LLIE) 시 이벤트 카메라의 내재적 노이즈와 이미지 신호 대 잡음비 저하로 인한 성능 병목 현상을 해결하기 위해, 이미지와 이벤트 간의 강한 기울기 상관관계를 활용한 경향성 기반 이벤트 정제 사전 지식을 도입하고, 향상 작업에 적응적으로 최적화되도록 이벤트 정제를 상하위 레벨 최적화 문제로 재정의한 'BiEvLight' 프레임워크를 제안합니다.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

이 논문은 3D 장면 이해의 평가 지표를 직접 보상 함수로 활용하는 강화 미세 조정 (3D-RFT) 프레임워크를 제안하여, 기존 지도 학습 기반 방법론의 한계를 극복하고 더 큰 모델보다 우수한 성능을 보이는 비디오 기반 3D 인식 및 추론 능력을 달성했습니다.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

이 논문은 장기간 비디오 이해의 어려움을 해결하기 위해, 답변 후보를 검증 가능한 가설로 재구성하고 국소적 비디오 콘텐츠를 통해 이를 검증하는 'VideoHV-Agent'라는 다중 에이전트 프레임워크를 제안하여 기존 방법론보다 높은 정확도와 논리적 타당성을 달성했다고 요약할 수 있습니다.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

이 논문은 다음 토큰 예측을 기반으로 한 간단한 오토레거시 모델인 Wallaroo 를 통해 멀티모달 이해, 이미지 생성 및 편집을 통합하고 다양한 해상도와 다국어 지원을 구현하는 새로운 접근법을 제시합니다.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

이 논문은 프레임과 이벤트 스트림 간의 비동기적 융합을 통해 모달리티 실패나 저조도 환경에서도 견고한 임의 점 추적을 가능하게 하는 TAPFormer 를 제안하고, 이를 위해 새로운 실제 데이터셋을 구축하여 기존 방법론보다 우수한 성능을 입증했습니다.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

이 논문은 단일 이미지로부터 고품질의 3D 의상 입은 인간 아바타를 복원하기 위해, 대규모 텍스처 데이터 구축, 영역 인식 형상 추출 모듈, 그리고 기하 - 텍스처 협업 특성을 활용한 이중 재구성 U-Net 을 통합한 'MultiGO++' 프레임워크를 제안합니다.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

이 논문은 단일 흐릿한 이미지에서 물리적으로 일관된 Zernike 계수, 파면 및 점확산함수 제약을 통합한 'Lens2Zernike' 프레임워크를 제안하여 모바일 광학의 왜곡을 물리적으로 정확하게 복원하고 이를 통해 안정적인 비블라인드 디컨볼루션을 가능하게 함으로써 기존 딥러닝 및 고전적 방법보다 우수한 성능을 달성했습니다.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

이 논문은 생성 기반 이미지 복원 기술의 실제 능력을 평가하기 위해 새로운 다차원 평가 체계를 제안하고, 기존 방법 대비 성능 격차와 '세부 정보 부족'에서 '과잉 생성 및 의미적 제어'로 전환된 새로운 실패 양상을 규명하며, 인간 지각과 부합하는 새로운 이미지 품질 평가 모델을 개발함으로써 해당 분야의 발전 방향을 제시합니다.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

이 논문은 비전 기반 모델 (VFM) 의 일반화된 지식을 활용하여 다양한 임상 환경에서의 소스 프리 비지도 도메인 적응 문제를 해결하기 위해 제안된 Tell2Adapt 프레임워크를 소개하며, 맥락 인식 프롬프트 정규화와 시각적 타당성 정제 기법을 통해 의료 영상 분할 분야에서 기존 방법론을 능가하는 성능을 입증했습니다.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

이 논문은 역사적 지도의 다양성을 반영한 새로운 벤치마크 데이터셋 'Semap'과 절차적 데이터 합성 및 다중 스케일 통합을 결합한 분할 프레임워크를 제안하여, 다양한 스타일과 규모의 이질적인 지도 컬렉션에서도 견고하고 일반화 가능한 의미 분할 성능을 달성함을 보여줍니다.

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

이 논문은 저비용 의료 영상 장비에서 생성된 광간섭 단층촬영 (OCT) 의 중간 재구성 정보를 활용하여, 재구성 과정의 시간적 스케일에 기반한 모듈러 네트워크를 통해 테스트 시간에 하위 분할 모델의 정규화 계수를 적응시킴으로써 분할 성능을 향상시키고 불확실성을 추정하는 IRTTA 방법을 제안합니다.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

← 이전 다음 →

cs.CV