cs.CV 편의 논문 | Gist.Science

Distant Object Localisation from Noisy Image Segmentation Sequences

이 논문은 제한된 계산 자원과 원거리 물체라는 제약 조건 하에서도 드론 기반 산불 감시와 같은 안전 필수 감시 작업을 위해 노이즈가 포함된 이미지 분할 시퀀스를 활용한 다중 뷰 삼각측량 및 파티클 필터 기반의 3D 물체 국소화 방법의 유효성을 입증합니다.

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

이 논문은 폐루프 자율주행 환경에서 안전하고 반응적인 궤적 계획을 위해 전진 및 역과정의 이론적 일관성을 보장하는 '브릿지드라이브 (BridgeDrive)'라는 새로운 앵커 기반 확산 브리지 정책을 제안하고, Bench2Drive 벤치마크에서 기존 최첨단 방법론보다 성공률을 크게 향상시킨 결과를 제시합니다.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

이 논문은 VAE 잠재 공간의 이질적인 분산을 해결하기 위해 초구면 제약 (hyperspherical constraint) 을 도입한 'SphereAR'를 제안하여, 기존 확산 모델이나 마스킹 생성 모델을 능가하는 이미지 생성 성능을 달성한 연속 토큰 자기회귀 (AR) 모델의 새로운 표준을 제시합니다.

Guolin Ke, Hui Xue2026-03-06💻 cs

Continuous Space-Time Video Super-Resolution with 3D Fourier Fields

이 논문은 저해상도 비디오를 3D 푸리에 필드로 연속적으로 표현하여 공간적 세부 사항과 시간적 일관성을 동시에 향상시키고, 기존 방법보다 효율적으로 고품질 비디오 초해상도를 달성하는 새로운 접근법을 제안합니다.

Alexander Becker, Julius Erbach, Dominik Narnhofer + 1 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

이 논문은 1 인칭 시점의 관측 노이즈를 고려한 최초의 벤치마크인 'EgoTraj-Bench'와 이를 기반으로 역사적 관측 데이터를 정제하고 미래 궤적을 예측하는 이중 스트림 모델 'BiFlow'를 제안하여, 인간 중심 환경에서의 로봇 내비게이션 신뢰성을 획기적으로 향상시켰습니다.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Weakly Supervised Cloud Detection Combining Spectral Features and Multi-Scale Deep Network

이 논문은 얇은 구름의 특징 부족과 훈련 데이터의 한계를 극복하기 위해 스펙트럼 특징과 다중 스케일 장면 수준의 심층 네트워크를 결합한 약지도 구름 탐지 방법 (SpecMCD) 을 제안하여, 다양한 구름 밀도 조건에서 기존 방법보다 7.82% 이상 향상된 F1 점수를 달성한 pixel-level 구름 마스크를 생성함을 보여줍니다.

Shaocong Zhu, Zhiwei Li, Xinghua Li + 1 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

이 논문은 강화학습 기반의 추론 MLLM 인 VidGuard-R1 을 통해 기존 정적 데이터셋의 한계를 극복하고, 물리 법칙에 기반한 아티팩트를 탐지하며 인간이 이해할 수 있는 설명을 제공하는 새로운 AI 생성 영상 감지 프레임워크를 제시합니다.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

이 논문은 척추 외과 전문의와 공동 설계된 대규모 척추 전문 데이터셋 'SpineMed-450k'와 임상적 평가 프레임워크 'SpineBench'를 제안하여, 기존 대규모 시각 - 언어 모델의 척추 수준별 추론 한계를 극복하고 진단 정확도를 획기적으로 향상시켰음을 보여줍니다.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

이 논문은 축구 방송에서 회전된 로고의 정확한 검출을 위해 회전 감지 바운딩 박스 (OBB) 와 언어 기반 에이전트 계층을 통합한 'ExposureEngine'을 제안하여 스폰서 노출 분석의 정확성과 자동화를 혁신적으로 개선했음을 보여줍니다.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

이 논문은 Sentinel-2 데이터를 기반으로 학습된 'TerraCodec'을 제안하여 기존 코덱 대비 3~10 배의 압축 효율을 달성하고, 시계열 의존성을 활용한 영상 압축과 구름 제거 기능을 동시에 구현함으로써 지구 관측 데이터 처리의 새로운 방향을 제시합니다.

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

이 논문은 기존 자기지도 학습 방식의 새로운 뷰 합성 모델들이 전이성이 부족하다는 문제를 지적하고, 3D 기하학적 인덕티브 바이어스나 SE(3) 와 같은 명시적 포즈 파라미터화 없이도 입력과 출력의 증강을 통해 카메라 포즈와 장면 내용을 분리하여 진정한 전이 가능한 새로운 뷰 합성을 실현한 'XFactor' 모델을 제안합니다.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

이 논문은 사전 훈련된 텍스트 - 비디오 생성 모델과 3D 재구성 네트워크를 모델 스티칭 (model stitching) 과 직접 보상 미세 조정 (direct reward finetuning) 기법을 통해 결합하여, 기존 방법보다 우수한 품질의 텍스트 -3D 및 텍스트 - 포인트맵 생성을 가능하게 하는 VIST3A 프레임워크를 제안합니다.

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

이 논문은 뇌 종양 이질성으로 인한 분할의 어려움을 해결하기 위해 공간 locality 를 보존하는 공간 채움 곡선과 게이트 퓨전 모듈을 활용한 DRBD-Mamba 모델을 제안하고, BraTS2023 데이터셋에 대한 체계적인 평가와 분석을 통해 기존 최첨단 방법 대비 분할 정확도 향상과 15 배의 효율성 개선을 입증합니다.

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

이 논문은 2D 중심 학습의 한계와 불필요한 3D 정보로 인한 추론 실패를 해결하기 위해, 전문가 모델의 3D 인식 결과를 기반으로 최소한의 필수 정보만 선별하여 추론 정확도를 극대화하는 'MSSR'이라는 이중 에이전트 프레임워크를 제안합니다.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

이 논문은 3D 장면 이해를 위한 인간과 유사한 단계별 추론을 가능하게 하는 새로운 프레임워크인 SceneCOT 과 대규모 Grounded CoT 데이터셋인 SCENECOT-185K 를 제안하여, 기존 3D LLM 의 Grounded 질문 응답 성능을 획기적으로 향상시켰습니다.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

이 논문은 전역적 맥락과 객체 간 상호작용을 고려하여 정밀한 영역 이해와 복합적 추론을 가능하게 하는 'Grasp Any Region(GAR)' 모델과 이를 평가하는 벤치마크를 제안하며, 기존 모델들을 능가하는 성능을 입증합니다.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

이 논문은 장기간 비디오 이해를 위한 대규모 멀티모달 모델의 확장성 문제를 해결하기 위해, 훈련 없이 모델과 쿼리에 구애받지 않고 시설 위치 함수와 지연 탐욕 알고리즘을 활용하여 효율적으로 시각 토큰을 압축하는 새로운 프레임워크인 FLoC 를 제안합니다.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream 는 텍스트와 모션 제어를 기반으로 단일 GPU 에서 초당 29 프레임의 실시간 스트리밍 비디오 생성을 가능하게 하며, 고정된 컨텍스트 윈도우를 통해 무한히 긴 비디오를 고품질로 생성하는 새로운 접근법을 제시합니다.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

이 논문은 sEMG 기반 제스처 인식의 과적합 및 일반화 문제를 해결하기 위해, 의미적 표현을 활용한 생성 조건과 희소성 인식 샘플링 전략을 결합하여 충실하고 다양한 증강 데이터를 생성하는 'SASG-DA'라는 새로운 확산 기반 데이터 증강 방법을 제안하고 그 유효성을 입증합니다.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

이 논문은 DeiT 아키텍처와 점진적 증강 전략을 결합한 'DeiTFake' 모델을 제안하여 OpenForensics 데이터셋에서 99.22% 의 정확도와 0.9997 의 AUROC 를 달성함으로써 최신 딥페이크 탐지 기법들을 능가하는 성능을 입증했습니다.

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

← 이전 다음 →