cs.CV 편의 논문 | Gist.Science

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

이 논문은 1 인칭 시점의 관측 노이즈를 고려한 최초의 벤치마크인 'EgoTraj-Bench'와 이를 기반으로 역사적 관측 데이터를 정제하고 미래 궤적을 예측하는 이중 스트림 모델 'BiFlow'를 제안하여, 인간 중심 환경에서의 로봇 내비게이션 신뢰성을 획기적으로 향상시켰습니다.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Weakly Supervised Cloud Detection Combining Spectral Features and Multi-Scale Deep Network

이 논문은 얇은 구름의 특징 부족과 훈련 데이터의 한계를 극복하기 위해 스펙트럼 특징과 다중 스케일 장면 수준의 심층 네트워크를 결합한 약지도 구름 탐지 방법 (SpecMCD) 을 제안하여, 다양한 구름 밀도 조건에서 기존 방법보다 7.82% 이상 향상된 F1 점수를 달성한 pixel-level 구름 마스크를 생성함을 보여줍니다.

Shaocong Zhu, Zhiwei Li, Xinghua Li + 1 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

이 논문은 강화학습 기반의 추론 MLLM 인 VidGuard-R1 을 통해 기존 정적 데이터셋의 한계를 극복하고, 물리 법칙에 기반한 아티팩트를 탐지하며 인간이 이해할 수 있는 설명을 제공하는 새로운 AI 생성 영상 감지 프레임워크를 제시합니다.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

이 논문은 척추 외과 전문의와 공동 설계된 대규모 척추 전문 데이터셋 'SpineMed-450k'와 임상적 평가 프레임워크 'SpineBench'를 제안하여, 기존 대규모 시각 - 언어 모델의 척추 수준별 추론 한계를 극복하고 진단 정확도를 획기적으로 향상시켰음을 보여줍니다.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

이 논문은 축구 방송에서 회전된 로고의 정확한 검출을 위해 회전 감지 바운딩 박스 (OBB) 와 언어 기반 에이전트 계층을 통합한 'ExposureEngine'을 제안하여 스폰서 노출 분석의 정확성과 자동화를 혁신적으로 개선했음을 보여줍니다.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

이 논문은 Sentinel-2 데이터를 기반으로 학습된 'TerraCodec'을 제안하여 기존 코덱 대비 3~10 배의 압축 효율을 달성하고, 시계열 의존성을 활용한 영상 압축과 구름 제거 기능을 동시에 구현함으로써 지구 관측 데이터 처리의 새로운 방향을 제시합니다.

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

이 논문은 기존 자기지도 학습 방식의 새로운 뷰 합성 모델들이 전이성이 부족하다는 문제를 지적하고, 3D 기하학적 인덕티브 바이어스나 SE(3) 와 같은 명시적 포즈 파라미터화 없이도 입력과 출력의 증강을 통해 카메라 포즈와 장면 내용을 분리하여 진정한 전이 가능한 새로운 뷰 합성을 실현한 'XFactor' 모델을 제안합니다.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

이 논문은 사전 훈련된 텍스트 - 비디오 생성 모델과 3D 재구성 네트워크를 모델 스티칭 (model stitching) 과 직접 보상 미세 조정 (direct reward finetuning) 기법을 통해 결합하여, 기존 방법보다 우수한 품질의 텍스트 -3D 및 텍스트 - 포인트맵 생성을 가능하게 하는 VIST3A 프레임워크를 제안합니다.

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

이 논문은 뇌 종양 이질성으로 인한 분할의 어려움을 해결하기 위해 공간 locality 를 보존하는 공간 채움 곡선과 게이트 퓨전 모듈을 활용한 DRBD-Mamba 모델을 제안하고, BraTS2023 데이터셋에 대한 체계적인 평가와 분석을 통해 기존 최첨단 방법 대비 분할 정확도 향상과 15 배의 효율성 개선을 입증합니다.

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

이 논문은 2D 중심 학습의 한계와 불필요한 3D 정보로 인한 추론 실패를 해결하기 위해, 전문가 모델의 3D 인식 결과를 기반으로 최소한의 필수 정보만 선별하여 추론 정확도를 극대화하는 'MSSR'이라는 이중 에이전트 프레임워크를 제안합니다.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

이 논문은 3D 장면 이해를 위한 인간과 유사한 단계별 추론을 가능하게 하는 새로운 프레임워크인 SceneCOT 과 대규모 Grounded CoT 데이터셋인 SCENECOT-185K 를 제안하여, 기존 3D LLM 의 Grounded 질문 응답 성능을 획기적으로 향상시켰습니다.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

이 논문은 전역적 맥락과 객체 간 상호작용을 고려하여 정밀한 영역 이해와 복합적 추론을 가능하게 하는 'Grasp Any Region(GAR)' 모델과 이를 평가하는 벤치마크를 제안하며, 기존 모델들을 능가하는 성능을 입증합니다.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

이 논문은 장기간 비디오 이해를 위한 대규모 멀티모달 모델의 확장성 문제를 해결하기 위해, 훈련 없이 모델과 쿼리에 구애받지 않고 시설 위치 함수와 지연 탐욕 알고리즘을 활용하여 효율적으로 시각 토큰을 압축하는 새로운 프레임워크인 FLoC 를 제안합니다.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream 는 텍스트와 모션 제어를 기반으로 단일 GPU 에서 초당 29 프레임의 실시간 스트리밍 비디오 생성을 가능하게 하며, 고정된 컨텍스트 윈도우를 통해 무한히 긴 비디오를 고품질로 생성하는 새로운 접근법을 제시합니다.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

이 논문은 sEMG 기반 제스처 인식의 과적합 및 일반화 문제를 해결하기 위해, 의미적 표현을 활용한 생성 조건과 희소성 인식 샘플링 전략을 결합하여 충실하고 다양한 증강 데이터를 생성하는 'SASG-DA'라는 새로운 확산 기반 데이터 증강 방법을 제안하고 그 유효성을 입증합니다.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

이 논문은 DeiT 아키텍처와 점진적 증강 전략을 결합한 'DeiTFake' 모델을 제안하여 OpenForensics 데이터셋에서 99.22% 의 정확도와 0.9997 의 AUROC 를 달성함으로써 최신 딥페이크 탐지 기법들을 능가하는 성능을 입증했습니다.

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

이 논문은 인간 개입 없이 초음파 모니터 사진에서 자동으로 라벨링된 데이터를 생성하고 화면을 보정하는 파이프라인을 제안하여 DICOM 의존성을 해소하고 새로운 알고리즘의 신속한 프로토타이핑을 가능하게 합니다.

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

이 논문은 BEV 시맨틱과 자차 궤적을 동시에 예측하는 이산 토큰 자기회귀 방식과 강화학습 기반 미세 조정을 통해, 160M 파라미터의 경량 모델로도 자율주행 계획 분야에서 최첨단 성능을 달성한 DAP 를 제안합니다.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

이 논문은 실제 임상 환경에서 흔히 발생하는 MRI 모달리티 결손 문제를 해결하기 위해, 계층적 자기 증류와 점진적 모달리티 조합 증류 전략을 도입한 교차 모달 구성 자기 증류 (CCSD) 프레임워크를 제안하여 뇌종양 분할의 성능과 일반화 능력을 크게 향상시켰음을 보여줍니다.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

이 논문은 멀티모달 KV 캐시의 주파수 영역 에너지 분포와 이상치 (Outlier) KV 를 분석하여, 기존 방법의 한계를 극복하고 FlashAttention 과 호환되면서도 메모리 사용량을 80% 줄이고 디코딩 속도를 1.69 배 향상시키는 'FlashCache'라는 새로운 압축 프레임워크를 제안합니다.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

← 이전 다음 →