cs.CV 편의 논문 | Gist.Science

Dark3R: Learning Structure from Motion in the Dark

이 논문은 -4dB 이하의 극저조도 환경에서도 기존 방법이 실패하는 문제를 해결하기 위해, 3D 기반 모델의 지식 증류와 노이즈가 포함된 원본 이미지 쌍만을 활용한 학습을 통해 구조 추정 및 새로운 뷰 합성을 가능하게 하는 'Dark3R' 프레임워크를 제안합니다.

Andrew Y Guo, Anagh Malik, SaiKiran Tedla + 7 more2026-03-06💻 cs

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

이 논문은 밀집 3D 매핑이나 정책 학습 없이도 시각 - 언어 사전 모델을 통합하여 개방형 환경에서 제로샷으로 효율적으로 항해할 수 있는 새로운 프레임워크인 OpenFrontier 를 제안합니다.

Esteban Padilla, Boyang Sun, Marc Pollefeys + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

이 논문은 기존 MOT 의 시야각 제한을 극복하고 장기 언어 설명 이해 능력을 향상시키기 위해 전방향 영상을 기반으로 한 새로운 작업인 '전방향 참조 다중 객체 추적 (ORMOT)'을 제안하고, 이를 위한 ORSet 데이터셋과 대규모 시계 언어 모델 (LVLM) 기반의 ORTrack 프레임워크를 소개합니다.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations

이 논문은 그라디언트 기반과 영역 기반 클래스 활성화 맵의 장점을 결합하여 노이즈를 제거하고 적응적 융합 메커니즘을 통해 더 강건하고 세분화된 시각적 설명을 생성하는 새로운 프레임워크인 Fusion-CAM 을 제안합니다.

Hajar Dekdegue, Moncef Garouani, Josiane Mothe + 1 more2026-03-06💻 cs

Loop Closure via Maximal Cliques in 3D LiDAR-Based SLAM

이 논문은 3D LiDAR 기반 SLAM 에서 RANSAC 의 한계를 극복하고 노이즈 및 이상치에 강인한 최대 클릭 (maximal clique) 탐색을 기반으로 한 새로운 결정론적 루프 클로저 검증 알고리즘인 CliReg 를 제안하여, 다양한 환경에서 더 낮은 포즈 오차와 향상된 신뢰성을 달성함을 보여줍니다.

Javier Laserna, Saurabh Gupta, Oscar Martinez Mozos + 2 more2026-03-06💻 cs

Video-based Locomotion Analysis for Fish Health Monitoring

이 논문은 YOLOv11 기반의 객체 추적 기술을 활용하여 수조 환경에서 Sulawesi ricefish 의 이동 활동을 분석함으로써 조기 질병 감지 및 수산 동물 복지 향상을 위한 정밀한 건강 모니터링 시스템을 제안합니다.

Timon Palm, Clemens Seibold, Anna Hilsmann + 1 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

이 논문은 저자원 환경의 모바일 기기에서 실시간 태아 초음파 분석을 가능하게 하기 위해, 거대한 교사 모델의 구조적 아티팩트를 배제하고 학생 모델이 고유한 특징을 학습하도록 유도하는 '선택적 반발 지식 증류' 기법을 제안하여 1140 만 파라미터의 경량 모델이 3 억 400 만 파라미터의 기존 모델보다 더 높은 성능을 달성하도록 했습니다.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

RelaxFlow: Text-Driven Amodal 3D Generation

이 논문은 가려진 영역의 텍스트 기반 3D 생성 시 관측 데이터의 엄격한 보존과 텍스트 프롬프트에 따른 구조적 완성을 동시에 달성하기 위해, 훈련 없이 작동하는 RelaxFlow 프레임워크를 제안하고 이론적 증명과 새로운 벤치마크를 통해 그 유효성을 입증합니다.

Jiayin Zhu, Guoji Fu, Xiaolu Liu + 3 more2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

이 논문은 약한 지도 학습 밀도 비디오 캡셔닝의 성능을 향상시키기 위해 교차 모달 정렬을 기반으로 의미론적 마스크를 생성하고, LLM 기반의 증강 전략을 통해 합성 캡션을 추가하여 정밀한 시간적 국소화를 달성하는 SAIL 모델을 제안합니다.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

이 논문은 관측 데이터를 8 개의 토큰으로 압축하는 이산 토크나이저 'CompACT'를 제안하여, 기존 세계 모델의 계산 병목 현상을 해결하고 실시간 제어에 실용적인 초고속 계획 능력을 가능하게 합니다.

Dongwon Kim, Gawon Seo, Jinsung Lee + 2 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

이 논문은 밀집된 의도 설명과 팔레트 쿼리를 통합하여 네일 디자인 이미지를 검색하는 멀티모달 방법인 'NaiLIA'를 제안하고, 이를 검증하기 위해 다양한 문화적 배경을 가진 10,625 개의 이미지와 200 명 이상의 어노테이터가 작성한 상세한 설명으로 구성된 벤치마크를 구축하여 기존 방법보다 우수한 성능을 입증했습니다.

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs

RealWonder: Real-Time Physical Action-Conditioned Video Generation

RealWonder 은 단일 이미지에서 물리 시뮬레이션을 중간 매개체로 활용하여 힘, 로봇 조작, 카메라 제어 등 3D 행동에 따른 물리적 결과를 실시간으로 생성하는 최초의 행동 조건부 비디오 생성 시스템입니다.

Wei Liu, Ziyu Chen, Zizhang Li + 3 more2026-03-06🤖 cs.AI

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

이 논문은 분산된 토큰 수용 방식의 비효율성을 해결하기 위해 훈련 없이 적용 가능한 '최장 안정 접두사 (LSP)' 스케줄러를 제안하여, KV 캐시 국소성을 개선하고 토큰 반전률을 낮춤으로써 확산 언어 모델의 추론 속도를 최대 3.4 배까지 가속화하면서도 출력 품질을 유지하거나 향상시킨다고 설명합니다.

Pengxiang Li, Joey Tsai, Hongwei Xue + 2 more2026-03-06💻 cs

EdgeDAM: Real-time Object Tracking for Mobile Devices

EdgeDAM 은 모바일 기기의 제한된 자원 내에서 실시간으로 작동하면서도 가림과 방해물 간섭에 강인한 단일 객체 추적을 가능하게 하기 위해, 이중 버퍼 방해물 인식 메모리와 신뢰도 기반 스위칭 전략을 도입한 경량 감지 기반 추적 프레임워크를 제안합니다.

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam + 2 more2026-03-06💻 cs

HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

이 논문은 텍스트 생성 전에 VLM 의 내부 표현을 단일 순전파로 분석하여 토큰 생성 없이도 환각을 탐지할 수 있음을 입증하고, 이를 통해 안전성과 효율성을 동시에 개선할 수 있는 경량 프로브의 가능성을 제시합니다.

Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun + 1 more2026-03-06💻 cs

Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields

이 논문은 DIRSIG 시뮬레이션 데이터를 기반으로 Mip-NeRF 아키텍처와 적응형 가중 MSE 손실 함수를 결합하여 LWIR 초분광 이미지로부터 3D 장면을 재구성하고, 이를 통해 적은 수의 학습 이미지로도 가스 플룸 검출 성능을 입증한 연구입니다.

Scout Jarman, Zigfried Hampel-Arias, Adra Carr + 1 more2026-03-06💻 cs

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

이 논문은 자연스러운 일상 생활을 반영하는 대규모 멀티모달 lifelong 데이터셋 MM-Lifelong 과 이를 기반으로 작업 기억 병목 및 글로벌 로컬라이제이션 붕괴 문제를 해결하는 재귀적 멀티모달 에이전트 (ReMA) 를 제안합니다.

Guo Chen, Lidong Lu, Yicheng Liu + 17 more2026-03-06💻 cs

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

이 논문은 비디오 생성 모델의 느린 추론 속도를 해결하기 위해, 입력과 무관하게 일관되게 나타나는 희소성 패턴을 오프라인 보정을 통해 사전 식별하고 하드웨어 효율적으로 생략함으로써 학습 없이도 비디오 생성 품질을 유지하면서 최대 1.58 배의 속도 향상을 이루는 'CalibAtt' 방법을 제안합니다.

Shai Yehezkel, Shahar Yadin, Noam Elata + 2 more2026-03-06💻 cs

FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning

이 논문은 3D 사전 지식 없이도 단일 얼굴 영상에 대해 기하학적 왜곡 없이 일관된 카메라 제어를 가능하게 하는 'FaceCam' 시스템을 제안하며, 다양한 훈련 데이터와 전략을 통해 화질, 정체성, 모션 보존 측면에서 우수한 성능을 입증합니다.

Weijie Lyu, Ming-Hsuan Yang, Zhixin Shu2026-03-06💻 cs

Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

이 논문은 제한된 다중 카메라 환경에서 실시간 3D 스트리밍의 결손 영역을 해결하기 위해, 시공간 임베딩을 활용한 트랜스포머 기반의 새로운 인페인팅 기법을 제안하여 화질과 처리 속도의 최적 균형을 달성함을 보여줍니다.

Leif Van Holland, Domenic Zingsheim, Mana Takhsha + 4 more2026-03-06💻 cs

← 이전 다음 →