cs.CV 편의 논문 | Gist.Science

No Calibration, No Depth, No Problem: Cross-Sensor View Synthesis with 3D Consistency

이 논문은 복잡한 보정 없이 RGB 와 다른 센서 데이터 간의 정렬을 가능하게 하여 대규모 RGB-X 데이터 수집의 병목 현상을 해결하는 새로운 3D 일관성 기반 뷰 합성 방법을 제시합니다.

Cho-Ying Wu, Zixun Huang, Xinyu Huang + 1 more2026-03-02💻 cs

Evidential Neural Radiance Fields

이 논문은 안전이 중요한 3D 장면 모델링을 위해 렌더링 품질과 계산 효율성을 해치지 않으면서 단일 순전달로 우연적 및 인식적 불확실성을 모두 정량화할 수 있는 '증거 기반 신경 방사선장 (Evidential NeRF)'을 제안하고, 이를 통해 기존 방법들보다 뛰어난 장면 재구성 정확도와 불확실성 추정 능력을 입증합니다.

Ruxiao Duan, Alex Wong2026-03-02🤖 cs.AI

CycleBEV: Regularizing View Transformation Networks via View Cycle Consistency for Bird's-Eye-View Semantic Segmentation

이 논문은 자율주행의 비전 기반 BEV 세그멘테이션 성능을 향상시키기 위해, 학습 단계에서만 활용되는 역뷰 변환 네트워크를 통해 뷰 사이클 일관성 정규화 프레임워크인 CycleBEV 를 제안하고 다양한 변환 모델에서 일관된 성능 개선을 입증합니다.

Jeongbin Hong, Dooseop Choi, Taeg-Hyun An + 2 more2026-03-02🤖 cs.AI

Hyperdimensional Cross-Modal Alignment of Frozen Language and Image Models for Efficient Image Captioning

이 논문은 사전 훈련된 비모달 모델의 파라미터를 수정하지 않고 초고차원 컴퓨팅을 활용한 상징적 연산만으로 시각 및 언어 모델 간의 정렬을 수행하여 효율적인 이미지 캡셔닝을 가능하게 하는 HDFLIM 프레임워크를 제안합니다.

Abhishek Dalvi, Vasant Honavar2026-03-02🤖 cs.AI

Incremental dimension reduction for efficient and accurate visual anomaly detection

이 논문은 대용량 이미지 데이터의 고차원 특징을 메모리 오버헤드 없이 효율적으로 처리하기 위해 배치 단위로 증분적으로 차원을 축소하는 알고리즘을 제안하여, 기존 최첨단 이상 탐지 모델의 학습 속도를 가속화하면서도 높은 정확도를 유지함을 보여줍니다.

Teng-Yok Lee2026-03-02💻 cs

Extended Reality (XR): The Next Frontier in Education

이 논문은 XR(가상·증강·혼합 현실) 이 교육에 혁신을 가져오지만, 높은 비용과 기술적 난제, 개인정보 보호 및 윤리적 문제 등 광범위한 도입을 가로막는 장벽을 극복하고 규제 준수와 사이버 보안을 통해 혁신과 접근성, 윤리 사이의 균형을 찾는 것이 중요함을 논의합니다.

Shadeeb Hossain2026-03-02💻 cs

Egocentric Visibility-Aware Human Pose Estimation

이 논문은 가시성 주석이 포함된 대규모 이기센트릭 HPE 데이터셋 'Eva-3M'을 구축하고, 가시성 정보를 명시적으로 활용하여 추정 정확도를 높인 새로운 방법론 'EvaPose'를 제안함으로써 기존 연구의 한계를 극복하고 최첨단 성능을 달성했습니다.

Peng Dai, Yu Zhang, Yiqiang Feng + 2 more2026-03-02💻 cs

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

이 논문은 명령어 기반 이미지 편집 모델의 소규모 객체 편집 능력을 평가하기 위해 1,889 개의 샘플과 정교한 평가 프로토콜을 포함한 새로운 벤치마크 'DeepLookEditBench(DLEBench)'를 제안하고, 이를 통해 기존 모델들의 성능 격차를 실증적으로 분석합니다.

Shibo Hong, Boxian Ai, Jun Kuang + 5 more2026-03-02🤖 cs.AI

BuildAnyPoint: 3D Building Structured Abstraction from Diverse Point Clouds

이 논문은 다양한 분포의 포인트 클라우드로부터 구조화된 3D 건물 추상화를 위해, 노이즈가 있거나 희소한 점으로부터 분포를 복원하는 조건부 잠재 확산 모델과 이를 기반으로 컴팩트한 메쉬를 생성하는 오토레귀시브 트랜스포머를 결합한 새로운 생성 프레임워크인 BuildAnyPoint 를 제안합니다.

Tongyan Hua, Haoran Gong, Yuan Liu + 3 more2026-03-02💻 cs

Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering

이 논문은 LLM 기반 의미 분해와 QR 직교화를 통해 '과거 비교' 축만을 표적으로 하는 훈련 불필요 추론 제어 프레임워크인 SDLS 를 제안하여, 방사선 보고서 생성 시 과거 소견에 기반한 환각을 억제하면서도 임상적 정확도를 향상시키는 방법을 제시합니다.

Ao Li, Rui Liu, Mingjie Li + 6 more2026-03-02💻 cs

Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation

이 논문은 CLIP 임베딩과 자연어 캡션을 활용한 비전 - 언어 정렬 기반 VL-WS 프레임워크를 제안하여, 다양한 농업 환경과 데이터 소스에 걸쳐 잡초 분할의 일반화 성능과 데이터 효율성을 크게 향상시켰음을 보여줍니다.

Nazia Hossain, Xintong Jiang, Yu Tian + 3 more2026-03-02💻 cs

Any Model, Any Place, Any Time: Get Remote Sensing Foundation Model Embeddings On Demand

이 논문은 다양한 원격 탐사 기초 모델의 이질적인 인터페이스와 데이터 사양 문제를 해결하기 위해, 단일 코드 행으로 임의의 모델, 위치, 시기에 대한 임베딩을 효율적으로 추출할 수 있는 통합 파이썬 라이브러리 'rs-embed'를 제안합니다.

Dingqi Ye, Daniel Kiv, Wei Hu + 2 more2026-03-02🤖 cs.LG

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

이 논문은 MLLM 의 계층적 특성을 반영하여 시각 토큰을 90% 까지 압축하면서도 성능을 유지하고 학습 속도를 1.72 배 가속화하는 새로운 효율성 프레임워크 'HiDrop'을 제안합니다.

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

A Reliable Indoor Navigation System for Humans Using AR-based Technique

이 논문은 Vuforia Area Target, NavMesh 및 A* 알고리즘을 결합한 증강현실 (AR) 기반 기술을 통해 기존 실내 내비게이션의 한계를 극복하고 정확성과 사용자 경험을 향상시킨 시스템을 제안합니다.

Vijay U. Rathod, Manav S. Sharma, Shambhavi Verma + 3 more2026-03-02💻 cs

EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

EgoGraph 는 여러 날에 걸친 초장기 일인칭 비디오의 이해를 위해 훈련이 불필요한 동적 지식 그래프 프레임워크를 제안하여, 개체 간의 장기적 의존성을 명시적으로 인코딩하고 복잡한 시간적 추론을 가능하게 함으로써 기존 방법의 한계를 극복하고 새로운 패러다임을 제시합니다.

Shitong Sun, Ke Han, Yukai Huang + 2 more2026-03-02💻 cs

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?

이 논문은 통합 멀티모달 대규모 언어 모델이 텍스트 기반 추론에서는 탁월한 성능을 보이지만, 동일한 추론 결과를 이미지 생성으로 표현할 때 의미적 일관성이 무너지는 '시각적 생성 이해'의 한계를 VGUBench 를 통해 규명하고, 이 문제가 생성 품질 부족이 아닌 교차 모달 의미 정렬의 실패에서 기인함을 시사합니다.

Hongbo Jiang, Jie Li, Yunhang Shen + 4 more2026-03-02💻 cs

StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

이 논문은 2D 시각 입력뿐만 아니라 미래 3D 공간 기하학적 지식과 4D 역사적 시공간 표현을 명시적으로 통합하여 로봇 조작의 공간 추론 및 장기 계획 능력을 획기적으로 향상시킨 오픈소스 비전 - 언어 - 행동 모델인 StemVLA 를 제안합니다.

Jiasong Xiao, Yutao She, Kai Li + 3 more2026-03-02💻 cs

← 이전 다음 →

cs.CV