cs.CV 편의 논문 | Gist.Science

Geometry OR Tracker: Universal Geometric Operating Room Tracking

이 논문은 수술실 환경에서 카메라 보정 및 RGB-D 등록의 불확실성으로 인한 3D 추적 오류를 해결하기 위해, 다중 뷰 메트릭 기하 보정 모듈을 통해 스케일 일관성을 확보한 후 가림에 강인한 3D 포인트 추적을 수행하는 'Geometry OR Tracker'를 제안합니다.

Yihua Shao, Kang Chen, Feng Xue + 6 more2026-03-03🤖 cs.AI

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

이 논문은 단일 이미지의 제약을 넘어 여러 이미지에 해로운 의미를 분산 배치하고 시각적 단서를 활용한 추론을 통해 MLLM 의 안전 장치를 우회하는 새로운 자일브레이크 프레임워크 'MIDAS'를 제안하며, 실험을 통해 폐쇄형 상용 모델에서 평균 81.46% 의 높은 공격 성공률을 입증했습니다.

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

이 논문은 편향된 모달리티의 가소성과 편향되지 않은 모달리티의 안정성을 분리하여 적응하는 비대칭 아키텍처인 DASP 를 제안함으로써, 멀티모달 테스트 시간 적응에서의 부정적 전이와 catastrophic forgetting 문제를 해결하고 성능을 크게 향상시킵니다.

Yongbo He, Zirun Guo, Tao Jin2026-03-03🤖 cs.AI

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

이 논문은 미시적 현상 시뮬레이션을 위한 벤치마크 'MicroWorldBench'와 고품질 데이터셋 'MicroSim-10K'를 구축하고, 이를 기반으로 생물학적 메커니즘을 정확하게 재현하는 비디오 생성 모델 'MicroVerse'를 제안하여 미시 세계 시뮬레이션의 가능성을 입증했습니다.

Rongsheng Wang, Minghao Wu, Hongru Zhou + 4 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

이 논문은 기존 비전 - 언어 - 행동 (VLA) 모델이 언어 지시를 제대로 이해하지 못한다는 점을 'LangGap' 벤치마크를 통해 규명하고, 데이터 증강으로 부분적인 개선은 가능하지만 언어 다양성이 증가할수록 모델의 학습 한계가 드러난다는 근본적인 문제를 제시합니다.

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL

UNICBench: UNIfied Counting Benchmark for MLLM

이 논문은 이미지, 텍스트, 오디오를 아우르는 5,300 개 이상의 멀티모달 데이터로 구성된 UNICBench 를 제안하여 MLLM 의 계수 능력을 엄격하게 평가하고, 현재 모델들이 기본 과제는 잘 수행하지만 추론 및 난이도 높은 작업에서는 큰 격차가 있음을 밝혔습니다.

Chenggang Rong, Tao Han, Zhiyuan Zhao + 5 more2026-03-03💻 cs

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

이 논문은 원격 탐사 이미지 분할에서 레이블 노이즈를 식별하고 정량화하며 순위 매기기 위한 새로운 데이터 중심 벤치마크, 공개 데이터셋, 그리고 모델 불확실성과 예측 일관성 등을 활용한 두 가지 기법을 제안하여 기존 베이스라인을 능가하는 성능을 입증합니다.

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

이 논문은 유동 매칭 확산 모델을 기반으로 한 가림막 없는 점진적 2 단계 프레임워크인 IdGlow 를 제안하여, 다중 주제 생성 시 발생하는 안정성 - 가소성 딜레마를 해결하고 얼굴 충실도와 미적 품질을 동시에 극대화하는 방법을 제시합니다.

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Linking Modality Isolation in Heterogeneous Collaborative Perception

이 논문은 이질적인 협업 지각에서 모달리티 격리를 해결하기 위해 공간적 중첩 없이도 다양한 모달리티 간의 특징을 정렬하는 새로운 프레임워크인 CodeAlign 을 제안하며, OPV2V 와 DAIR-V2X 데이터셋에서 기존 방법보다 훨씬 적은 파라미터와 통신 부하로 최첨단 성능을 달성함을 보여줍니다.

Changxing Liu, Zichen Chao, Siheng Chen2026-03-03💻 cs

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

이 논문은 동적 초분광 영상 재구성을 위해 최초의 고화질 동적 데이터셋 (DynaSpec) 과 시공간 특징 전파를 활용한 효율적인 트랜스포머 모델 (PG-SVRT) 을 제안하고, 이를 통해 기존 이미지 기반 방법의 한계를 극복하여 재구성 품질과 시간적 일관성을 동시에 향상시켰음을 보여줍니다.

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

Exploring 3D Dataset Pruning

본 논문은 3D 데이터의 긴 꼬리 분포로 인해 발생하는 최적화 난제를 해결하기 위해, 대표성 있는 부분집합 선택과 교정된 소프트 레이블을 활용한 교사 지도 방식을 제안하여 전체 정확도와 평균 정확도 간의 균형을 이루면서 3D 데이터셋 가지치기 성능을 향상시키는 방법을 제시합니다.

Xiaohan Zhao, Xinyi Shang, Jiacheng Liu + 1 more2026-03-03🤖 cs.LG

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

이 논문은 4D 레이더와 카메라의 협업 지각을 위해 레이더 기반의 기하학적 합의를 정립하여 정합 오류를 해결하고 통신 오버헤드를 줄인 최초의 프레임워크인 RC-GeoCP 를 제안하며, 새로운 벤치마크에서 최첨단 성능을 입증합니다.

Xiaokai Bai, Lianqing Zheng, Runwei Guan + 2 more2026-03-03💻 cs

Stateful Cross-layer Vision Modulation

이 논문은 기존 멀티모달 모델의 시각적 특징 융합 한계를 극복하기 위해, 재귀적 메모리 상태와 피드백 조절 메커니즘을 통해 시각 표현의 진화 경로를 구조적으로 제어하는 'SCVM' 프레임워크를 제안하며, 언어 모델을 수정하거나 추가 학습 없이도 다양한 벤치마크에서 일관된 성능 향상을 달성함을 보여줍니다.

Ying Liu, Yudong Han, Kean Shi + 1 more2026-03-03💻 cs

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

이 논문은 병리학자가 슬라이드를 분석할 때 보이는 조직을 먼저 파악한 후 세부 영역을 선택적으로 확대하는 인간의 방식을 모방하여, 질문 기반의 조직 인식 및 coarse-to-fine 검색 프레임워크인 HistoSelect 를 제안함으로써 전체 슬라이드 이미지 기반의 병리학 질문 응답 정확도를 높이고 시각 토큰 사용량을 대폭 줄인다고 요약할 수 있습니다.

Wentao Huang, Weimin Lyu, Peiliang Lou + 8 more2026-03-03💻 cs

Direct low-field MRI super-resolution using undersampled k-space

이 논문은 저해상도 k-공간 데이터를 직접 처리하여 고해상도 MRI 화질을 복원하는 새로운 k-공간 듀얼 채널 U-Net 프레임워크를 제안하고, 기존 공간 영역 기반 방법보다 우수한 성능을 입증했습니다.

Daniel Tweneboah Anyimadu, Mohammed M. Abdelsamea, Ahmed Karam Eldaly2026-03-03💻 cs

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

이 논문은 다양한 의료 영상 기반 모델에서 종합적인 두부 CT 진단 성능을 향상시키기 위해 단일 LoRA 적응을 넘어 여러 전문화된 저랭크 어댑터와 비지도 소프트 라우팅을 결합한 '혼합 저랭크 전문가 (MoLRE)' 프레임워크를 제안하고, 7 만 건 이상의 두부 CT 데이터를 활용한 광범위한 벤치마킹을 통해 그 유효성을 입증합니다.

Youngjin Yoo, Han Liu, Bogdan Georgescu + 14 more2026-03-03💻 cs

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

CoLC 는 대역폭 제약 하에서 중요한 포인트만 선택적으로 전송하고 수신된 희소 데이터를 LiDAR 완성 기술로 밀집화하여 조기에 융합하는 새로운 협업 지각 프레임워크를 제안함으로써, 통신 효율성과 지각 성능 간의 최적 균형을 달성합니다.

Yushan Han, Hui Zhang, Qiming Xia + 2 more2026-03-03💻 cs

SCOUT: Fast Spectral CT Imaging in Ultra LOw-data Regimes via PseUdo-label GeneraTion

이 논문은 외부 데이터나 긴 사전 학습 없이 공간 비국소 유사성과 투영 도메인의 켤레 성질을 활용하여 가짜 3D 데이터를 생성하는 자기지도 학습 방식으로, 초저데이터 환경에서도 고화질의 CT 영상을 빠르게 재구성하고 아티팩트를 제거하는 'SCOUT' 방법을 제안합니다.

Guoquan Wei, Liu Shi, Shaoyu Wang + 3 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

이 논문은 기존 방법의 한계를 극복하기 위해 SAM 기반의 분할 유도 특징 변조, 적응적 토큰 재배치, 그리고 교차 모달 초그래프 상호작용을 통해 다중 모달 객체 재식별 성능을 향상시킨 STMI 프레임워크를 제안합니다.

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

이 논문은 정렬된 토큰 기반의 가우스 예측 모듈과 비대칭 듀얼 플로우 디코더를 통해 포즈 정보 없이도 다중 뷰 이미지로부터 정밀한 3D 가우스 재구성과 카메라 포즈 추정을 동시에 수행하는 'TokenSplat' 프레임워크를 제안합니다.

Yihui Li, Chengxin Lv, Zichen Tang + 2 more2026-03-03💻 cs

← 이전 다음 →