cs.CV 편의 논문 | Gist.Science

TP-Spikformer: Token Pruned Spiking Transformer

이 논문은 정보 보존을 위한 휴리스틱 시공간 기준과 블록 단위 조기 종료 전략을 도입하여, 학습 없이도 다양한 스파이킹 트랜스포머 아키텍처의 계산 및 저장 오버헤드를 줄이면서 경쟁력 있는 성능을 유지하는 'TP-Spikformer'를 제안합니다.

Wenjie Wei, Xiaolong Zhou, Malu Zhang + 8 more2026-03-03💻 cs

CaptionFool: Universal Image Captioning Model Attacks

이 논문은 이미지 캡션 생성 모델의 약점을 악용하여 적은 양의 패치 수정만으로도 임의의 캡션 (심지어 모욕적이거나 콘텐츠 필터를 우회하는 은어 포함) 을 생성할 수 있는 범용 적대적 공격 'CaptionFool'을 제안하고, 이를 통해 배포된 비전 - 언어 모델의 심각한 취약점을 경고합니다.

Swapnil Parekh2026-03-03🤖 cs.AI

RAFM: Retrieval-Augmented Flow Matching for Unpaired CBCT-to-CT Translation

이 논문은 소규모 의료 데이터셋에서 비쌍합 CBCT-to-CT 변환의 불안정성을 해결하기 위해 DINOv3 인코더와 글로벌 CT 메모리 뱅크를 활용한 검색 기반 가짜 쌍 (retrieval-guided pseudo pairs) 구성 전략을 도입한 '검색 증강 흐름 매칭 (RAFM)'을 제안하고, SynthRAD2023 벤치마크에서 기존 방법들을 능가하는 성능을 입증했습니다.

Xianhao Zhou, Jianghao Wu, Lanfeng Zhong + 4 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

이 논문은 3D 비전 트랜스포머를 활용하여 연속적인 MRI 슬라이스, 다중 관심 영역, 그리고 인구통계학적 및 인지 평가 데이터를 통합하는 'MIMD-3DVT'라는 새로운 방법을 제안함으로써 알츠하이머병 진단 정확도를 97.14%까지 향상시켰음을 보여줍니다.

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

이 논문은 MLLM 기반 평가 모델의 신뢰성을 진단하기 위한 10 차원 능력 중심 벤치마크인 M-JudgeBench 와 이를 개선하기 위한 MCTS 기반 데이터 생성 프레임워크 Judge-MCTS 를 제안하여, 더 강력한 평가 모델 M-Judger 를 개발하고 그 우수성을 입증했습니다.

Zeyu Chen, Huanjin Yao, Ziwang Zhao + 1 more2026-03-03🤖 cs.AI

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

이 논문은 약한 감독 비디오 이상 탐지 (WS-VAD) 의 한계를 극복하기 위해 이상 연결 성분 메커니즘과 의도 인식 전략을 결합하고 이상 속성 정보를 활용하여 프레임별 의미 정보를 효과적으로 학습하는 새로운 프레임워크 'LAS-VAD'를 제안하고, XD-Violence 와 UCF-Crime 데이터셋에서 기존 최첨단 방법들을 능가하는 성능을 입증합니다.

Yu Wang, Shengjie Zhao2026-03-03💻 cs

Geometry OR Tracker: Universal Geometric Operating Room Tracking

이 논문은 수술실 환경에서 카메라 보정 및 RGB-D 등록의 불확실성으로 인한 3D 추적 오류를 해결하기 위해, 다중 뷰 메트릭 기하 보정 모듈을 통해 스케일 일관성을 확보한 후 가림에 강인한 3D 포인트 추적을 수행하는 'Geometry OR Tracker'를 제안합니다.

Yihua Shao, Kang Chen, Feng Xue + 6 more2026-03-03🤖 cs.AI

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

이 논문은 단일 이미지의 제약을 넘어 여러 이미지에 해로운 의미를 분산 배치하고 시각적 단서를 활용한 추론을 통해 MLLM 의 안전 장치를 우회하는 새로운 자일브레이크 프레임워크 'MIDAS'를 제안하며, 실험을 통해 폐쇄형 상용 모델에서 평균 81.46% 의 높은 공격 성공률을 입증했습니다.

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

이 논문은 편향된 모달리티의 가소성과 편향되지 않은 모달리티의 안정성을 분리하여 적응하는 비대칭 아키텍처인 DASP 를 제안함으로써, 멀티모달 테스트 시간 적응에서의 부정적 전이와 catastrophic forgetting 문제를 해결하고 성능을 크게 향상시킵니다.

Yongbo He, Zirun Guo, Tao Jin2026-03-03🤖 cs.AI

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

이 논문은 미시적 현상 시뮬레이션을 위한 벤치마크 'MicroWorldBench'와 고품질 데이터셋 'MicroSim-10K'를 구축하고, 이를 기반으로 생물학적 메커니즘을 정확하게 재현하는 비디오 생성 모델 'MicroVerse'를 제안하여 미시 세계 시뮬레이션의 가능성을 입증했습니다.

Rongsheng Wang, Minghao Wu, Hongru Zhou + 4 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

이 논문은 기존 비전 - 언어 - 행동 (VLA) 모델이 언어 지시를 제대로 이해하지 못한다는 점을 'LangGap' 벤치마크를 통해 규명하고, 데이터 증강으로 부분적인 개선은 가능하지만 언어 다양성이 증가할수록 모델의 학습 한계가 드러난다는 근본적인 문제를 제시합니다.

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL

UNICBench: UNIfied Counting Benchmark for MLLM

이 논문은 이미지, 텍스트, 오디오를 아우르는 5,300 개 이상의 멀티모달 데이터로 구성된 UNICBench 를 제안하여 MLLM 의 계수 능력을 엄격하게 평가하고, 현재 모델들이 기본 과제는 잘 수행하지만 추론 및 난이도 높은 작업에서는 큰 격차가 있음을 밝혔습니다.

Chenggang Rong, Tao Han, Zhiyuan Zhao + 5 more2026-03-03💻 cs

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

이 논문은 원격 탐사 이미지 분할에서 레이블 노이즈를 식별하고 정량화하며 순위 매기기 위한 새로운 데이터 중심 벤치마크, 공개 데이터셋, 그리고 모델 불확실성과 예측 일관성 등을 활용한 두 가지 기법을 제안하여 기존 베이스라인을 능가하는 성능을 입증합니다.

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

이 논문은 유동 매칭 확산 모델을 기반으로 한 가림막 없는 점진적 2 단계 프레임워크인 IdGlow 를 제안하여, 다중 주제 생성 시 발생하는 안정성 - 가소성 딜레마를 해결하고 얼굴 충실도와 미적 품질을 동시에 극대화하는 방법을 제시합니다.

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Linking Modality Isolation in Heterogeneous Collaborative Perception

이 논문은 이질적인 협업 지각에서 모달리티 격리를 해결하기 위해 공간적 중첩 없이도 다양한 모달리티 간의 특징을 정렬하는 새로운 프레임워크인 CodeAlign 을 제안하며, OPV2V 와 DAIR-V2X 데이터셋에서 기존 방법보다 훨씬 적은 파라미터와 통신 부하로 최첨단 성능을 달성함을 보여줍니다.

Changxing Liu, Zichen Chao, Siheng Chen2026-03-03💻 cs

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

이 논문은 동적 초분광 영상 재구성을 위해 최초의 고화질 동적 데이터셋 (DynaSpec) 과 시공간 특징 전파를 활용한 효율적인 트랜스포머 모델 (PG-SVRT) 을 제안하고, 이를 통해 기존 이미지 기반 방법의 한계를 극복하여 재구성 품질과 시간적 일관성을 동시에 향상시켰음을 보여줍니다.

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

← 이전 다음 →

cs.CV