cs.CV 편의 논문 | Gist.Science

Hierarchical Classification for Improved Histopathology Image Analysis

본 논문은 병리학 전체 슬라이드 이미지 분석을 위해 다중 인스턴스 학습 기반의 계층적 특징 통합과 맞춤형 손실 함수를 도입하여 거시적 및 미시적 분류 성능을 모두 향상시킨 'HiClass' 프레임워크를 제안하고, 위생검 조직 데이터셋을 통해 그 유효성을 입증합니다.

Keunho Byeon, Jinsol Song, Seong Min Hong + 2 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

이 논문은 제안한 'EmbedLens' 분석 도구를 통해 멀티모달 대규모 언어 모델의 시각 토큰이 의미적 희소성을 가지며, 이미지 정보를 주로 담고 있는 '살아있는 토큰'만으로도 대부분의 작업이 가능하고 내부 계산이 불필요함을 규명하여 효율적인 모델 설계를 위한 토큰 가지치기 및 중간 계층 주입 전략을 제시합니다.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

이 논문은 시각적 질문 응답 시스템의 환각 현상을 해결하기 위해 모델의 내부 지식 신뢰도를 기반으로 외부 정보 활용을 동적으로 조절하는 '다중 모달 적응형 검색 증강 생성 (MMA-RAG)' 프레임워크를 제안하고, 이를 통해 다양한 다중 모달 시나리오에서 응답 정확도와 추론 견고성을 크게 향상시켰음을 보여줍니다.

Ruoshuang Du, Xin Sun, Qiang Liu + 4 more2026-03-03🤖 cs.LG

MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence

이 논문은 기존 스테레오 비디오 데이터를 활용한 비용 효율적인 데이터 구축 파이프라인과 아키텍처 변경 없이 GRPO 기반의 강화 학습을 통해 2D RGB 입력만으로 4D 시공간 이해 및 추론 능력을 획기적으로 향상시킨 MLLM-4D 프레임워크를 제안합니다.

Xingyilang Yin, Chengzhengxu Li, Jiahao Chang + 2 more2026-03-03💻 cs

Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

이 논문은 Vision Transformers 의 자기 주의 메커니즘이 가진 2 차 복잡성 문제를 해결하기 위해 테스트 시간 학습 (TTT) 을 비선형적 시각 표현 학습에 도입하여, 선형 시간 복잡도와 높은 효율성을 갖춘 새로운 비전 백본인 Vision-TTT 를 제안하고 ImageNet 분류 및 하류 작업에서 뛰어난 성능을 입증했습니다.

Quan Kong, Yanru Xiao, Yuhao Shen + 1 more2026-03-03💻 cs

Jano: Adaptive Diffusion Generation with Early-stage Convergence Awareness

이 논문은 생성 콘텐츠의 지역별 수렴 패턴을 분석하여 학습 없이 적응형 토큰 스케줄링을 수행함으로써 생성 품질을 유지하면서 확산 모델의 생성 속도를 평균 2 배까지 향상시키는 'Jano' 프레임워크를 제안합니다.

Yuyang Chen, Linqian Zeng, Yijin ZHou + 2 more2026-03-03💻 cs

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

이 논문은 비동기 온라인 강화학습 프레임워크와 우세성 기반 순위 선호도 최적화 (ARPO) 알고리즘을 도입하여 3D 메시 생성의 학습 효율성과 일반화 성능을 동시에 향상시킨 SOTA 모델 'Mesh-Pro'를 제안합니다.

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs

TP-Spikformer: Token Pruned Spiking Transformer

이 논문은 정보 보존을 위한 휴리스틱 시공간 기준과 블록 단위 조기 종료 전략을 도입하여, 학습 없이도 다양한 스파이킹 트랜스포머 아키텍처의 계산 및 저장 오버헤드를 줄이면서 경쟁력 있는 성능을 유지하는 'TP-Spikformer'를 제안합니다.

Wenjie Wei, Xiaolong Zhou, Malu Zhang + 8 more2026-03-03💻 cs

CaptionFool: Universal Image Captioning Model Attacks

이 논문은 이미지 캡션 생성 모델의 약점을 악용하여 적은 양의 패치 수정만으로도 임의의 캡션 (심지어 모욕적이거나 콘텐츠 필터를 우회하는 은어 포함) 을 생성할 수 있는 범용 적대적 공격 'CaptionFool'을 제안하고, 이를 통해 배포된 비전 - 언어 모델의 심각한 취약점을 경고합니다.

Swapnil Parekh2026-03-03🤖 cs.AI

RAFM: Retrieval-Augmented Flow Matching for Unpaired CBCT-to-CT Translation

이 논문은 소규모 의료 데이터셋에서 비쌍합 CBCT-to-CT 변환의 불안정성을 해결하기 위해 DINOv3 인코더와 글로벌 CT 메모리 뱅크를 활용한 검색 기반 가짜 쌍 (retrieval-guided pseudo pairs) 구성 전략을 도입한 '검색 증강 흐름 매칭 (RAFM)'을 제안하고, SynthRAD2023 벤치마크에서 기존 방법들을 능가하는 성능을 입증했습니다.

Xianhao Zhou, Jianghao Wu, Lanfeng Zhong + 4 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

이 논문은 3D 비전 트랜스포머를 활용하여 연속적인 MRI 슬라이스, 다중 관심 영역, 그리고 인구통계학적 및 인지 평가 데이터를 통합하는 'MIMD-3DVT'라는 새로운 방법을 제안함으로써 알츠하이머병 진단 정확도를 97.14%까지 향상시켰음을 보여줍니다.

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

이 논문은 MLLM 기반 평가 모델의 신뢰성을 진단하기 위한 10 차원 능력 중심 벤치마크인 M-JudgeBench 와 이를 개선하기 위한 MCTS 기반 데이터 생성 프레임워크 Judge-MCTS 를 제안하여, 더 강력한 평가 모델 M-Judger 를 개발하고 그 우수성을 입증했습니다.

Zeyu Chen, Huanjin Yao, Ziwang Zhao + 1 more2026-03-03🤖 cs.AI

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

이 논문은 약한 감독 비디오 이상 탐지 (WS-VAD) 의 한계를 극복하기 위해 이상 연결 성분 메커니즘과 의도 인식 전략을 결합하고 이상 속성 정보를 활용하여 프레임별 의미 정보를 효과적으로 학습하는 새로운 프레임워크 'LAS-VAD'를 제안하고, XD-Violence 와 UCF-Crime 데이터셋에서 기존 최첨단 방법들을 능가하는 성능을 입증합니다.

Yu Wang, Shengjie Zhao2026-03-03💻 cs

Geometry OR Tracker: Universal Geometric Operating Room Tracking

이 논문은 수술실 환경에서 카메라 보정 및 RGB-D 등록의 불확실성으로 인한 3D 추적 오류를 해결하기 위해, 다중 뷰 메트릭 기하 보정 모듈을 통해 스케일 일관성을 확보한 후 가림에 강인한 3D 포인트 추적을 수행하는 'Geometry OR Tracker'를 제안합니다.

Yihua Shao, Kang Chen, Feng Xue + 6 more2026-03-03🤖 cs.AI

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

이 논문은 단일 이미지의 제약을 넘어 여러 이미지에 해로운 의미를 분산 배치하고 시각적 단서를 활용한 추론을 통해 MLLM 의 안전 장치를 우회하는 새로운 자일브레이크 프레임워크 'MIDAS'를 제안하며, 실험을 통해 폐쇄형 상용 모델에서 평균 81.46% 의 높은 공격 성공률을 입증했습니다.

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

이 논문은 편향된 모달리티의 가소성과 편향되지 않은 모달리티의 안정성을 분리하여 적응하는 비대칭 아키텍처인 DASP 를 제안함으로써, 멀티모달 테스트 시간 적응에서의 부정적 전이와 catastrophic forgetting 문제를 해결하고 성능을 크게 향상시킵니다.

Yongbo He, Zirun Guo, Tao Jin2026-03-03🤖 cs.AI

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

이 논문은 미시적 현상 시뮬레이션을 위한 벤치마크 'MicroWorldBench'와 고품질 데이터셋 'MicroSim-10K'를 구축하고, 이를 기반으로 생물학적 메커니즘을 정확하게 재현하는 비디오 생성 모델 'MicroVerse'를 제안하여 미시 세계 시뮬레이션의 가능성을 입증했습니다.

Rongsheng Wang, Minghao Wu, Hongru Zhou + 4 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

이 논문은 기존 비전 - 언어 - 행동 (VLA) 모델이 언어 지시를 제대로 이해하지 못한다는 점을 'LangGap' 벤치마크를 통해 규명하고, 데이터 증강으로 부분적인 개선은 가능하지만 언어 다양성이 증가할수록 모델의 학습 한계가 드러난다는 근본적인 문제를 제시합니다.

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL

UNICBench: UNIfied Counting Benchmark for MLLM

이 논문은 이미지, 텍스트, 오디오를 아우르는 5,300 개 이상의 멀티모달 데이터로 구성된 UNICBench 를 제안하여 MLLM 의 계수 능력을 엄격하게 평가하고, 현재 모델들이 기본 과제는 잘 수행하지만 추론 및 난이도 높은 작업에서는 큰 격차가 있음을 밝혔습니다.

Chenggang Rong, Tao Han, Zhiyuan Zhao + 5 more2026-03-03💻 cs

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

이 논문은 원격 탐사 이미지 분할에서 레이블 노이즈를 식별하고 정량화하며 순위 매기기 위한 새로운 데이터 중심 벤치마크, 공개 데이터셋, 그리고 모델 불확실성과 예측 일관성 등을 활용한 두 가지 기법을 제안하여 기존 베이스라인을 능가하는 성능을 입증합니다.

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

← 이전 다음 →