RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

RAISE 는 복잡한 텍스트-이미지 생성 작업에서 고정된 반복 횟수나 추가 학습 없이, 요구사항 기반의 적응적 진화 프레임워크를 통해 생성 후보를 정제하고 불만족 요소를 동적으로 식별하여 계산 효율성과 정렬 정확도를 동시에 극대화하는 새로운 방법론을 제안합니다.

Liyao Jiang, Ruichen Chen, Chao Gao + 1 more2026-03-03🤖 cs.AI

Random Wins All: Rethinking Grouping Strategies for Vision Tokens

이 논문은 비전 트랜스포머의 토큰 그룹화 전략에 대한 복잡한 설계가 불필요하며, 위치 정보와 헤드 다양성 등 네 가지 핵심 조건만 충족된다면 단순한 무작위 그룹화 전략이 다양한 시각 작업 및 다른 모달리티에서 기존 방법들을 능가하는 성능을 발휘함을 실험과 분석을 통해 증명합니다.

Qihang Fan, Yuang Ai, Huaibo Huang + 1 more2026-03-03💻 cs

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

이 논문은 3D 재구성에서 관찰되지 않은 영역의 아티팩트를 해결하고 확장성을 높이기 위해, 기존 관측 데이터와의 일관성을 유지하면서 새로운 콘텐츠를 생성할 수 있는 양방향 생성 모델을 학습한 후 이를 단일 패스로 수백 프레임을 생성하는 인과적 자동회귀 모델로 증류하는 2 단계 파이프라인 'ArtiFixer'를 제안합니다.

Riccardo de Lutio, Tobias Fischer, Yen-Yu Chang + 7 more2026-03-03🤖 cs.LG

M2^2: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

이 논문은 긴 시간의 웹 작업에서 발생하는 한계를 해결하기 위해 동적 궤적 요약과 인사이트 검색을 결합한 훈련 불필요의 이중 기억 증강 프레임워크인 M2^2를 제안하며, 이를 통해 다양한 벤치마크에서 성공률 향상과 토큰 사용량 감소를 동시에 달성함을 보여줍니다.

Dawei Yan, Haokui Zhang, Guangda Huzhang + 8 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

이 논문은 제안한 'EmbedLens' 분석 도구를 통해 멀티모달 대규모 언어 모델의 시각 토큰이 의미적 희소성을 가지며, 이미지 정보를 주로 담고 있는 '살아있는 토큰'만으로도 대부분의 작업이 가능하고 내부 계산이 불필요함을 규명하여 효율적인 모델 설계를 위한 토큰 가지치기 및 중간 계층 주입 전략을 제시합니다.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

이 논문은 시각적 질문 응답 시스템의 환각 현상을 해결하기 위해 모델의 내부 지식 신뢰도를 기반으로 외부 정보 활용을 동적으로 조절하는 '다중 모달 적응형 검색 증강 생성 (MMA-RAG)' 프레임워크를 제안하고, 이를 통해 다양한 다중 모달 시나리오에서 응답 정확도와 추론 견고성을 크게 향상시켰음을 보여줍니다.

Ruoshuang Du, Xin Sun, Qiang Liu + 4 more2026-03-03🤖 cs.LG

Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

이 논문은 Vision Transformers 의 자기 주의 메커니즘이 가진 2 차 복잡성 문제를 해결하기 위해 테스트 시간 학습 (TTT) 을 비선형적 시각 표현 학습에 도입하여, 선형 시간 복잡도와 높은 효율성을 갖춘 새로운 비전 백본인 Vision-TTT 를 제안하고 ImageNet 분류 및 하류 작업에서 뛰어난 성능을 입증했습니다.

Quan Kong, Yanru Xiao, Yuhao Shen + 1 more2026-03-03💻 cs

RAFM: Retrieval-Augmented Flow Matching for Unpaired CBCT-to-CT Translation

이 논문은 소규모 의료 데이터셋에서 비쌍합 CBCT-to-CT 변환의 불안정성을 해결하기 위해 DINOv3 인코더와 글로벌 CT 메모리 뱅크를 활용한 검색 기반 가짜 쌍 (retrieval-guided pseudo pairs) 구성 전략을 도입한 '검색 증강 흐름 매칭 (RAFM)'을 제안하고, SynthRAD2023 벤치마크에서 기존 방법들을 능가하는 성능을 입증했습니다.

Xianhao Zhou, Jianghao Wu, Lanfeng Zhong + 4 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

이 논문은 3D 비전 트랜스포머를 활용하여 연속적인 MRI 슬라이스, 다중 관심 영역, 그리고 인구통계학적 및 인지 평가 데이터를 통합하는 'MIMD-3DVT'라는 새로운 방법을 제안함으로써 알츠하이머병 진단 정확도를 97.14%까지 향상시켰음을 보여줍니다.

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

이 논문은 약한 감독 비디오 이상 탐지 (WS-VAD) 의 한계를 극복하기 위해 이상 연결 성분 메커니즘과 의도 인식 전략을 결합하고 이상 속성 정보를 활용하여 프레임별 의미 정보를 효과적으로 학습하는 새로운 프레임워크 'LAS-VAD'를 제안하고, XD-Violence 와 UCF-Crime 데이터셋에서 기존 최첨단 방법들을 능가하는 성능을 입증합니다.

Yu Wang, Shengjie Zhao2026-03-03💻 cs

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

이 논문은 단일 이미지의 제약을 넘어 여러 이미지에 해로운 의미를 분산 배치하고 시각적 단서를 활용한 추론을 통해 MLLM 의 안전 장치를 우회하는 새로운 자일브레이크 프레임워크 'MIDAS'를 제안하며, 실험을 통해 폐쇄형 상용 모델에서 평균 81.46% 의 높은 공격 성공률을 입증했습니다.

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI