Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

이 논문은 다중 모달 노이즈 제거를 정보 병목 관점에서 접근하여, Mamba 디코더와 정보 병목 융합 모듈을 통해 불필요한 특징을 제거하고 객체 간 특징 결합을 분리함으로써 점진적 통합 다중 모달 이상 탐지에서 발생하는 재학습 손실 (catastrophic forgetting) 문제를 해결하는 IB-IUMAD 프레임워크를 제안합니다.

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

SEP-YOLO: Fourier-Domain Feature Representation for Transparent Object Instance Segmentation

본 논문은 투명한 물체의 경계 흐림과 낮은 대비 문제를 해결하기 위해 주파수 영역 특징 강화 및 다중 공간 정제 스트림을 통합한 SEP-YOLO 프레임워크를 제안하고, Trans10K 데이터셋에 고품질 인스턴스 주석을 추가하여 투명 물체 인스턴스 분할 분야에서 최첨단 성능을 달성했습니다.

Fengming Zhang, Tao Yan, Jianchao Huang2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

이 논문은 단일 모달리티로 해결 가능한 단축형 질문의 문제를 해결하고, 이미지·텍스트·교차모달 성분을 분리하여 평가하는 다차원 항목반응이론 프레임워크 (M3IRT) 를 제안함으로써 다중모달 대형 언어 모델의 교차모달 추론 능력을 보다 신뢰성 있게 측정하고 벤치마크의 효율성을 높이는 방법을 제시합니다.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

DREAM: Where Visual Understanding Meets Text-to-Image Generation

이 논문은 '마스킹 워밍업'과 '의미 정렬 디코딩'이라는 두 가지 핵심 기법을 통해 시각적 표현 학습과 텍스트-이미지 생성을 단일 모델로 통합한 DREAM 을 제안하며, CC12M 만으로 훈련된 이 모델이 이미지넷 선형 프로빙 정확도와 FID 등 다양한 벤치마크에서 기존 최첨단 모델들을 능가하는 성과를 거두었다고 설명합니다.

Chao Li, Tianhong Li, Sai Vidyaranya Nuthalapati + 8 more2026-03-04🤖 cs.LG

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

이 논문은 메타인지 기반 데이터 구축, 점진적 전문화 훈련 및 가상 강화 학습을 통해 이해, 사고, 계획, 생성 (UTPC) 능력을 통합한 'VisionCreator'라는 네이티브 시각 생성 에이전트 모델을 제안하고, 이를 통해 기존 대형 폐쇄형 모델보다 우수한 성능을 입증한 연구입니다.

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs

ReCo-Diff: Residual-Conditioned Deterministic Sampling for Cold Diffusion in Sparse-View CT

이 논문은 희소 뷰 CT 재구성에서 오차 누적과 불안정성을 해결하기 위해 관측 잔차 (observation residual) 를 활용한 잔차 조건부 자기 유도 샘플링을 도입한 ReCo-Diff 프레임워크를 제안하며, 이를 통해 기존 냉각 확산 모델보다 높은 재구성 정확도와 안정성을 달성함을 보여줍니다.

Yong Eun Choi, Hyoung Suk Park, Kiwan Jeon + 2 more2026-03-04💻 cs

FiDeSR: High-Fidelity and Detail-Preserving One-Step Diffusion Super-Resolution

이 논문은 예측 오차가 큰 영역을 적응적으로 강조하는 디테일 인식 가중치 전략과 재학습 없이 고주파 및 저주파를 보정하는 적응형 증강기를 통해, 기존 확산 기반 방법들보다 뛰어난 고충실도 및 디테일 보존 성능을 보이는 1 단계 확산 초해상도 프레임워크 FiDeSR 을 제안합니다.

Aro Kim, Myeongjin Jang, Chaewon Moon + 3 more2026-03-04💻 cs

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

이 논문은 CARLA 시뮬레이션 기반의 대규모 다중 에이전트 상호작용 데이터셋 구축, 4 시점 비디오의 공간적 연결 전략, 그리고 크로스 에이전트 어텐션 블록 통합을 통해 다중 에이전트 간의 상호작용을 지원하고 일관된 공유 세계 모델을 생성하는 'ShareVerse' 프레임워크를 제안합니다.

Jiayi Zhu, Jianing Zhang, Yiying Yang + 2 more2026-03-04🤖 cs.AI

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

이 논문은 임부 건강과 생식 결과를 위협하는 임신성 영양막 질환 (GTD) 의 진단 지연 및 일관성 부족 문제를 해결하기 위해, 병리 슬라이드 내 병변 분할과 진단 결론을 동시에 제공하는 시각 - 언어 기반 딥러닝 모델 'GTDoctor'와 임상 시스템 'GTDiagnosis'를 개발하여 진단 정확도와 효율성을 크게 향상시켰음을 보고합니다.

Yuhang Liu, Yueyang Cang, Wenge Que + 12 more2026-03-04🤖 cs.AI

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

이 논문은 다양한 종류의 이미지 열화를 효과적으로 복원하기 위해 사전 학습된 확산 모델에 이중 계층 혼합 전문가 (MoE) 구조를 통합하여, 열화 유형별 coarse-grained 적응과 세부 변형에 대한 fine-grained 조절을 동시에 수행하는 통합 이미지 복원 프레임워크 'MiM-DiT'를 제안합니다.

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

이 논문은 기존 생성 모델의 공간적 모호성을 해결하기 위해 입력 프롬프트에서 시각적 제약 조건을 유도하여 '그리는 방법 (How)'을 먼저 추론한 뒤 '무엇을 그릴지 (What)'를 생성하는 'CoR-Painter' 프레임워크와 듀얼-목표 GRPO 전략을 제안하여 자동회귀 이미지 생성의 공간적 일관성과 성능을 획기적으로 개선했습니다.

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

TenExp: Mixture-of-Experts-Based Tensor Decomposition Structure Search Framework

본 논문은 고정된 인수 상호작용 집합에 국한되지 않고 단일 분해나 분해의 혼합을 동적으로 선택하여 데이터의 저차원 구조를 정확하게 포착하는 새로운 무감독 텐서 분해 구조 탐색 프레임워크 'TenExp'를 제안하고, 이론적 오차 한계와 실험을 통해 그 우수성을 입증합니다.

Ting-Wei Zhou, Xi-Le Zhao, Sheng Liu + 3 more2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

이 논문은 원격 탐사 시각 질문 답변 (RS-VQA) 에서 발생하는 환각 현상을 해결하기 위해 사실적 오류를 진단하는 벤치마크 'RSHBench'를 제안하고, 학습 없이 주의를 기반으로 한 단계적 국소 추론을 수행하는 'RADAR'라는 추론 방법을 개발하여 다양한 멀티모달 대규모 언어 모델의 성능을 향상시켰음을 보여줍니다.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

이 논문은 고대 그리스 비평본의 복잡한 구조와 주석을 인식하기 위해 대규모 합성 데이터셋과 실사 벤치마크를 구축하고, 이를 통해 기존 오프더셸 소프트웨어를 능가하는 Qwen3VL-8B 모델을 포함한 최신 비주얼 언어 모델의 성능을 평가하여 구조 인식 기술의 한계와 가능성을 제시합니다.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs