Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

Este artigo propõe o IB-IUMAD, um novo framework de detecção de anomalias multimodais incremental que utiliza um decodificador Mamba e um módulo de gargalo de informação para mitigar o esquecimento catastrófico ao eliminar características espúrias e redundantes, superando as limitações das abordagens de agregação ingênua.

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

O artigo apresenta o M3IRT, um framework baseado na Teoria de Resposta ao Item que decompõe a capacidade dos modelos e a dificuldade dos itens em componentes unimodais e cruzados, permitindo a identificação e priorização de questões genuinamente multimodais para criar benchmarks mais compactos, confiáveis e eficientes na avaliação do raciocínio cruzado de Modelos de Linguagem Multimodais.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

O artigo apresenta o VisionCreator, um modelo agente nativo de geração visual que unifica compreensão, raciocínio, planejamento e criação em um framework aprendível, apoiado por novos conjuntos de dados, técnicas de treinamento avançadas e um benchmark abrangente para superar modelos fechados existentes em tarefas complexas de criação visual.

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs

ReCo-Diff: Residual-Conditioned Deterministic Sampling for Cold Diffusion in Sparse-View CT

O artigo apresenta o ReCo-Diff, um novo framework de difusão determinística que utiliza amostragem auto-guiada condicionada aos resíduos de observação para corrigir continuamente as previsões, superando a instabilidade e a acumulação de erros de métodos existentes e alcançando reconstruções de tomografia computadorizada com visão esparsa mais precisas e robustas.

Yong Eun Choi, Hyoung Suk Park, Kiwan Jeon + 2 more2026-03-04💻 cs

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

Os autores desenvolveram o modelo de aprendizado profundo visual-linguístico "GTDoctor" e o sistema clínico "GTDiagnosis", que demonstraram alta precisão na detecção de lesões e reduziram significativamente o tempo de diagnóstico de doenças trofoblásticas gestacionais, melhorando a eficiência e a consistência diagnóstica.

Yuhang Liu, Yueyang Cang, Wenge Que + 12 more2026-03-04🤖 cs.AI

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

O artigo propõe o MiM-DiT, um quadro unificado de restauração de imagens que integra uma arquitetura de Mixture-of-Experts (MoE) de dois níveis com um modelo de difusão pré-treinado para lidar eficazmente com diversos tipos de degradação, desde a seleção de grupos de especialistas para categorias principais até a escolha de sub-especialistas para variações finas.

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

O artigo apresenta o CoR-Painter, um framework inovador que supera as limitações dos métodos atuais de geração de imagens autoregressiva ao introduzir um paradigma de "Como para O Quê" baseado em Raciocínio Constrained, o qual deduz restrições visuais espaciais e composicionais para guiar a geração de descrições detalhadas e alcançar desempenho state-of-the-art em benchmarks como T2I-CompBench.

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

TenExp: Mixture-of-Experts-Based Tensor Decomposition Structure Search Framework

O artigo apresenta o TenExp, um framework de busca de estrutura de decomposição tensorial baseado em mistura de especialistas (MoE) que supera os métodos existentes ao permitir a seleção dinâmica e não supervisionada de decomposições únicas ou mistas, oferecendo limites teóricos de erro e demonstrando superioridade em diversos conjuntos de dados.

Ting-Wei Zhou, Xi-Le Zhao, Sheng Liu + 3 more2026-03-04💻 cs

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

Este artigo propõe a SFDE, uma rede leve e eficiente que utiliza representações complementares dos domínios espacial e frequencial através de uma arquitetura de três ramos para superar os desafios de assimetria geométrica e inconsistência de textura na geo-localização entre vistas cruzadas, alcançando desempenho superior ao estado da arte.

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

Este artigo apresenta o RSHBench, um benchmark para diagnóstico de alucinações em modelos de linguagem multimodal aplicados a sensoriamento remoto, e propõe o RADAR, um método de inferência sem treinamento que utiliza atenção relativa para melhorar a localização e o raciocínio local, mitigando efetivamente as alucinações factuais e lógicas.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

O artigo propõe o HiLoRA, um framework hierárquico de Low-Rank Adaptation que, ao organizar adaptadores em níveis globais, de agrupamento e específicos do cliente e utilizar um mecanismo de clustering baseado em similaridade de subespaço, supera as limitações de métodos existentes ao melhorar a personalização e a generalização em Aprendizado Federado com Vision Transformers.

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

O artigo apresenta o UNICORN, um novo benchmark público e unificado que avalia modelos fundamentais médicos em patologia, radiologia e linguagem natural através de um protocolo padronizado de adaptação com poucos exemplos, permitindo a comparação direta de desempenho entre diferentes domínios, modalidades e tarefas.

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

Este artigo apresenta um novo corpus sintético e um conjunto de dados de benchmark para avaliar modelos de linguagem visual na transcrição de edições críticas do grego antigo, demonstrando que, embora os modelos atuais tenham limitações em cenários zero-shot, o Qwen3VL-8B atinge desempenho superior com uma taxa de erro de caracteres de 1,0% após ajuste fino.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs