Alchemist: Turning Public Text-to-Image Data into Generative Gold

O artigo apresenta o Alchemist, um novo método e um conjunto de dados de ajuste fino supervisionado compacto (3.350 amostras) derivado de dados públicos de texto para imagem, que utiliza um modelo generativo pré-treinado como estimador para selecionar amostras de alto impacto, resultando em melhorias significativas na qualidade estética e alinhamento de cinco modelos públicos sem comprometer a diversidade.

Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin2026-03-09💻 cs

Instance Data Condensation for Image Super-Resolution

Este artigo propõe um novo framework de Condensação de Dados de Instância (IDC) para Super-Resolução de Imagens, que utiliza extração de características de Fourier local aleatória e correspondência de distribuição de características em múltiplos níveis para gerar um conjunto de dados sintético condensado (10% do DIV2K) que alcança desempenho comparável ao conjunto original completo ao treinar modelos de super-resolução.

Tianhao Peng, Ho Man Kwan, Yuxuan Jiang, Ge Gao, Fan Zhang, Xiaozhong Xu, Shan Liu, David Bull2026-03-09💻 cs

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

O artigo apresenta o VisioMath, um novo benchmark de 1.800 problemas matemáticos do ensino fundamental e médio que avaliam a capacidade de raciocínio comparativo de Modelos Multimodais Grandes (LMMs) ao distinguir diagramas visualmente similares, revelando que falhas frequentes decorrem de desalinhamento entre imagem e texto e demonstrando que estratégias de alinhamento podem melhorar significativamente o desempenho desses modelos.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

O artigo apresenta o SPARC, um novo framework que utiliza autoencoders esparsos alinhados para criar um espaço latente unificado e compartilhado entre diferentes arquiteturas e modalidades de IA, permitindo a comparação direta de conceitos de alto nível e habilitando aplicações como localização espacial guiada por texto e recuperação cruzada.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

O artigo apresenta o ExDD, um novo framework para detecção de defeitos industriais que supera as limitações dos paradigmas de uma única classe ao modelar explicitamente distribuições duplas de características e utilizar modelos de difusão latente para gerar defeitos sintéticos, alcançando desempenho superior no conjunto de dados KSDD2.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Este trabalho apresenta um sistema multiagente baseado em modelos de linguagem grandes multimodais (MLLM) que supera significativamente o estado da arte na extração automática e robusta de informações químicas complexas de gráficos e textos da literatura, facilitando a construção de bancos de dados estruturados para impulsionar a pesquisa química orientada por IA.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

O artigo propõe o método MAP, uma técnica de decodificação sem treinamento que mitiga alucinações em Modelos de Linguagem e Visão Grandes ao interpretar os estados ocultos como mapas semânticos 2D e aplicar operações de atenção em nível de mapa para melhorar a consistência factual.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

O artigo apresenta o VLMQ, um framework de quantização pós-treinamento (PTQ) projetado especificamente para modelos visão-linguagem (VLMs) que, ao identificar e mitigar a super-representação visual e a lacuna entre modalidades por meio da priorização seletiva de tokens salientes, alcança desempenho superior ao estado da arte, especialmente em configurações de baixa precisão.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

O artigo apresenta o SGDFuse, um modelo de difusão condicional guiado pelo Segment Anything Model (SAM) que utiliza máscaras semânticas como priores explícitos para realizar a fusão de imagens infravermelhas e visíveis com alta fidelidade, preservando alvos-chave e melhorando o desempenho em tarefas visuais subsequentes.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Multivariate Fields of Experts for Convergent Image Reconstruction

O artigo apresenta os "campos de especialistas multivariados", um novo framework para aprendizado de priors de imagem que generaliza métodos existentes através de funções potenciais multivariadas, oferecendo reconstrução superior em diversos problemas inversos com maior velocidade, menor complexidade e garantias teóricas de convergência em comparação a modelos univariados e de aprendizado profundo.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG