cs.CV artigos | Gist.Science

Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

Este artigo propõe o IB-IUMAD, um novo framework de detecção de anomalias multimodais incremental que utiliza um decodificador Mamba e um módulo de gargalo de informação para mitigar o esquecimento catastrófico ao eliminar características espúrias e redundantes, superando as limitações das abordagens de agregação ingênua.

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

SEP-YOLO: Fourier-Domain Feature Representation for Transparent Object Instance Segmentation

O artigo apresenta o SEP-YOLO, um novo framework que supera os desafios da segmentação de objetos transparentes ao integrar um mecanismo colaborativo de domínio duplo para aprimorar detalhes de borda no domínio da frequência e refinar a localização espacial, alcançando desempenho superior nos conjuntos de dados Trans10K e GVD.

Fengming Zhang, Tao Yan, Jianchao Huang2026-03-04💻 cs

OmniFashion: Towards Generalist Fashion Intelligence via Multi-Task Vision-Language Learning

O artigo apresenta o OmniFashion, um framework unificado de visão e linguagem baseado no conjunto de dados FashionX, que supera as limitações atuais ao integrar múltiplas tarefas de inteligência de moda em um paradigma de diálogo interativo, permitindo raciocínio multitala e generalização cruzada.

Zhengwei Yang, Andi Long, Hao Li + 3 more2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

O artigo apresenta o M3IRT, um framework baseado na Teoria de Resposta ao Item que decompõe a capacidade dos modelos e a dificuldade dos itens em componentes unimodais e cruzados, permitindo a identificação e priorização de questões genuinamente multimodais para criar benchmarks mais compactos, confiáveis e eficientes na avaliação do raciocínio cruzado de Modelos de Linguagem Multimodais.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

DREAM: Where Visual Understanding Meets Text-to-Image Generation

O artigo apresenta o DREAM, um modelo unificado que integra aprendizado de representação visual e geração de imagens a partir de texto através de técnicas como "Masking Warmup" e "Semantically Aligned Decoding", alcançando desempenho superior em tarefas de compreensão e geração visual sem a necessidade de rerankers externos.

Chao Li, Tianhong Li, Sai Vidyaranya Nuthalapati + 8 more2026-03-04🤖 cs.LG

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

O artigo apresenta o VisionCreator, um modelo agente nativo de geração visual que unifica compreensão, raciocínio, planejamento e criação em um framework aprendível, apoiado por novos conjuntos de dados, técnicas de treinamento avançadas e um benchmark abrangente para superar modelos fechados existentes em tarefas complexas de criação visual.

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs

ReCo-Diff: Residual-Conditioned Deterministic Sampling for Cold Diffusion in Sparse-View CT

O artigo apresenta o ReCo-Diff, um novo framework de difusão determinística que utiliza amostragem auto-guiada condicionada aos resíduos de observação para corrigir continuamente as previsões, superando a instabilidade e a acumulação de erros de métodos existentes e alcançando reconstruções de tomografia computadorizada com visão esparsa mais precisas e robustas.

Yong Eun Choi, Hyoung Suk Park, Kiwan Jeon + 2 more2026-03-04💻 cs

FiDeSR: High-Fidelity and Detail-Preserving One-Step Diffusion Super-Resolution

O artigo apresenta o FiDeSR, um framework de super-resolução de imagem em um único passo baseado em difusão que combina uma estratégia de ponderação detalhada, aprimoradores adaptativos de frequência e refinamento de ruído residual para preservar detalhes finos e garantir reconstruções de alta fidelidade em cenários do mundo real.

Aro Kim, Myeongjin Jang, Chaewon Moon + 3 more2026-03-04💻 cs

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

O artigo apresenta o ShareVerse, um framework de geração de vídeo multiagente que utiliza um novo conjunto de dados no CARLA, uma estratégia de concatenação espacial e blocos de atenção cruzada para garantir a consistência geométrica e a modelagem compartilhada de um mundo interativo entre múltiplos agentes.

Jiayi Zhu, Jianing Zhang, Yiying Yang + 2 more2026-03-04🤖 cs.AI

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

Os autores desenvolveram o modelo de aprendizado profundo visual-linguístico "GTDoctor" e o sistema clínico "GTDiagnosis", que demonstraram alta precisão na detecção de lesões e reduziram significativamente o tempo de diagnóstico de doenças trofoblásticas gestacionais, melhorando a eficiência e a consistência diagnóstica.

Yuhang Liu, Yueyang Cang, Wenge Que + 12 more2026-03-04🤖 cs.AI

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

O artigo propõe o MiM-DiT, um quadro unificado de restauração de imagens que integra uma arquitetura de Mixture-of-Experts (MoE) de dois níveis com um modelo de difusão pré-treinado para lidar eficazmente com diversos tipos de degradação, desde a seleção de grupos de especialistas para categorias principais até a escolha de sub-especialistas para variações finas.

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

O artigo apresenta o CoR-Painter, um framework inovador que supera as limitações dos métodos atuais de geração de imagens autoregressiva ao introduzir um paradigma de "Como para O Quê" baseado em Raciocínio Constrained, o qual deduz restrições visuais espaciais e composicionais para guiar a geração de descrições detalhadas e alcançar desempenho state-of-the-art em benchmarks como T2I-CompBench.

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

TenExp: Mixture-of-Experts-Based Tensor Decomposition Structure Search Framework

O artigo apresenta o TenExp, um framework de busca de estrutura de decomposição tensorial baseado em mistura de especialistas (MoE) que supera os métodos existentes ao permitir a seleção dinâmica e não supervisionada de decomposições únicas ou mistas, oferecendo limites teóricos de erro e demonstrando superioridade em diversos conjuntos de dados.

Ting-Wei Zhou, Xi-Le Zhao, Sheng Liu + 3 more2026-03-04💻 cs

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

Este artigo propõe a SFDE, uma rede leve e eficiente que utiliza representações complementares dos domínios espacial e frequencial através de uma arquitetura de três ramos para superar os desafios de assimetria geométrica e inconsistência de textura na geo-localização entre vistas cruzadas, alcançando desempenho superior ao estado da arte.

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

Este artigo apresenta o RSHBench, um benchmark para diagnóstico de alucinações em modelos de linguagem multimodal aplicados a sensoriamento remoto, e propõe o RADAR, um método de inferência sem treinamento que utiliza atenção relativa para melhorar a localização e o raciocínio local, mitigando efetivamente as alucinações factuais e lógicas.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

O artigo propõe o HiLoRA, um framework hierárquico de Low-Rank Adaptation que, ao organizar adaptadores em níveis globais, de agrupamento e específicos do cliente e utilizar um mecanismo de clustering baseado em similaridade de subespaço, supera as limitações de métodos existentes ao melhorar a personalização e a generalização em Aprendizado Federado com Vision Transformers.

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

O artigo apresenta o UNICORN, um novo benchmark público e unificado que avalia modelos fundamentais médicos em patologia, radiologia e linguagem natural através de um protocolo padronizado de adaptação com poucos exemplos, permitindo a comparação direta de desempenho entre diferentes domínios, modalidades e tarefas.

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

R3GW: Relightable 3D Gaussians for Outdoor Scenes in the Wild

O artigo apresenta o R3GW, um método inovador que gera uma representação 3D de Gaussiana relightável para cenas externas em ambientes não controlados, separando o primeiro plano refletivo do fundo não refletivo para permitir a síntese de novas vistas fotorrealistas sob condições de iluminação arbitrárias.

Margherita Lea Corona, Wieland Morgenstern, Peter Eisert + 1 more2026-03-04💻 cs

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

O artigo apresenta o NOVA, um novo framework para edição de vídeo sem dados pareados que combina controle esparsos por meio de quadros-chave editados com síntese densa baseada no vídeo original e uma estratégia de treinamento com simulação de degradação, superando métodos existentes em fidelidade, preservação de movimento e coerência temporal.

Tianlin Pan, Jiayi Dai, Chenpu Yuan + 7 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

Este artigo apresenta um novo corpus sintético e um conjunto de dados de benchmark para avaliar modelos de linguagem visual na transcrição de edições críticas do grego antigo, demonstrando que, embora os modelos atuais tenham limitações em cenários zero-shot, o Qwen3VL-8B atinge desempenho superior com uma taxa de erro de caracteres de 1,0% após ajuste fino.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs

← Anterior Próximo →