cs.CV artigos | Gist.Science

Latent 3D Brain MRI Counterfactual

Este artigo propõe um método de duas etapas que combina um VQ-VAE e um Modelo Causal Estrutural no espaço latente para gerar contrafactuais de ressonância magnética cerebral 3D de alta qualidade, superando as limitações de diversidade e fidelidade dos modelos generativos tradicionais em estudos com poucos dados.

Wei Peng, Tian Xia, Fabio De Sousa Ribeiro + 5 more2026-03-03🤖 cs.AI

MV-Adapter: Enhancing Underwater Instance Segmentation via Adaptive Channel Attention

Este artigo apresenta o MV-Adapter, um módulo de atenção adaptativa de canais que melhora a segmentação de instâncias subaquáticas ao ajustar dinamicamente os pesos das características para lidar com atenuação de luz, distorção de cor e fundos complexos, resultando em desempenho superior no modelo USIS-SAM no conjunto de dados USIS10K.

Lianjun Liu2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

O artigo apresenta o XPoint, uma arquitetura auto-supervisionada e modular baseada em Espaço de Estado Visual (VMamba) que supera os desafios de registro de imagens multiespectrais ao permitir adaptação rápida entre diferentes modalidades sem necessidade de dados rotulados, superando os métodos atuais em precisão de correspondência e registro.

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

O artigo apresenta o EchoMimicV2, um método de animação humana de meio corpo que alcança resultados impressionantes e simplificados ao harmonizar dinamicamente áudio e pose, utilizar atenção parcial em cabeças para aproveitar dados de retratos e empregar uma perda de desnoising específica por fase, superando assim métodos existentes.

Rang Meng, Xingyu Zhang, Yuming Li + 1 more2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

O artigo apresenta o MFP3D, um novo framework que utiliza uma única imagem monocromática para estimar com precisão a porção de alimentos por meio da reconstrução de nuvens de pontos 3D, superando as limitações de métodos existentes que dependem de objetos de referência ou múltiplas vistas.

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

Este artigo apresenta o Grounding-IQA, uma nova abordagem para avaliação de qualidade de imagem que integra modelos de linguagem multimodal com tarefas de localização e descrição, apoiada pelo dataset GIQA-160K e pelo benchmark GIQA-Bench para permitir avaliações de qualidade mais granulares e precisas.

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

O artigo apresenta o DAWN-FM, um método de Flow Matching que integra representações de dados e ruído para resolver problemas inversos complexos e mal-postos, como em imageamento médico e geofísica, oferecendo soluções robustas e quantificação de incerteza adaptável a diferentes níveis de ruído.

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

O artigo propõe o método FiLo++, uma abordagem para detecção e localização de anomalias em cenários de zero-shot e few-shot que supera as limitações das descrições genéricas e do emparelhamento simples de patches ao integrar descrições textuais de alto nível geradas por LLMs com um mecanismo de localização deformável baseado no Grounding DINO.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

Este artigo demonstra que funções de ativação baseadas em bases ortonormais, como polinômios de Hermite, trigonometria e tropicalização, podem ser utilizadas com sucesso no treinamento de modelos profundos sem mecanismos de clamping, resolvendo problemas de explosão e desaparecimento de gradientes e permitindo aproximações eficientes para ajuste fino.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

Este estudo demonstra que a inferência generativa profunda aplicada a mapas de perfusão computados a partir de angiografias por tomografia computadorizada (CTA) permite localizar com alta fidelidade os substratos neurais de déficits clínicos em AVC isquêmico agudo, revelando novas relações anatômicas e oferecendo valor clínico e científico para a fenotipagem precoce antes da intervenção.

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Este trabalho demonstra que, embora o modelo CLIP apresente comportamento de "saco de palavras" na alinhamento cruzado de modalidades, as informações de ligação entre atributos e objetos já estão codificadas em suas representações unimodais e podem ser recuperadas de forma eficiente por meio de uma simples transformação linear, sem a necessidade de re-treinamento dos codificadores.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

O artigo apresenta o WorldSense, o primeiro benchmark projetado para avaliar a compreensão de vídeos multimodais que integra simultaneamente áudio, vídeo e texto, destacando-se pela forte sincronização entre modalidades, diversidade de tarefas e anotações de alta qualidade para revelar as limitações atuais dos modelos de IA em cenários do mundo real.

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

O artigo demonstra que menos de 1% dos parâmetros de um modelo de difusão, localizados exclusivamente nas camadas de atenção, são responsáveis pela geração de texto nas imagens, permitindo otimizações como ajuste fino eficiente, edição de conteúdo textual e prevenção de textos tóxicos de forma ampla e sem custos adicionais.

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Este artigo propõe um quadro de adaptação robusto para Modelos Multimodais de Grande Escala que supera as limitações de métodos existentes, alcançando desempenho superior e maior generalização na detecção de memes de ódio, ao mesmo tempo que preserva as capacidades gerais do modelo e melhora a interpretabilidade através de explicações de alta qualidade.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

O artigo apresenta o "Jumbo", um novo token global de largura aumentada que acelera os Vision Transformers (ViTs) ao reduzir a largura dos tokens de patch e compartilhar parâmetros, melhorando simultaneamente a precisão e a eficiência em diversas tarefas sem comprometer a compatibilidade com arquiteturas ViT padrão.

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos + 2 more2026-03-03💻 cs

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

O artigo apresenta o MemeIntel, um novo conjunto de dados explicativo e uma abordagem de otimização multiestágio com modelos de visão e linguagem que superam o estado da arte na detecção de memes propagandísticos em árabe e de discurso de ódio em inglês, ao mesmo tempo que geram justificativas para suas previsões.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Openfly: A comprehensive platform for aerial vision-language navigation

O artigo apresenta o OpenFly, uma plataforma abrangente que inclui um pipeline automatizado de coleta de dados, um grande conjunto de dados de navegação aérea visão-linguagem com 100 mil trajetórias e um agente especializado, visando preencher a lacuna de benchmarks e ferramentas para navegação aérea em ambientes externos.

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

O artigo apresenta o LLaVE, um modelo de incorporação multimodal que supera o estado da arte ao utilizar aprendizado contrastivo ponderado por dificuldade para melhorar a distinção de pares negativos, alcançando desempenho superior com maior eficiência e generalização zero-shot.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

O artigo apresenta o Vision-R1, um modelo de linguagem multimodal que aprimora o raciocínio complexo por meio de aprendizado por reforço, utilizando um conjunto de dados de cadeia de pensamento gerado automaticamente e uma estratégia de supressão progressiva do pensamento excessivo para alcançar desempenho competitivo em benchmarks matemáticos.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

O artigo apresenta o SemHiTok, um tokenizador de imagem unificado que utiliza um código hierárquico guiado por semântica para superar os desafios de equilíbrio entre compreensão e geração multimodal, alcançando desempenho superior em ambas as tarefas.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

← Anterior Próximo →