cs.CV artigos | Gist.Science

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

O artigo apresenta o RewardMap, um framework de aprendizado por reforço em múltiplos estágios que supera o desafio de recompensas esparsas no raciocínio visual detalhado de modelos de linguagem multimodal, utilizando o conjunto de dados ReasonMap-Plus e um design de recompensa sensível à dificuldade para alcançar melhorias consistentes em tarefas de raciocínio espacial e visual.

Sicheng Feng, Kaiwen Tuo, Song Wang + 3 more2026-02-24🤖 cs.AI

OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

O artigo apresenta o OBS-Diff, um novo framework de poda one-shot e sem treinamento que adapta o algoritmo Optimal Brain Surgeon aos modelos de difusão, utilizando uma construção Hessiana sensível aos timesteps e uma estratégia de poda em grupo para alcançar compressão precisa e aceleração de inferência com mínima degradação na qualidade visual.

Junhan Zhu, Hesong Wang, Mingluo Su + 2 more2026-02-24💻 cs

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

O artigo apresenta o EDJE, um codificador conjunto discriminativo e eficiente que supera os gargalos computacionais dos modelos existentes para reclassificação em escala de visão e linguagem, pré-calculando e comprimindo tokens visuais para permitir inferência de alto rendimento com armazenamento reduzido, mantendo ao mesmo tempo o desempenho de recuperação em benchmarks como Flickr e COCO.

Mitchell Keren Taraday, Shahaf Wagner, Chaim Baskin2026-02-24🤖 cs.LG

LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation

O artigo apresenta o LinVideo, uma framework de pós-treinamento livre de dados que substitui seletivamente módulos de atenção quadrática por atenção linear em modelos de difusão de vídeo, utilizando correspondência de distribuição para alcançar acelerações de 1,25 a 2,00 vezes (e até 15,92 vezes em modelos destilados) sem comprometer a qualidade de geração.

Yushi Huang, Xingtong Ge, Ruihao Gong + 2 more2026-02-24💻 cs

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Este artigo apresenta o Modelo Específico de Estado (SSM), um novo quadro unificado que melhora a detecção e antecipação de ações em vídeos não editados ao comprimir redundâncias, modelar dinâmicas de ação complexas e integrar interações cruzadas temporais para capturar a intenção do agente, alcançando desempenho superior em múltiplos conjuntos de dados de referência.

Xinyu Yang, Zheheng Jiang, Feixiang Zhou + 5 more2026-02-24💻 cs

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Este artigo apresenta o NEO, uma nova família de Modelos Visuais-Linguísticos (VLMs) nativos construída a partir de princípios fundamentais para superar as limitações dos modelos modulares, alinhando representações de pixels e palavras em um espaço semântico compartilhado e oferecendo uma arquitetura monolítica eficiente e acessível para pesquisa escalável.

Haiwen Diao, Mingxuan Li, Silei Wu + 6 more2026-02-24🤖 cs.AI

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Este artigo investiga o impacto da complexidade dos prompts na qualidade, diversidade e consistência de dados sintéticos gerados por modelos de texto-para-imagem, demonstrando que, embora prompts mais complexos reduzam a divergência da distribuição real, eles diminuem a diversidade e a consistência, sendo que a expansão de prompts via modelos de linguagem pré-treinados se destaca como a intervenção mais eficaz para superar até mesmo os dados reais em diversidade e estética.

Zhang Xiaofeng, Aaron Courville, Michal Drozdzal + 1 more2026-02-24💻 cs

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

O artigo apresenta o MergeMix, um paradigma unificado de aumento de dados baseado em fusão de tokens que combina as vantagens do ajuste fino supervisionado e do aprendizado por reforço para melhorar a eficiência, estabilidade e generalização do alinhamento em modelos de linguagem multimodal.

Xin Jin, Siyuan Li, Siyong Jian + 2 more2026-02-24💻 cs

SYNAPSE-Net: A Unified Framework with Lesion-Aware Hierarchical Gating for Robust Segmentation of Heterogeneous Brain Lesions

O artigo apresenta o SYNAPSE-Net, uma estrutura unificada e adaptativa baseada em codificadores convolucionais multi-stream e fusão por atenção cruzada, que demonstra robustez e alta precisão na segmentação automática de lesões cerebrais heterogêneas em ressonância magnética multimodal, validada em três conjuntos de dados públicos de desafios internacionais.

Md. Mehedi Hassan, Shafqat Alam, Shahriar Ahmed Seam + 1 more2026-02-24⚡ eess

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

O artigo apresenta o BEAT, um novo framework que injeta backdoors visuais em agentes corporificados baseados em Modelos Visuais-Linguísticos (VLMs) utilizando objetos do ambiente como gatilhos, empregando uma técnica inovadora de Aprendizado de Gatilho Contrastivo (CTL) para garantir ativações precisas e generalizáveis sem comprometer o desempenho em tarefas benignas.

Qiusi Zhan, Hyeonjeong Ha, Rui Yang + 7 more2026-02-24💬 cs.CL

A Lightweight 3D-CNN for Event-Based Human Action Recognition with Privacy-Preserving Potential

Este artigo apresenta uma rede neural 3D-CNN leve e eficiente para reconhecimento de ações humanas baseada em dados de visão baseada em eventos, que oferece privacidade inerente e alcança alta precisão (94,17%) ao superar arquiteturas convencionais em dispositivos de borda.

Mehdi Sefidgar Dilmaghani, Francis Fowley, Peter Corcoran2026-02-24💻 cs

Countering Multi-modal Representation Collapse through Rank-targeted Fusion

Este artigo propõe o *Rank-enhancing Token Fuser*, um framework de fusão multimodal baseado em rank efetivo que mitiga simultaneamente o colapso de características e de modalidades, resultando no sistema R3D que supera o estado da arte em antecipação de ações humanas ao integrar dados de profundidade e RGB.

Seulgi Kim, Kiran Kokilepersaud, Mohit Prabhushankar + 1 more2026-02-24🤖 cs.LG

StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

O StreamDiffusionV2 é um pipeline de geração de vídeo ao vivo sem necessidade de treinamento que utiliza agendamento inteligente, cache KV guiado e orquestração escalável para superar os desafios de consistência temporal e latência, permitindo a execução eficiente de modelos de difusão em tempo real em ambientes multi-GPU heterogêneos.

Tianrui Feng, Zhi Li, Shuo Yang + 11 more2026-02-24🤖 cs.LG

PRISM: Diversifying Dataset Distillation by Decoupling Architectural Priors

O PRISM é um framework de destilação de dados que supera os métodos existentes ao desacoplar os objetivos de treinamento e supervisioná-los com modelos professores de arquiteturas diversas, resultando em dados sintéticos com maior diversidade intraclasse e melhor generalização.

Brian B. Moser, Shalini Sarode, Federico Raue + 6 more2026-02-24🤖 cs.AI

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

O MoDES é um framework sem treinamento que acelera a inferência de modelos multimodais de linguagem grande baseados em Mixture-of-Experts (MoE) ao introduzir um mecanismo de gate globalmente modulado e um método de limiarização de dupla modalidade para ignorar dinamicamente especialistas redundantes, resultando em ganhos significativos de velocidade e precisão sem degradação de desempenho.

Yushi Huang, Zining Wang, Zhihang Yuan + 5 more2026-02-24💬 cs.CL

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

O artigo apresenta o Mantis, um modelo de Visão-Linguagem-Ação inovador que utiliza uma Previsão Visual Desacoplada (DVF) para separar a previsão de estados visuais do backbone, permitindo assim uma melhor compreensão e raciocínio linguístico enquanto alcança desempenho superior em benchmarks de robótica e no mundo real.

Yi Yang, Xueqi Li, Yiyang Chen + 7 more2026-02-24🤖 cs.AI

GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving

O artigo apresenta o GuideFlow, um novo framework de planejamento para direção autônoma que utiliza correspondência de fluxo com restrições e um modelo baseado em energia para gerar trajetórias diversas e seguras, permitindo o controle direto da agressividade da condução e alcançando desempenho de última geração em benchmarks principais.

Lin Liu, Caiyan Jia, Guanyi Yu + 6 more2026-02-24💻 cs

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

O artigo apresenta o LocateAnything3D, um modelo nativo de visão e linguagem que reformula a detecção 3D como um problema de previsão de tokens usando uma sequência de "Cadeia de Visão" (Chain-of-Sight) para inferir primeiro a localização 2D e depois as propriedades 3D, alcançando resultados state-of-the-art no benchmark Omni3D e generalização zero-shot sem cabeças especializadas.

Yunze Man, Shihao Wang, Guowen Zhang + 7 more2026-02-24💻 cs

SelfAI: A self-directed framework for long-horizon scientific discovery

O artigo apresenta o SelfAI, um sistema multiagente autônomo que automatiza a descoberta científica de longo prazo ao transformar intenções de pesquisa em experimentos executáveis, otimizando o equilíbrio entre eficiência e diversidade para encontrar soluções de alta qualidade com menos tentativas redundantes do que métodos tradicionais.

Xiao Wu, Ting-Zhu Huang, Liang-Jian Deng + 9 more2026-02-24🤖 cs.AI

Generative Neural Video Compression via Video Diffusion Prior

O artigo apresenta o GNVC-VD, o primeiro framework de compressão neural de vídeo generativa baseado em DiT que unifica a compressão latente espaço-temporal e o refinamento generativo em nível de sequência, utilizando um prior de difusão de vídeo nativo para eliminar o cintilamento e melhorar a qualidade perceptual sob taxas de bits extremamente baixas.

Qi Mao, Hao Cheng, Tinghan Yang + 2 more2026-02-24💻 cs

← Anterior Próximo →