cs.CV artigos | Gist.Science

Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models

Este artigo propõe o framework HQM para avaliar a confiabilidade e validade de benchmarks existentes de alucinação em Modelos Visuais-Linguísticos de Grande Escala (LVLMs), identificando suas limitações e introduzindo o benchmark HQH, de alta qualidade, que revela graves problemas de alucinação nessas arquiteturas.

Bei Yan, Jie Zhang, Zheng Yuan + 2 more2026-02-26🤖 cs.AI

PoseAdapt: Sustainable Human Pose Estimation via Continual Learning Benchmarks and Toolkit

O artigo apresenta o PoseAdapt, um framework e conjunto de benchmarks de código aberto para aprendizado contínuo em estimativa de pose humana, projetado para permitir a adaptação eficiente de modelos a novas tarefas e domínios com recursos computacionais limitados, eliminando a necessidade de retreinamento completo.

Muhammad Saif Ullah Khan, Didier Stricker2026-02-26💻 cs

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

O artigo apresenta o LLM2CLIP, um framework de ajuste fino eficiente que integra um Grande Modelo de Linguagem (LLM) ao CLIP pré-treinado para aprimorar a representação multimodal e obter ganhos significativos de desempenho em diversas tarefas sem a necessidade de retreinamento em larga escala.

Weiquan Huang, Aoqi Wu, Yifan Yang + 11 more2026-02-26💬 cs.CL

Renaissance: Investigating the Pretraining of Vision-Language Encoders

Este artigo apresenta o framework de avaliação "Renaissance" para investigar práticas de pré-treinamento de codificadores visão-linguagem, demonstrando através de meta-análise que é possível economizar recursos computacionais significativos ao congelar partes do modelo sem prejudicar o desempenho e analisando o impacto de basear transformadores em modelos de visão ou de texto.

Clayton Fields, Casey Kennington2026-02-26💬 cs.CL

Benchmarking Vision-Based Object Tracking for USVs in Complex Maritime Environments

Este estudo propõe e valida um quadro de rastreamento de objetos guiado por visão para veículos de superfície não tripulados (USVs) em ambientes marítimos complexos, demonstrando através de simulações e experimentos reais que o rastreador SeqTrack baseado em Transformers e o controlador LQR oferecem o melhor desempenho e robustez em condições adversas.

Muhayy Ud Din, Ahsan B. Bakht, Waseem Akram + 3 more2026-02-26💻 cs

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

O artigo apresenta o OC-STORM, um framework de aprendizado por reforço baseado em modelos que utiliza representações centradas em objetos e poucas anotações para melhorar a eficiência de amostragem e a previsão de dinâmicas em ambientes visuais complexos, superando métodos existentes em benchmarks como Atari 100k e Hollow Knight.

Weipu Zhang, Adam Jelley, Trevor McInroe + 2 more2026-02-26🤖 cs.LG

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

O artigo apresenta o VOILA, um novo benchmark em larga escala que avalia a capacidade de raciocínio analógico e compreensão perceptiva de Modelos de Linguagem Multimodal (MLLMs), revelando que, apesar de avanços recentes, esses modelos ainda apresentam desempenho significativamente inferior ao humano em tarefas que exigem mapeamento de relações abstratas entre imagens.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo + 4 more2026-02-26💬 cs.CL

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

O artigo apresenta o PD-VLA, um framework inovador de decodificação paralela que acelera significativamente a inferência de modelos Visão-Linguagem-Ação integrados com agrupamento de ações, mantendo o desempenho e permitindo uma execução 2,52 vezes mais rápida sem alterações na arquitetura ou treinamento adicional.

Wenxuan Song, Jiayi Chen, Pengxiang Ding + 9 more2026-02-26💻 cs

Unified Reward Model for Multimodal Understanding and Generation

O artigo apresenta o UnifiedReward, o primeiro modelo de recompensa unificado para avaliação de compreensão e geração multimodal, que, ao aprender conjuntamente diversas tarefas visuais e utilizar uma estratégia de filtragem em duas etapas para alinhamento via DPO, gera benefícios sinérgicos e melhora consistentemente tanto a compreensão quanto a geração de imagens e vídeos.

Yibin Wang, Yuhang Zang, Hao Li + 2 more2026-02-26💻 cs

TRACE: Your Diffusion Model is Secretly an Instance Edge Detector

O artigo apresenta o TRACE, um método que demonstra como modelos de difusão texto-para-imagem contêm naturalmente sinais de bordas de instância em seus mapas de atenção, permitindo a extração de segmentações de alta qualidade sem necessidade de anotações manuais e com uma inferência 81 vezes mais rápida.

Sanghyun Jo, Ziseok Lee, Wooyeol Lee + 3 more2026-02-26💻 cs

Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation

O artigo apresenta o AnyIR, um modelo unificado e eficiente para restauração de imagens que utiliza um mecanismo de incorporação conjunta e uma estratégia de fusão paralela espaço-frequência para alcançar desempenho superior com uma redução drástica de parâmetros e operações, sem depender de modelos de linguagem grandes ou módulos adicionais.

Bin Ren, Eduard Zamfir, Zongwei Wu + 7 more2026-02-26💻 cs

Twin Co-Adaptive Dialogue for Progressive Image Generation

O artigo apresenta o Twin-Co, um framework que utiliza um diálogo co-adaptativo sincronizado para refinar progressivamente a geração de imagens a partir de prompts textuais, resolvendo ambiguidades por meio de interações iterativas com o usuário e melhorando tanto a qualidade do resultado final quanto a experiência do usuário.

Jianhui Wang, Yangfan He, Yan Zhong + 12 more2026-02-26💻 cs

Identifying Memorization of Diffusion Models through $p$ -Laplace Analysis: Estimators, Bounds and Applications

Este trabalho propõe e valida uma abordagem baseada em operadores p-Laplacianos derivados de modelos de difusão para identificar dados de treinamento memorizados, estabelecendo limites teóricos de erro e demonstrando a eficácia do método em modelos de imagem condicionados a texto, especialmente na ausência do texto de condicionamento.

Jonathan Brokman, Itay Gershon, Amit Giloni + 4 more2026-02-26🔢 math

Transformer-based cardiac substructure segmentation from contrast and non-contrast computed tomography for radiotherapy planning

Este estudo demonstra que uma rede híbrida baseada em transformers (SMIT), utilizando aprendizado de currículo balanceado e pré-treinamento, alcança uma segmentação precisa e robusta de subestruturas cardíacas em tomografias computadorizadas com contraste e sem contraste para planejamento de radioterapia, reduzindo significativamente a necessidade de dados anotados em comparação com modelos convencionais como o nnU-Net.

Aneesh Rangnekar, Nikhil Mankuzhy, Jonas Willmann + 5 more2026-02-26⚡ eess

JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

O artigo apresenta o JailBound, um novo framework de jailbreak para Modelos Visão-Linguagem que explora as representações internas das camadas de fusão para mapear e atravessar fronteiras de segurança latentes, superando métodos existentes ao otimizar conjuntamente perturbações em imagens e textos e alcançando taxas de sucesso significativamente superiores.

Jiaxin Song, Yixu Wang, Jie Li + 4 more2026-02-26💻 cs

Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection

O artigo apresenta o PROGRESS, um framework eficiente que otimiza o ajuste de instruções em modelos visão-linguagem selecionando dinamicamente amostras com base no progresso relativo de aprendizado, alcançando desempenho superior com menos dados e custo computacional.

Shivam Chandhok, Qian Yang, Oscar Manas + 3 more2026-02-26🤖 cs.AI

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

O artigo apresenta o LoRA-Edit, um método inovador que utiliza adaptação de baixo rank (LoRA) guiada por máscaras espaciotemporais para permitir edição de vídeo controlada e flexível, garantindo consistência temporal e a capacidade de gerar novos conteúdos ou preservar o original em regiões específicas.

Chenjian Gao, Lihe Ding, Xin Cai + 3 more2026-02-26💻 cs

Capturing Stable HDR Videos Using a Dual-Camera System

Este artigo apresenta uma solução inovadora para a geração de vídeos HDR estáveis, baseada em um sistema de câmeras duplas assíncronas e uma rede de fusão adaptativa à exposição (EAFNet), que supera as limitações de cintilação temporal dos métodos tradicionais de uma única câmera.

Qianyu Zhang, Bolun Zheng, Lingyu Zhu + 4 more2026-02-26⚡ eess

Training-free Mixed-Resolution Latent Upsampling for Spatially Accelerated Diffusion Transformers

Este artigo apresenta o RALU, um framework de aceleração espacial sem treinamento para Transformers de Difusão (DiTs) que utiliza upsampling de latente em resolução mista e adaptativo por região para eliminar artefatos e alcançar ganhos de velocidade significativos com qualidade preservada.

Wongi Jeong, Kyungryeol Lee, Hoigi Seo + 1 more2026-02-26⚡ eess

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

O artigo propõe o PRISM, um novo framework de jailbreak para modelos de linguagem e visão grandes (LVLMs) que, inspirado em técnicas de programação orientada a retorno (ROP), desmonta instruções maliciosas em uma sequência de "gadgets" visuais benignos que, quando combinados pelo raciocínio do modelo, geram conteúdo prejudicial indetectável, alcançando taxas de sucesso de ataque superiores a 90% em benchmarks estabelecidos.

Quanchen Zou, Zonghao Ying, Moyang Chen + 7 more2026-02-26💻 cs

← Anterior Próximo →

cs.CV