cs.CV artigos | Gist.Science

M $^2$ : Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

O artigo apresenta o M $^2$ , um framework livre de treinamento que utiliza um mecanismo de memória dupla, combinando sumarização dinâmica de trajetórias e recuperação de insights, para superar as limitações de tarefas de longo prazo em agentes web, resultando em aumentos significativos nas taxas de sucesso e reduções substanciais no uso de tokens.

Dawei Yan, Haokui Zhang, Guangda Huzhang + 8 more2026-03-03💻 cs

Hierarchical Classification for Improved Histopathology Image Analysis

Este estudo apresenta o HiClass, um framework de classificação hierárquica baseado em aprendizado de múltiplas instâncias que, ao integrar bidirecionalmente características de diferentes níveis e empregar funções de perda personalizadas, supera os métodos de classificação plana na análise de imagens de histopatologia de lâminas inteiras (WSI).

Keunho Byeon, Jinsol Song, Seong Min Hong + 2 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Este trabalho introduz o framework analítico EmbedLens para revelar que os tokens visuais em modelos de linguagem multimodais exibem uma esparsidade semântica significativa, onde apenas cerca de 60% dos tokens "vivos" carregam informações essenciais, demonstrando que a computação visual interna é frequentemente redundante e que a injeção direta desses tokens em camadas intermediárias do LLM é suficiente para tarefas complexas.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

O artigo propõe o MMA-RAG, um sistema de Resposta Visual a Perguntas que utiliza uma análise de representações internas para decidir dinamicamente quando incorporar conhecimento externo recuperado, reduzindo assim as alucinações e melhorando a robustez em cenários multimodais.

Ruoshuang Du, Xin Sun, Qiang Liu + 4 more2026-03-03🤖 cs.LG

MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence

O artigo apresenta o MLLM-4D, um framework inovador que supera as limitações atuais de modelos multimodais na inteligência espaço-temporal 4D ao utilizar um pipeline de curadoria de dados eficiente e uma estratégia de pós-treinamento com GRPO e raciocínio em cadeia especializado, alcançando desempenho de ponta na compreensão e raciocínio de evolução 3D a partir de entradas visuais 2D.

Xingyilang Yin, Chengzhengxu Li, Jiahao Chang + 2 more2026-03-03💻 cs

Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

O artigo apresenta o Vision-TTT, um novo modelo de aprendizado de representação visual que integra a Treinamento no Momento do Teste (TTT) com estratégias bidirecionais e módulos convolucionais para superar a complexidade quadrática dos Transformers, alcançando alta precisão e eficiência computacional superior em tarefas de visão computacional.

Quan Kong, Yanru Xiao, Yuhao Shen + 1 more2026-03-03💻 cs

Jano: Adaptive Diffusion Generation with Early-stage Convergence Awareness

O artigo apresenta o Jano, um framework sem treinamento que acelera a geração de modelos de difusão ao identificar padrões de convergência heterogêneos e alocar recursos computacionais de forma adaptativa, resultando em um aumento de velocidade de até 2,4 vezes sem comprometer a qualidade.

Yuyang Chen, Linqian Zeng, Yijin ZHou + 2 more2026-03-03💻 cs

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

O artigo apresenta o Mesh-Pro, um framework de aprendizado por reforço assíncrono que utiliza a otimização de preferência guiada por vantagem (ARPO) e técnicas de tokenização e recompensa inovadoras para gerar malhas quadradas de alta qualidade com eficiência de treinamento superior aos métodos existentes.

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs

TP-Spikformer: Token Pruned Spiking Transformer

O artigo propõe o TP-Spikformer, um método eficiente e de treinamento livre para poda de tokens em Transformers de Redes Neurais de Espinhos (SNNs) que utiliza um critério heurístico de retenção de informação espaço-temporal e uma estratégia de parada precoce em nível de bloco para reduzir o custo computacional e de armazenamento, mantendo o desempenho competitivo em diversas arquiteturas e tarefas.

Wenjie Wei, Xiaolong Zhou, Malu Zhang + 8 more2026-03-03💻 cs

CaptionFool: Universal Image Captioning Model Attacks

O artigo apresenta o CaptionFool, um ataque adversarial universal capaz de enganar modelos de geração de legendas de imagem de última geração ao modificar apenas uma pequena fração da imagem para forçar a produção de legendas arbitrárias, incluindo conteúdo ofensivo e termos que contornam filtros de moderação.

Swapnil Parekh2026-03-03🤖 cs.AI

RAFM: Retrieval-Augmented Flow Matching for Unpaired CBCT-to-CT Translation

Este artigo apresenta o RAFM, um novo método de tradução não pareada de CBCT para CT que utiliza correspondência de fluxo retificado aprimorada por recuperação para gerar imagens sintéticas de alta qualidade e estáveis, superando os métodos existentes em métricas de avaliação e viabilidade para cálculo de dose em radioterapia.

Xianhao Zhou, Jianghao Wu, Lanfeng Zhong + 4 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

Este estudo propõe o modelo MIMD-3DVT, uma nova abordagem baseada em Vision Transformer 3D que integra múltiplas entradas de imagens de ressonância magnética e dados mistos (demográficos e cognitivos) para superar as limitações dos métodos atuais e alcançar uma precisão de 97,14% na classificação da Doença de Alzheimer.

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

Este trabalho apresenta o M-JudgeBench, um benchmark orientado a capacidades com dez dimensões para avaliar criticamente modelos de julgamento multimodal, e propõe o framework Judge-MCTS para gerar dados de treinamento que resultam no M-Judger, um modelo de julgamento superior que supera os sistemas existentes.

Zeyu Chen, Huanjin Yao, Ziwang Zhao + 1 more2026-03-03🤖 cs.AI

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

O artigo apresenta o LAS-VAD, um novo framework para detecção de anomalias em vídeos com supervisão fraca que supera as limitações atuais ao integrar mecanismos de componentes conectados e raciocínio de intenção, além de utilizar atributos de anomalia para aprimorar a semântica e a precisão da detecção.

Yu Wang, Shengjie Zhao2026-03-03💻 cs

Geometry OR Tracker: Universal Geometric Operating Room Tracking

O artigo apresenta o "Geometry OR Tracker", um pipeline de duas etapas que corrige inconsistências geométricas e de calibração em salas cirúrgicas para permitir um rastreamento 3D robusto e em escala métrica unificada, resultando em ganhos significativos de precisão no benchmark MM-OR.

Yihua Shao, Kang Chen, Feng Xue + 6 more2026-03-03🤖 cs.AI

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

O artigo propõe o MIDAS, um novo framework de jailbreak para Modelos de Linguagem Multimodais (MLLMs) que contorna mecanismos de segurança ao decompor intenções maliciosas em subunidades dispersas por múltiplas imagens e reconstruí-las gradualmente por meio de raciocínio visual cruzado, alcançando uma taxa de sucesso média de 81,46% em modelos fechados de última geração.

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

O artigo propõe o DASP, um novo quadro de adaptação em tempo de teste para modelos multimodais que desacopla estabilidade e plasticidade em componentes assimétricos para mitigar a transferência negativa e o esquecimento catastrófico, superando assim os métodos atuais em diversos benchmarks.

Yongbo He, Zirun Guo, Tao Jin2026-03-03🤖 cs.AI

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

Este trabalho apresenta o MicroVerse, um modelo de geração de vídeo especializado em simulações de microcosmos, fundamentado no benchmark MicroWorldBench e no conjunto de dados MicroSim-10K, para superar as limitações atuais na representação fiel de fenômenos biológicos em escala microscópica.

Rongsheng Wang, Minghao Wu, Hongru Zhou + 4 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

O artigo apresenta o LangGap, um novo benchmark que expõe a incapacidade dos atuais modelos Visão-Linguagem-Ação de compreender instruções linguísticas diversas e demonstra que, embora a augmentação de dados possa melhorar o desempenho em tarefas específicas, a capacidade de aprendizado desses modelos permanece insuficiente para lidar com a diversidade semântica complexa.

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL

UNICBench: UNIfied Counting Benchmark for MLLM

O artigo apresenta o UNICBench, um benchmark unificado e rigoroso com 5.300 imagens, 872 documentos e 2.069 áudios, além de um toolkit de avaliação, para medir e comparar o desempenho de 45 modelos de linguagem multimodais (MLLMs) na tarefa de contagem, revelando lacunas significativas em tarefas complexas de raciocínio.

Chenggang Rong, Tao Han, Zhiyuan Zhao + 5 more2026-03-03💻 cs

← Anterior Próximo →

cs.CV

M2^22: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval