cs.CV artigos | Gist.Science

Counterfactual Explanations on Robust Perceptual Geodesics

Este artigo apresenta o Perceptual Counterfactual Geodesics (PCG), um método que gera explicações contrafactuais semântica e visualmente válidas traçando geodésicas em um espaço latente com métrica riemanniana perceptual, superando as limitações de abordagens existentes que produzem artefatos fora da variedade ou colapsos adversariais.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

O artigo apresenta o Vision-DeepResearch, um novo paradigma para Modelos de Linguagem Multimodal (MLLMs) que, por meio de treinamento supervisionado e por reforço, internaliza capacidades de pesquisa profunda multi-turno e multi-escala para superar ruído visual e resolver questões complexas, superando tanto modelos existentes quanto fluxos de trabalho baseados em fundações proprietárias de ponta.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Este artigo propõe um novo paradigma para detecção de anomalias baseado na compatibilidade entre sujeito e contexto, introduzindo o benchmark CAAD-3K e um framework de aprendizado que supera os métodos existentes ao modelar anomalias como dependências contextuais em vez de propriedades intrínsecas.

Shashank Mishra, Didier Stricker, Jason Rambach2026-03-03🤖 cs.LG

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

Este trabalho apresenta o HitEmotion, um benchmark hierárquico baseado na Teoria da Mente, juntamente com uma cadeia de raciocínio guiada e o método de aprendizado por reforço TMPO, para diagnosticar e aprimorar a capacidade de raciocínio emocional profundo em modelos de linguagem multimodais.

Meng Luo, Bobo Li, Shanqing Xu + 8 more2026-03-03💻 cs

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Este artigo propõe um novo método de quantização pós-treinamento para modelos de difusão que otimiza a atribuição de pesos às amostras de calibração para alinhar os gradientes entre os diferentes timesteps, superando as limitações das abordagens uniformes existentes e melhorando significativamente a eficiência e a qualidade da geração de imagens.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

O artigo apresenta o CaCoVID, um novo algoritmo de compressão de tokens para modelos de linguagem grandes em vídeo que utiliza aprendizado por reforço para otimizar ativamente a seleção de tokens com base em sua contribuição direta para respostas corretas, superando as limitações dos métodos tradicionais baseados em scores de atenção.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

O artigo apresenta o CloDS, um quadro de aprendizado não supervisionado que utiliza observações visuais multiview e uma técnica de splatting gaussiano baseada em malha para aprender a dinâmica de tecidos em condições desconhecidas sem depender de propriedades físicas pré-definidas.

Yuliang Zhan, Jian Li, Wenbing Huang + 3 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Este artigo apresenta o VDR-Bench, um novo benchmark de 2.000 instâncias projetado para superar as limitações de avaliações anteriores ao focar em cenários realistas de pesquisa visual e textual para Modelos de Linguagem Multimodal, além de propor um fluxo de trabalho de busca com recortes múltiplos que melhora significativamente o desempenho desses sistemas.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

Investigating Disability Representations in Text-to-Image Models

Este estudo investiga as representações de pessoas com deficiência em modelos de geração de imagens por texto, como o Stable Diffusion XL e o DALL-E 3, revelando desequilíbrios persistentes e destacando a necessidade de avaliação contínua e refinamento para promover retratos mais diversos e inclusivos.

Yang Tian, Yu Fan, Liudmila Zavolokina + 1 more2026-03-03💬 cs.CL

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

O artigo apresenta o RFDM, um modelo de edição de vídeo causal e eficiente que utiliza um processo de difusão de fluxo residual para editar vídeos de comprimento variável quadro a quadro com o custo computacional de modelos de imagem, superando métodos baseados em I2I e competindo com modelos V2V 3D completos.

Mohammadreza Salehi, Mehdi Noroozi, Luca Morreale + 4 more2026-03-03💻 cs

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Este estudo compara cinco modelos de reconstrução 3D a partir de imagens 2D, demonstrando que, embora todos enfrentem limitações fundamentais de sobreposição volumétrica devido à ambiguidade de profundidade em dados médicos, o SAM 3D destaca-se por capturar melhor a similaridade topológica, evidenciando a necessidade de adaptação específica ao domínio para reconstruções médicas confiáveis.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

O artigo apresenta o EchoTorrent, um novo esquema de geração de vídeo multimodal em streaming que supera os desafios de latência e estabilidade temporal através de uma arquitetura inovadora combinando treinamento multi-professor, calibração adaptativa de CFG, forçamento híbrido de cauda longa e refinamento do decodificador VAE, resultando em uma geração rápida, consistente e sincronizada com áudio.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

Este artigo apresenta o GPEReg-Net, uma rede neural que resolve o registro de imagens entre domínios distintos através da fatoração da representação da cena e da aparência, eliminando a necessidade de estimar campos de deformação explícitos e alcançando desempenho superior e maior velocidade em benchmarks de retina e texturas sintéticas.

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

O artigo apresenta o OmniCT, um modelo unificado de visão e linguagem para análise de tomografia computadorizada que integra características de fatias e volumes para superar as limitações existentes na consistência espacial e granularidade, oferecendo desempenho superior em tarefas clínicas e estabelecendo um novo paradigma para a compreensão de imagens médicas.

Tianwei Lin, Zhongwei Qiu, Wenqiao Zhang + 12 more2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

O artigo apresenta o Prefer-DAS, um modelo inovador de segmentação adaptativa de domínio para microscopia eletrônica que supera as limitações das estratégias não supervisionadas ao integrar prompts esparsos e otimização de preferência local, alcançando desempenho superior ou comparável a modelos supervisionados com mínima anotação humana.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

O artigo apresenta o Hepato-LLaVA, um modelo de linguagem multimodal especializado que utiliza um mecanismo de atenção "Sparse Topo-Pack" para analisar imagens de lâminas inteiras de carcinoma hepatocelular com alta precisão, apoiado pelo novo conjunto de dados clínico HepatoPathoVQA.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

Este artigo apresenta um modelo explicativo para segmentação de imagens médicas baseado em raciocínio causal, que utiliza o efeito médio do tratamento (ATE) para quantificar a influência de regiões de entrada e componentes da rede, demonstrando maior fidelidade nas explicações e revelando heterogeneidade nas estratégias perceptivas de diferentes modelos.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

O artigo propõe o Dataset Color Quantization (DCQ), um quadro unificado que comprime conjuntos de dados de imagem ao reduzir a redundância no espaço de cores enquanto preserva informações semanticamente importantes para o treinamento de modelos, demonstrando melhor desempenho em diversas bases de dados sob compressão agressiva.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Este trabalho propõe o Visual Instruction Injection (VII), um framework de jailbreak sem treinamento e transferível que explora a capacidade de seguir instruções visuais em modelos de geração de imagem para vídeo, disfarçando intenções maliciosas de prompts de texto inseguros como instruções visuais benignas em imagens de referência para induzir a geração de conteúdo nocivo com alta taxa de sucesso.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

O artigo apresenta o HorizonForge, um framework unificado que utiliza Splats Gaussianos e Malhas combinados com difusão de vídeo para gerar cenas de direção fotorealistas e editáveis com controle preciso sobre trajetórias e veículos, superando os métodos existentes em fidelidade e consistência temporal.

Yifan Wang, Francesco Pittaluga, Zaid Tasneem + 3 more2026-03-03💻 cs

← Anterior Próximo →