cs.CV artigos | Gist.Science

Not All Pixels Are Equal: Confidence-Guided Attention for Feature Matching

Este artigo propõe um mecanismo de atenção guiada por confiança que aprimora o casamento de características semi-densas ao adaptar dinamicamente os pesos de atenção e as características de valor com base em mapas de confiança, eliminando assim ruídos de regiões irrelevantes e superando os métodos mais avançados existentes.

Dongyue Li2026-02-24💻 cs

GRILL: Restoring Gradient Signal in Ill-Conditioned Layers for More Effective Adversarial Attacks on Autoencoders

O artigo apresenta o GRILL, uma técnica que restaura os sinais de gradiente em camadas mal condicionadas de autoencodificadores, permitindo ataques adversariais mais eficazes e uma avaliação mais rigorosa da robustez desses modelos e de arquiteturas multimodais similares.

Chethan Krishnamurthy Ramanaik, Arjun Roy, Tobias Callies + 1 more2026-02-24🤖 cs.AI

Feature Representation Transferring to Lightweight Models via Perception Coherence

Este artigo propõe um método de transferência de representação de recursos para modelos leves baseado no conceito de "coerência de percepção", que utiliza um novo função de perda probabilística para alinhar as classificações de dissimilaridade dos dados entre o professor e o aluno, permitindo que o modelo menor aprenda a percepção global do professor sem precisar preservar sua geometria absoluta.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding

O artigo apresenta o U2-BENCH, o primeiro benchmark abrangente para avaliar modelos de linguagem e visão grandes (LVLMs) na compreensão de imagens de ultrassom, revelando que, embora esses modelos tenham bom desempenho em classificação de imagens, ainda enfrentam desafios significativos em raciocínio espacial e geração de linguagem clínica.

Anjie Le, Henan Liu, Yue Wang + 18 more2026-02-24🤖 cs.LG

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

O artigo apresenta o TEMU-VTOFF, um novo framework baseado em DiT que utiliza informações multimodais (imagem, texto e máscara) para superar as limitações de ambiguidade e perda de detalhes nos métodos existentes, gerando imagens padronizadas de produtos de vestuário a partir de fotos de pessoas vestidas com alta fidelidade e realismo.

Davide Lobba, Fulvio Sanguigni, Bin Ren + 3 more2026-02-24💻 cs

Fine-Grained Motion Compression and Selective Temporal Fusion for Neural B-Frame Video Coding

Este artigo propõe um novo codec de vídeo neural para quadros B que introduz compressão de movimento de alta granularidade e fusão temporal seletiva, alcançando reduções significativas na taxa de bits em comparação com métodos anteriores e desempenho competitivo em relação ao padrão H.266/VVC.

Xihua Sheng, Peilin Chen, Meng Wang + 3 more2026-02-24⚡ eess

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Este artigo apresenta a Distância de Características de Percepção (PCD), uma nova métrica que incorpora a incerteza dos modelos para avaliar a estabilidade e robustez de sistemas de direção autônoma em condições dinâmicas, validada através do novo conjunto de dados SensorRainFall que demonstra a superioridade da métrica sobre os métodos tradicionais em diferentes cenários climáticos e de iluminação.

Boyu Jiang, Liang Shi, Zhengzhi Lin + 3 more2026-02-24📊 stat

See-in-Pairs: Reference Image-Guided Comparative Vision-Language Models for Medical Diagnosis

Este trabalho demonstra que a incorporação de imagens de referência saudáveis e prompts comparativos em modelos de visão e linguagem médica, potencializada por um ajuste fino supervisionado leve, melhora significativamente o desempenho diagnóstico ao alinhar melhor as representações visuais e textuais e aumentar a eficiência amostral.

Ruinan Jin, Gexin Huang, Xinwei Shen + 3 more2026-02-24💻 cs

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Este trabalho propõe um novo framework de reconstrução hiperespectral a partir de múltiplas imagens (MI-HSR) que utiliza um sistema de três câmeras de smartphone com filtros espectrais e um módulo de alinhamento leve para superar as limitações de abordagens de imagem única, resultando em estimativas espectrais 30% mais precisas e um aumento de 5% na qualidade de reconstrução, apoiado pelo lançamento do primeiro dataset específico para essa tarefa.

Daniil Reutsky, Daniil Vladimirov, Yasin Mamedov + 4 more2026-02-24💻 cs

Exploring Partial Multi-Label Learning via Integrating Semantic Co-occurrence Knowledge

Este artigo apresenta o SCINet, uma nova estrutura para aprendizado multirrotulado parcial que supera os métodos mais recentes ao integrar conhecimento semântico de co-ocorrência por meio de um prompter bi-dominante, um módulo de fusão cruzada e uma estratégia de aumento semântico intrínseco para lidar eficazmente com dados incompletamente anotados.

Xin Wu, Fei Teng, Yue Feng + 4 more2026-02-24🤖 cs.AI

MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second

O MoVieS é um modelo de síntese de visão que reconstrói cenas dinâmicas 4D a partir de vídeos monoculares em um segundo, unificando a modelagem de aparência, geometria e movimento em um único framework que permite reconstrução, síntese de novas vistas e rastreamento de pontos 3D com alta eficiência e suporte a aplicações zero-shot.

Chenguo Lin, Yuchen Lin, Panwang Pan + 5 more2026-02-24💻 cs

Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

O artigo apresenta o Winsor-CAM, um método eficiente e ajustável pelo usuário que gera explicações visuais robustas para redes neurais convolucionais ao agregar mapas de gradiente de todas as camadas e aplicar Winsorização percentilada para atenuar contribuições de outliers, superando consistentemente técnicas existentes em métricas de localização e fidelidade em tarefas de visão computacional e médica.

Casey Wall, Longwei Wang, Rodrigue Rizk + 1 more2026-02-24🤖 cs.AI

DEFNet: Multitasks-based Deep Evidential Fusion Network for Blind Image Quality Assessment

O artigo propõe o DEFNet, uma Rede de Fusão Profunda Baseada em Evidências Multitarefa que aprimora a Avaliação de Qualidade de Imagem Cega (BIQA) através da integração de tarefas auxiliares, uma estratégia de fusão de informações confiável e estimativa de incerteza avançada, demonstrando robustez e generalização em diversos conjuntos de dados.

Yiwei Lou, Yuanpeng He, Rongchao Zhang + 3 more2026-02-24⚡ eess

LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks

O artigo apresenta o LRR-Bench, um benchmark sintético que avalia a compreensão espacial de modelos visão-linguagem, revelando que, embora humanos alcancem desempenho quase perfeito, os modelos atuais ainda lutam significativamente com tarefas que envolvem posições absolutas e movimentos 3D.

Fei Kong, Jinhao Duan, Kaidi Xu + 3 more2026-02-24🤖 cs.AI

Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

O artigo apresenta o Follow-Your-Shape, um framework sem treinamento e sem máscaras que utiliza um Mapa de Divergência de Trajetória e injeção programada de KV para realizar edições precisas de forma de objetos preservando o conteúdo de fundo, além de introduzir o ReShapeBench para avaliação rigorosa dessa tarefa.

Zeqian Long, Mingzhe Zheng, Kunyu Feng + 6 more2026-02-24💻 cs

Real-Time Sign Language Gestures to Speech Transcription using Deep Learning

Este projeto apresenta um sistema de aprendizado profundo em tempo real que utiliza redes neurais convolucionais para traduzir gestos de língua de sinais capturados por webcam em texto e fala, visando superar barreiras de comunicação para pessoas com deficiência auditiva e vocal.

Brandone Fonya, Clarence Worrell2026-02-24💻 cs

Collaborative Multi-Modal Coding for High-Quality 3D Generation

O artigo apresenta o TriMM, o primeiro modelo generativo 3D nativo de alimentação direta que utiliza codificação multi-modal colaborativa e supervisão auxiliar para gerar ativos 3D de alta qualidade, combinando eficazmente as vantagens de texturas RGB e geometrias de nuvens de pontos mesmo com conjuntos de dados de treinamento limitados.

Ziang Cao, Zhaoxi Chen, Liang Pan + 1 more2026-02-24💻 cs

FLUID: A Fine-Grained Lightweight Urban Signalized-Intersection Dataset of Dense Conflict Trajectories

Este artigo apresenta o FLUID, um novo conjunto de dados de trajetórias de tráfego de alta fidelidade e um framework leve para processamento via drone, focado em conflitos densos em cruzamentos urbanos sinalizados para apoiar pesquisas em comportamento de tráfego e direção autônoma.

Yiyang Chen, Zhigang Wu, Guohong Zheng + 5 more2026-02-24💻 cs

Decoding Tourist Perception in Historic Urban Quarters with Multimodal Social Media Data: An AI-Based Framework and Evidence from Shanghai

Este estudo propõe um quadro baseado em IA que integra dados multimodais de mídia social para decodificar a percepção turística em bairros históricos de Xangai, revelando lacunas entre a realidade física e a representação visual online para orientar o planejamento urbano e a gestão do patrimônio.

Kaizhen Tan, Yufan Wu, Yuxuan Liu + 1 more2026-02-24🤖 cs.AI

MOGS: Monocular Object-guided Gaussian Splatting in Large Scenes

O MOGS é um framework de Gaussian Splatting 3D monocular para grandes cenas que substitui sensores LiDAR caros por profundidade densa metrizada derivada de pistas visuais-inerciais e priores de forma de objetos, reduzindo significativamente o tempo de treinamento e o consumo de memória enquanto mantém qualidade de renderização competitiva.

Shengkai Zhang, Yuhe Liu, Jianhua He + 3 more2026-02-24💻 cs

← Anterior Próximo →