cs.CV artigos | Gist.Science

A Boundary-Metric Evaluation Protocol for Whiteboard Stroke Segmentation Under Extreme Imbalance

Este artigo propõe um protocolo de avaliação que integra métricas de fronteira e análise de equidade entre subconjuntos de traços finos para demonstrar que, em cenários de desequilíbrio extremo na segmentação de lousas brancas, modelos aprendidos com funções de perda baseadas em sobreposição e resolução aumentada superam métodos clássicos ao oferecer maior confiabilidade nos casos mais difíceis, apesar de métricas de média favoráveis a estes últimos.

Nicholas Korcynski2026-03-03🤖 cs.LG

ConFoThinking: Consolidated Focused Attention Driven Thinking for Visual Question Answering

O artigo apresenta o ConFoThinking, um framework que aprimora a Resposta Visual a Perguntas (VQA) em Modelos de Linguagem Multimodais ao consolidar sinais de atenção dispersos em uma camada intermediária e utilizar dicas semânticas concisas para localizar e focar em regiões relevantes, superando as limitações de métodos anteriores baseados em ferramentas de ancoragem ou atenção fragmentada.

Zhaodong Wu, Haochen Xue, Qi Cao + 5 more2026-03-03💻 cs

Exploring the AI Obedience: Why is Generating a Pure Color Image Harder than CyberPunk?

Este artigo aborda o "Paradoxo da Simplicidade" na IA generativa, propondo um framework de obediência hierárquica e o benchmark VIOLIN para avaliar e identificar as limitações dos modelos atuais na geração precisa de cores puras, apesar de sua capacidade em criar cenas complexas.

Hongyu Li, Kuan Liu, Yuan Chen + 6 more2026-03-03🤖 cs.AI

Image-Based Classification of Olive Species Specific to Turkiye with Deep Neural Networks

Este estudo demonstra que o uso de redes neurais convolucionais, especificamente o modelo EfficientNetB0 com aprendizado por transferência, permite classificar com alta precisão (94,5%) cinco espécies locais de oliveira cultivadas na Turquia a partir de imagens capturadas por câmera estéreo, oferecendo uma solução eficaz para identificação automática e controle de qualidade na agricultura.

Irfan Atabas, Hatice Karatas2026-03-03💻 cs

Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model

O artigo descreve a criação do modelo de vídeo Summer-22B, detalhando os desafios de engenharia e as lições aprendidas ao escalar o treinamento para 50 milhões de clipes, com ênfase na curadoria de dados orientada por metadados, filtragem multiestágio e otimização com restrições geométricas.

Simo Ryu, Chunghwan Han2026-03-03🤖 cs.LG

Efficient Long-Horizon GUI Agents via Training-Free KV Cache Compression

O artigo propõe o ST-Lite, um framework de compressão de cache KV sem treinamento que, ao explorar a esparsidade uniforme e as dependências espaço-trajetória específicas de agentes de GUI, alcança uma aceleração de decodificação de 2,45x mantendo o desempenho com apenas 10-20% do orçamento de cache.

Bowen Zhou, Zhou Xu, Wanli Li + 2 more2026-03-03🤖 cs.LG

Task-Driven Subspace Decomposition for Knowledge Sharing and Isolation in LoRA-based Continual Learning

O artigo propõe o LoDA, um método de Aprendizado Contínuo baseado em LoRA que utiliza decomposição de subespaço orientada por tarefas e otimização alinhada a gradientes para separar eficazmente direções de compartilhamento e isolamento de conhecimento, superando as limitações de métodos anteriores ao capturar tanto direções compartilhadas quanto específicas de forma robusta.

Lingfeng He, De Cheng, Huaijie Wang + 3 more2026-03-03🤖 cs.LG

SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models

O artigo apresenta o SKeDA, um framework de marcação d'água generativa para modelos de difusão texto-para-vídeo que supera as limitações de sincronização e distorções temporais através de uma amostragem baseada em permutação de chaves e um mecanismo de atenção diferencial, garantindo alta fidelidade e robustez na extração da marca.

Yang Yang, Xinze Zou, Zehua Ma + 2 more2026-03-03🤖 cs.AI

A Case Study on Concept Induction for Neuron-Level Interpretability in CNN

Este estudo de caso demonstra que a abordagem de indução de conceitos para interpretação de neurônios em CNNs, anteriormente validada no conjunto de dados ADE20K, generaliza-se com sucesso para o benchmark de reconhecimento de cenas SUN2012, confirmando sua aplicabilidade mais ampla.

Moumita Sen Sarma, Samatha Ereshi Akkamahadevi, Pascal Hitzler2026-03-03🤖 cs.AI

Stateful Token Reduction for Long-Video Hybrid VLMs

O artigo propõe um método de redução progressiva de tokens, do baixo ao alto, com uma pontuação unificada sensível à linguagem para arquiteturas híbridas de VLMs de vídeo longo, alcançando acelerações significativas no pré-preenchimento sem sacrificar a precisão.

Jindong Jiang, Amala Sanjay Deshmukh, Kateryna Chumachenko + 7 more2026-03-03🤖 cs.AI

AdURA-Net: Adaptive Uncertainty and Region-Aware Network

O artigo propõe a AdURA-Net, uma rede neural adaptativa baseada em geometria e aprendizado evidencial que utiliza convoluções dilatadas e uma perda de dupla cabeça para melhorar a classificação de doenças torácicas em conjuntos de dados multilabel, permitindo que o modelo identifique e lide adequadamente com incertezas diagnósticas em cenários clínicos de alto risco.

Antik Aich Roy, Ujjwal Bhattacharya2026-03-03🤖 cs.AI

Optimisation of SOUP-GAN and CSR-GAN for High Resolution MR Images Reconstruction

Esta pesquisa otimiza os modelos SOUP-GAN e CSR-GAN através de modificações arquitetônicas e ajustes de hiperparâmetros para aprimorar a reconstrução de imagens de ressonância magnética de alta resolução, demonstrando que o CSR-GAN se destaca em detalhes de alta frequência e redução de ruído, enquanto o SOUP-GAN oferece imagens com menos ruído e melhor estrutura, ambos contribuindo para diagnósticos médicos mais precisos.

Muneeba Rashid, Hina Shakir, Humaira Mehwish + 2 more2026-03-03⚡ eess

Efficient Flow Matching for Sparse-View CT Reconstruction

Este artigo propõe o framework FMCT e sua variante eficiente EFMCT, que utilizam Flow Matching determinístico e a reutilização de campos de velocidade para reconstruir imagens de CT a partir de poucas vistas com maior eficiência computacional e qualidade competitiva em comparação aos métodos baseados em difusão.

Jiayang Shi, Lincen Yang, Zhong Li + 3 more2026-03-03⚡ eess

TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

O artigo apresenta o TACIT, um novo benchmark programático de raciocínio visual que avalia modelos generativos e discriminativos em seis domínios através de tarefas com verificação determinística e distratores estruturalmente plausíveis, eliminando a dependência de prompts de linguagem natural e pontuação subjetiva.

Daniel Nobrega Medeiros2026-03-03🤖 cs.AI

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

O artigo apresenta o VisRef, um framework de escalonamento em tempo de teste que melhora o raciocínio em modelos multimodais ao re-injetar dinamicamente um conjunto representativo de tokens visuais semanticamente relevantes, superando abordagens anteriores sem a necessidade de ajuste fino baseado em aprendizado por reforço.

Soumya Suvra Ghosal, Youngeun Kim, Zhuowei Li + 6 more2026-03-03🤖 cs.AI

Physical Evaluation of Naturalistic Adversarial Patches for Camera-Based Traffic-Sign Detection

Este artigo avalia a eficácia de Patches Adversariais Naturalistas (NAPs) na redução da confiança de detecção de sinais de trânsito em um ambiente físico, utilizando um conjunto de dados personalizado (CompGTSRB) para treinar um modelo YOLOv5 e validando os resultados em um banco de testes Quanser QCar.

Brianna D'Urso, Tahmid Hasan Sakib, Syed Rafay Hasan + 1 more2026-03-03🤖 cs.AI

Pretty Good Measurement for Radiomics: A Quantum-Inspired Multi-Class Classifier for Lung Cancer Subtyping and Prostate Cancer Risk Stratification

Este artigo apresenta um classificador multi-classe inspirado na medição "Pretty Good" (PGM) da teoria quântica para radiômica, demonstrando sua eficácia competitiva e superioridade em tarefas de subtipagem de câncer de pulmão e estratificação de risco de câncer de próstata em comparação com métodos clássicos estabelecidos.

Giuseppe Sergioli, Carlo Cuccu, Giovanni Pasini + 4 more2026-03-03⚛️ quant-ph

Scaling Quantum Machine Learning without Tricks: High-Resolution and Diverse Image Generation

Este artigo apresenta um marco na geração de imagens quânticas ao demonstrar, sem truques de redução de dimensionalidade, que um único gerador quântico de GANs de Wasserstein, impulsionado por circuitos variacionais com viés indutivo e técnicas de ruído aprimoradas, consegue produzir imagens de alta resolução e diversas dos conjuntos de dados MNIST, Fashion-MNIST e Street View House Numbers, estabelecendo um novo estado da arte.

Jonas Jäger, Florian J. Kiwit, Carlos A. Riofrío2026-03-03⚛️ quant-ph

Adversarial Patch Generation for Visual-Infrared Dense Prediction Tasks via Joint Position-Color Optimization

Este artigo propõe o framework AP-PCO, que otimiza conjuntamente a posição e a cor de patches adversariais para atacar sistemas de previsão densa visível-infravermelho, superando as inconsistências espectrais e garantindo eficácia em cenários de caixa preta.

He Li, Wenyue He, Weihang Kong + 1 more2026-03-03💻 cs

Ozone Cues Mitigate Reflected Downwelling Radiance in LWIR Absorption-Based Ranging

Este artigo apresenta dois novos métodos de alcance passivo no infravermelho de onda longa (LWIR) que utilizam características de absorção de ozônio para estimar e mitigar a radiação refletida, reduzindo drasticamente os erros de medição de mais de 100 metros para 6,8 metros (método quadspectral) e 1,2 metro (método hiperespectral).

Unay Dorken Gallastegi, Wentao Shangguan, Vaibhav Choudhary + 4 more2026-03-03⚡ eess

← Anterior Próximo →