cs.CV artigos | Gist.Science

MSP-ReID: Hairstyle-Robust Cloth-Changing Person Re-Identification

O artigo propõe o framework MSP, que utiliza aumento orientado a penteados, apagamento aleatório preservando roupas e atenção baseada em parsing para mitigar a dependência de características voláteis de cabelo e melhorar a reidentificação de pessoas que mudam de roupa.

Xiangyang He, Lin Wan2026-03-10💻 cs

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

Este artigo apresenta um pipeline baseado em detecção que integra um localizador e um segmentador para extrair com precisão e generalidade a forma de onda da área glótica a partir de videoendoscopia de alta velocidade, permitindo a avaliação clínica robusta de biomarcadores funcionais em tempo real.

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Este artigo propõe um framework robusto que combina a arquitetura híbrida CoAtNet com a técnica de "model soups" para classificar imagens de Patrimônio Cultural Imaterial do Delta do Mekong, alcançando resultados state-of-the-art ao reduzir a variância e melhorar a generalização em cenários com dados limitados.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Este trabalho avalia o modelo de visão DINOv3 como base para tarefas de percepção em robótica de colheita de mirtilos, concluindo que, embora seja eficaz para segmentação graças às suas representações estáveis, seu desempenho em detecção é limitado pela variação de escala e pela dificuldade em modelar aglomerados, sugerindo que ele deve ser utilizado como uma base semântica complementar a modelos espaciais especializados.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Este artigo apresenta o GramCol e o IMAP, métodos que localizam espacial e temporalmente conceitos de movimento e objetos em Transformers de Difusão de Vídeo sem necessidade de cálculo de gradiente ou atualização de parâmetros, oferecendo mapas de saliência interpretáveis para tarefas como segmentação semântica zero-shot.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

O artigo apresenta o CGL, um framework de aprendizado contínuo para agentes de interface gráfica que combina ajuste fino supervisionado e aprendizado por reforço com mecanismos de ajuste dinâmico e cirurgia de gradientes para equilibrar adaptação a novas tarefas e retenção de conhecimento, validado por um novo benchmark chamado AndroidControl-CL.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

Este artigo apresenta o LDP-Slicing, um framework leve e sem treinamento que supera as limitações de utilidade da Privacidade Diferencial Local em imagens ao decompor os pixels em planos de bits e aplicar mecanismos de privacidade diretamente nessa representação binária, resultando em imagens com alta utilidade para tarefas downstream sem comprometer a privacidade rigorosa.

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

O artigo apresenta o DeepScope, uma solução baseada em aprendizado profundo que analisa imagens microscópicas de amostras de água não incubadas para detectar contaminação fecal em segundos com custo de US$ 0,44 e alta precisão, superando os requisitos da UNICEF e eliminando a necessidade de longos períodos de incubação.

Sanjay Srinivasan2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

O artigo apresenta o OptiRoulette, um meta-otimizador estocástico que seleciona dinamicamente regras de atualização durante o treinamento, demonstrando convergência mais rápida e confiável com ganhos significativos de precisão em múltiplos conjuntos de dados de classificação de imagens em comparação ao AdamW.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Este artigo propõe uma representação unificada para modelos de difusão e flow matching, demonstrando teoricamente que a correlação entre os dados ruidosos e o alvo previsto pode ser fraca, o que pode comprometer o processo de aprendizado desses modelos.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

O artigo apresenta o RECAP, uma estratégia de aprendizado bioinspirada que combina dinâmicas de reservatório não treinadas com um mecanismo de leitura de protótipos auto-organizado baseado em Hebbian, permitindo classificação robusta de imagens sem o uso de retropropagação de erro.

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Este artigo revela que a técnica de "unlearning" baseada em poda em modelos de difusão é vulnerável a um ataque de revivescência de conceitos, onde a simples localização dos pesos removidos atua como um canal lateral que permite recuperar informações apagadas sem necessidade de dados ou retreinamento, exigindo assim o desenvolvimento de mecanismos de poda mais seguros que ocultem essas localizações.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

O artigo apresenta o ObjChangeVR, um novo framework e dataset (ObjChangeVR-Dataset) projetados para superar os desafios de detectar mudanças de estado de objetos em ambientes de realidade virtual a partir de visões egocêntricas contínuas, especialmente quando ocorrem sem interação direta do usuário, demonstrando desempenho superior em comparação com abordagens de base.

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Este artigo propõe um framework de consistência de margem com pontuação de fidelidade a perturbações para subtipar adenocarcinoma pulmonar invasivo em imagens de lâminas inteiras, alcançando alta precisão e robustez a variações de imagem e generalização entre instituições.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

O artigo apresenta o PaLMR, um framework que alinha tanto o resultado quanto o processo de raciocínio em modelos multimodais por meio de dados conscientes da percepção e uma fusão hierárquica de recompensas, reduzindo significativamente alucinações e alcançando resultados de ponta em benchmarks de raciocínio visual.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

O artigo apresenta o FCBNet, um modelo eficiente para segmentação de ervas daninhas em imagens aéreas multiespectrais que, ao utilizar um backbone ConvNeXt congelado e um bloco de correção de recursos, supera diversos modelos existentes em precisão (mIoU > 85%) e eficiência computacional, reduzindo os parâmetros treináveis em mais de 90%.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

O artigo apresenta o GameVerse, um benchmark abrangente que demonstra como Modelos Visuais-Linguísticos podem aprimorar suas políticas de jogo através de um ciclo reflexivo que combina a análise de falhas e tutoriais em vídeo, funcionando como uma alternativa sem treinamento ao aprendizado por reforço e ao ajuste fino supervisionado.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

O artigo apresenta o ASMIL, um novo quadro unificado de aprendizado múltiplo de instâncias estabilizado por atenção que supera as limitações de instabilidade dinâmica, superajuste e concentração excessiva em imagens de lâminas inteiras, alcançando melhorias significativas no desempenho em comparação com os métodos mais avançados.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

O artigo apresenta o EnsAug, uma nova abordagem que supera os métodos tradicionais de aumento de dados ao treinar um conjunto de modelos especialistas, cada um focado em uma transformação geométrica distinta, resultando em maior precisão e eficiência na análise de sequências de movimento humano.

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

O artigo apresenta o HyperTokens, um gerador de tokens baseado em transformadores que controla dinamicamente a atualização de prompts em modelos de linguagem multimodal para compreensão contínua de vídeo, utilizando regularizadores inspirados em meta-aprendizado e supervisão auxiliar multimodal para reduzir o esquecimento e melhorar a retenção de tarefas.

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG

← Anterior Próximo →