cs.CV artigos | Gist.Science

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Este trabalho avalia o modelo de visão DINOv3 como base para tarefas de percepção em robótica de colheita de mirtilos, concluindo que, embora seja eficaz para segmentação graças às suas representações estáveis, seu desempenho em detecção é limitado pela variação de escala e pela dificuldade em modelar aglomerados, sugerindo que ele deve ser utilizado como uma base semântica complementar a modelos espaciais especializados.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Este artigo apresenta o GramCol e o IMAP, métodos que localizam espacial e temporalmente conceitos de movimento e objetos em Transformers de Difusão de Vídeo sem necessidade de cálculo de gradiente ou atualização de parâmetros, oferecendo mapas de saliência interpretáveis para tarefas como segmentação semântica zero-shot.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

O artigo apresenta o CGL, um framework de aprendizado contínuo para agentes de interface gráfica que combina ajuste fino supervisionado e aprendizado por reforço com mecanismos de ajuste dinâmico e cirurgia de gradientes para equilibrar adaptação a novas tarefas e retenção de conhecimento, validado por um novo benchmark chamado AndroidControl-CL.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

Este artigo apresenta o LDP-Slicing, um framework leve e sem treinamento que supera as limitações de utilidade da Privacidade Diferencial Local em imagens ao decompor os pixels em planos de bits e aplicar mecanismos de privacidade diretamente nessa representação binária, resultando em imagens com alta utilidade para tarefas downstream sem comprometer a privacidade rigorosa.

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

O artigo apresenta o DeepScope, uma solução baseada em aprendizado profundo que analisa imagens microscópicas de amostras de água não incubadas para detectar contaminação fecal em segundos com custo de US$ 0,44 e alta precisão, superando os requisitos da UNICEF e eliminando a necessidade de longos períodos de incubação.

Sanjay Srinivasan2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

O artigo apresenta o OptiRoulette, um meta-otimizador estocástico que seleciona dinamicamente regras de atualização durante o treinamento, demonstrando convergência mais rápida e confiável com ganhos significativos de precisão em múltiplos conjuntos de dados de classificação de imagens em comparação ao AdamW.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Este artigo propõe uma representação unificada para modelos de difusão e flow matching, demonstrando teoricamente que a correlação entre os dados ruidosos e o alvo previsto pode ser fraca, o que pode comprometer o processo de aprendizado desses modelos.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

O artigo apresenta o RECAP, uma estratégia de aprendizado bioinspirada que combina dinâmicas de reservatório não treinadas com um mecanismo de leitura de protótipos auto-organizado baseado em Hebbian, permitindo classificação robusta de imagens sem o uso de retropropagação de erro.

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Este artigo revela que a técnica de "unlearning" baseada em poda em modelos de difusão é vulnerável a um ataque de revivescência de conceitos, onde a simples localização dos pesos removidos atua como um canal lateral que permite recuperar informações apagadas sem necessidade de dados ou retreinamento, exigindo assim o desenvolvimento de mecanismos de poda mais seguros que ocultem essas localizações.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

O artigo apresenta o ObjChangeVR, um novo framework e dataset (ObjChangeVR-Dataset) projetados para superar os desafios de detectar mudanças de estado de objetos em ambientes de realidade virtual a partir de visões egocêntricas contínuas, especialmente quando ocorrem sem interação direta do usuário, demonstrando desempenho superior em comparação com abordagens de base.

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Este artigo propõe um framework de consistência de margem com pontuação de fidelidade a perturbações para subtipar adenocarcinoma pulmonar invasivo em imagens de lâminas inteiras, alcançando alta precisão e robustez a variações de imagem e generalização entre instituições.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

O artigo apresenta o PaLMR, um framework que alinha tanto o resultado quanto o processo de raciocínio em modelos multimodais por meio de dados conscientes da percepção e uma fusão hierárquica de recompensas, reduzindo significativamente alucinações e alcançando resultados de ponta em benchmarks de raciocínio visual.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

O artigo apresenta o FCBNet, um modelo eficiente para segmentação de ervas daninhas em imagens aéreas multiespectrais que, ao utilizar um backbone ConvNeXt congelado e um bloco de correção de recursos, supera diversos modelos existentes em precisão (mIoU > 85%) e eficiência computacional, reduzindo os parâmetros treináveis em mais de 90%.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

O artigo apresenta o GameVerse, um benchmark abrangente que demonstra como Modelos Visuais-Linguísticos podem aprimorar suas políticas de jogo através de um ciclo reflexivo que combina a análise de falhas e tutoriais em vídeo, funcionando como uma alternativa sem treinamento ao aprendizado por reforço e ao ajuste fino supervisionado.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

O artigo apresenta o ASMIL, um novo quadro unificado de aprendizado múltiplo de instâncias estabilizado por atenção que supera as limitações de instabilidade dinâmica, superajuste e concentração excessiva em imagens de lâminas inteiras, alcançando melhorias significativas no desempenho em comparação com os métodos mais avançados.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

O artigo apresenta o EnsAug, uma nova abordagem que supera os métodos tradicionais de aumento de dados ao treinar um conjunto de modelos especialistas, cada um focado em uma transformação geométrica distinta, resultando em maior precisão e eficiência na análise de sequências de movimento humano.

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

O artigo apresenta o HyperTokens, um gerador de tokens baseado em transformadores que controla dinamicamente a atualização de prompts em modelos de linguagem multimodal para compreensão contínua de vídeo, utilizando regularizadores inspirados em meta-aprendizado e supervisão auxiliar multimodal para reduzir o esquecimento e melhorar a retenção de tarefas.

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

O artigo propõe o Graph-of-Mark (GoM), uma técnica de prompting visual baseada em grafos que sobrepõe grafos de cena às imagens para melhorar o raciocínio espacial e a capacidade de localização de modelos de linguagem multimodais, superando as limitações de métodos anteriores ao capturar explicitamente as relações entre os objetos.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Este artigo apresenta um sistema de inferência otimizado para modelos de geração de vídeo baseados em DiT, que utiliza codificação posicional 3D sequencial-paralela com um índice de tempo global para reduzir o consumo de memória e a latência, permitindo a geração de vídeos em tempo real com qualidade comparável.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

O artigo demonstra que, em tarefas médicas de visão e linguagem, o raciocínio passo a passo (Chain-of-Thought) frequentemente performa pior que respostas diretas devido a um gargalo de percepção médica, mas propõe intervenções de ancoragem perceptiva e fundamentação descritiva para mitigar esse problema e melhorar a precisão dos modelos.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

← Anterior Próximo →