DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Este trabalho avalia o modelo de visão DINOv3 como base para tarefas de percepção em robótica de colheita de mirtilos, concluindo que, embora seja eficaz para segmentação graças às suas representações estáveis, seu desempenho em detecção é limitado pela variação de escala e pela dificuldade em modelar aglomerados, sugerindo que ele deve ser utilizado como uma base semântica complementar a modelos espaciais especializados.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Este artigo apresenta o GramCol e o IMAP, métodos que localizam espacial e temporalmente conceitos de movimento e objetos em Transformers de Difusão de Vídeo sem necessidade de cálculo de gradiente ou atualização de parâmetros, oferecendo mapas de saliência interpretáveis para tarefas como segmentação semântica zero-shot.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

O artigo apresenta o CGL, um framework de aprendizado contínuo para agentes de interface gráfica que combina ajuste fino supervisionado e aprendizado por reforço com mecanismos de ajuste dinâmico e cirurgia de gradientes para equilibrar adaptação a novas tarefas e retenção de conhecimento, validado por um novo benchmark chamado AndroidControl-CL.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

Este artigo apresenta o LDP-Slicing, um framework leve e sem treinamento que supera as limitações de utilidade da Privacidade Diferencial Local em imagens ao decompor os pixels em planos de bits e aplicar mecanismos de privacidade diretamente nessa representação binária, resultando em imagens com alta utilidade para tarefas downstream sem comprometer a privacidade rigorosa.

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Este artigo revela que a técnica de "unlearning" baseada em poda em modelos de difusão é vulnerável a um ataque de revivescência de conceitos, onde a simples localização dos pesos removidos atua como um canal lateral que permite recuperar informações apagadas sem necessidade de dados ou retreinamento, exigindo assim o desenvolvimento de mecanismos de poda mais seguros que ocultem essas localizações.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

O artigo apresenta o ObjChangeVR, um novo framework e dataset (ObjChangeVR-Dataset) projetados para superar os desafios de detectar mudanças de estado de objetos em ambientes de realidade virtual a partir de visões egocêntricas contínuas, especialmente quando ocorrem sem interação direta do usuário, demonstrando desempenho superior em comparação com abordagens de base.

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Este artigo propõe um framework de consistência de margem com pontuação de fidelidade a perturbações para subtipar adenocarcinoma pulmonar invasivo em imagens de lâminas inteiras, alcançando alta precisão e robustez a variações de imagem e generalização entre instituições.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

O artigo apresenta o PaLMR, um framework que alinha tanto o resultado quanto o processo de raciocínio em modelos multimodais por meio de dados conscientes da percepção e uma fusão hierárquica de recompensas, reduzindo significativamente alucinações e alcançando resultados de ponta em benchmarks de raciocínio visual.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

O artigo apresenta o GameVerse, um benchmark abrangente que demonstra como Modelos Visuais-Linguísticos podem aprimorar suas políticas de jogo através de um ciclo reflexivo que combina a análise de falhas e tutoriais em vídeo, funcionando como uma alternativa sem treinamento ao aprendizado por reforço e ao ajuste fino supervisionado.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

O artigo apresenta o ASMIL, um novo quadro unificado de aprendizado múltiplo de instâncias estabilizado por atenção que supera as limitações de instabilidade dinâmica, superajuste e concentração excessiva em imagens de lâminas inteiras, alcançando melhorias significativas no desempenho em comparação com os métodos mais avançados.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

O artigo apresenta o HyperTokens, um gerador de tokens baseado em transformadores que controla dinamicamente a atualização de prompts em modelos de linguagem multimodal para compreensão contínua de vídeo, utilizando regularizadores inspirados em meta-aprendizado e supervisão auxiliar multimodal para reduzir o esquecimento e melhorar a retenção de tarefas.

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG