SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking

O artigo apresenta o SiamGM, uma rede Siamesa inovadora que combina atenção gráfica interquadro e orientação por vetores de movimento para rastrear objetos em vídeos de satélite em tempo real, superando desafios como alvos pequenos e oclusões com alta precisão e sem sobrecarga computacional.

Zixiao Wen, Zhen Yang, Jiawei Li, Xiantai Xiang, Guangyao Zhou, Yuxin Hu, Yuhan Liu2026-03-10💻 cs

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

O artigo propõe a GRD-Net, uma nova arquitetura que combina uma Rede Adversarial Generativa baseada em autoencoder residual com um módulo de atenção para regiões de interesse, visando detectar e localizar anomalias em produtos industriais de forma mais precisa e generalizável, eliminando a dependência de algoritmos de pós-processamento tradicionais.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

Este artigo apresenta um modelo eficiente de compreensão de cenas RGB-D que utiliza aprendizado adaptativo multi-tarefa e orientação de características entre dimensões para superar limitações tradicionais, alcançando desempenho superior em precisão e velocidade em tarefas como segmentação semântica, de instâncias e classificação de cenas.

Guodong Sun, Junjie Liu, Gaoyang Zhang, Bo Wu, Yang Zhang2026-03-10💻 cs

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Este artigo apresenta uma comparação sistemática de quatro objetivos de treinamento (Perda de Entropia Cruzada, Perda de Protótipos, Perda de Tripletos e Perda de Precisão Média) para detecção de dados fora de distribuição, concluindo que a Perda de Entropia Cruzada oferece o desempenho mais consistente em cenários de distribuição próxima e distante, mantendo precisão competitiva em dados dentro da distribuição.

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

Este artigo apresenta um framework semi-supervisionado de detecção de anomalias baseado em uma arquitetura generativa adversarial com autoencoder residual, projetado para inspeção visual online em alta velocidade na produção farmacêutica, demonstrando alta precisão e localização espacial dentro das restrições de tempo de ciclo de uma linha Blow-Fill-Seal.

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

3DGS-HPC: Distractor-free 3D Gaussian Splatting with Hybrid Patch-wise Classification

O artigo apresenta o 3DGS-HPC, um novo framework que melhora a síntese de novas vistas e a reconstrução de cenas 3D ao mitigar distratores transitórios em ambientes reais através de uma estratégia de classificação por patches e uma métrica híbrida que integra cues fotométricas e perceptuais, superando as limitações dos métodos baseados em semântica pré-treinada.

Jiahao Chen, Yipeng Qin, Ganlong Zhao, Xin Li, Wenping Wang, Guanbin Li2026-03-10💻 cs

Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints

Este artigo apresenta o StructAttack, um framework de jailbreak que explora a vulnerabilidade de preenchimento de slots semânticos em Modelos Visuais-Linguísticos (LVLMs), utilizando prompts visuais estruturados e slots aparentemente benignos para recompor e gerar respostas maliciosas sem acionar mecanismos de segurança.

Chenxi Li, Xianggan Liu, Dake Shen, Yaosong Du, Zhibo Yao, Hao Jiang, Linyi Jiang, Chengwei Cao, Jingzhe Zhang, RanYi Peng, Peiling Bai, Xiande Huang2026-03-10🤖 cs.LG

Fast Attention-Based Simplification of LiDAR Point Clouds for Object Detection and Classification

Este artigo propõe um método de simplificação de nuvens de pontos LiDAR baseado em atenção e aprendizado, que supera o compromisso tradicional entre velocidade e precisão ao priorizar regiões relevantes para tarefas, mantendo ou melhorando a acurácia em detecção e classificação de objetos enquanto é mais rápido que o método de amostragem por pontos mais distantes (FPS).

Z. Rozsa, Á. Madaras, Q. Wei, X. Lu, M. Golarits, H. Yuan, T. Sziranyi, R. Hamzaoui2026-03-10💻 cs

EmbedTalk: Triplane-Free Talking Head Synthesis using Embedding-Driven Gaussian Deformation

O artigo apresenta o EmbedTalk, um método de síntese de cabeças falantes que substitui as tradicionais triplas por embeddings aprendidos para deformação de Gaussians 3D, resultando em modelos mais compactos, com qualidade superior de renderização e sincronização labial, capazes de operar em tempo real (acima de 60 FPS) em GPUs móveis.

Arpita Saggar, Jonathan C. Darling, Duygu Sarikaya, David C. Hogg2026-03-10💻 cs

Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

Este trabalho apresenta um novo framework de representação visual implícita que codifica sinais como funções parametrizadas por adaptações de baixo rank em modelos generativos congelados, permitindo compressão de vídeo extremamente eficiente e unificando os campos de compressão e geração visual.

Jiajun He, Zongyu Guo, Zhaoyang Jia, Xiaoyi Zhang, Jiahao Li, Xiao Li, Bin Li, José Miguel Hernández-Lobato, Yan Lu2026-03-10🤖 cs.LG

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

O artigo propõe que a alucinação em Modelos de Linguagem Visuais resulta de um processo de "superpensamento" onde hipóteses incorretas se propagam através das camadas internas do modelo, e introduz uma nova métrica, o Escore de Superpensamento, que detecta essas instabilidades nas camadas intermediárias para melhorar significativamente a precisão na identificação de alucinações.

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan2026-03-10💻 cs

Real-Time Glottis Detection Framework via Spatial-decoupled Feature Learning for Nasal Transnasal Intubation

O artigo apresenta o Mobile GlottisNet, um framework de detecção de glote leve e eficiente projetado para inferência em tempo real em dispositivos de borda, utilizando mecanismos de aprendizado de características espacialmente desacopladas para superar as limitações de recursos e latência nos sistemas atuais de intubação nasal.

Jinyu Liu, Gaoyang Zhang, Yang Zhou, Ruoyi Hao, Yang Zhang, Hongliang Ren2026-03-10💻 cs

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Este artigo apresenta um pipeline de geração de dados sintéticos baseado em um Digital Twin do Aeroporto Internacional de Algiers, demonstrando que o treinamento híbrido com esses dados e apenas 40% das anotações reais alcança desempenho superior ou equivalente ao uso de dados reais completos para a detecção de carrinhos de bagagem, reduzindo o esforço de anotação em 25 a 35%.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

O artigo apresenta o AtomicVLA, um framework unificado de planejamento e execução que utiliza uma biblioteca de habilidades atômicas escalável e um mecanismo de especialistas mistos orientados por habilidades para superar as limitações dos modelos VLA existentes em tarefas robóticas de longo horizonte e aprendizado contínuo.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence

O artigo apresenta o GLASS, um framework não supervisionado que combina análise espectral geométrica com priores semânticos de modelos visão-linguagem para estabelecer correspondências densas e semanticamente consistentes entre formas 3D, superando significativamente os métodos existentes em cenários de deformações não isométricas e interclasses.

Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun2026-03-10💻 cs

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

Este artigo propõe o framework de Inferência Auto-Crítica (SCI), que utiliza raciocínio contrafactual multimodal escalável para mitigar viés e sensibilidade linguística em Modelos Visuais-Linguísticos, além de introduzir o DRBench, uma avaliação dinâmica específica para cada modelo que supera as limitações dos benchmarks fixos.

Kaihua Tang, Jiaxin Qi, Jinli Ou, Yuhua Zheng, Jianqiang Huang2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

O artigo apresenta o Holi-Spatial, o primeiro conjunto de dados multimodal espacialmente consciente em grande escala, construído totalmente de forma automatizada a partir de vídeos brutos sem intervenção humana, que oferece anotações semânticas e geométricas de alta qualidade para superar as limitações de escalabilidade e viés de domínio dos métodos existentes e aprimorar significativamente o raciocínio espacial de modelos de visão e linguagem.

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

O artigo apresenta o Ref-DGS, um novo framework de "Dual Gaussian Splatting" que resolve o desafio da reconstrução de superfícies com reflexos especulares próximos e distantes, decoplando a geometria das reflexões em uma representação dual e utilizando um shader adaptativo para alcançar resultados de ponta com treinamento significativamente mais rápido do que métodos baseados em rastreamento de raios.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs