SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

Este trabalho apresenta o SketchGraphNet, uma arquitetura híbrida de grafos que combina passagem de mensagens local com um mecanismo de atenção global eficiente em memória para reconhecimento de esboços em larga escala, alcançando alto desempenho no novo benchmark SketchGraph sem depender de codificações auxiliares.

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

O artigo propõe o UniLongGen, uma estratégia de inferência sem treinamento que melhora a geração de imagens interleaved de longo horizonte ao curar dinamicamente o contexto e descartar sinais visuais interferentes, superando assim o colapso na qualidade causado pela acumulação de "poluição" visual.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

O artigo DreamSAC apresenta um framework que supera a limitação de generalização extrapolação de modelos de mundo aprendidos ao combinar uma estratégia de exploração por simetria, motivada intrinsecamente por um bônus de curiosidade baseado em Hamiltoniano, com um modelo de mundo que utiliza aprendizado contrastivo para identificar leis de conservação a partir de observações brutas, resultando em desempenho superior em simulações físicas 3D.

Jinzhou Tang, Fan Feng, Minghao Fu, Wenjun Lin, Biwei Huang, Keze Wang2026-03-10🤖 cs.LG

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Este artigo apresenta o SGSP, um novo quadro de trabalho para envenenamento de fala direcionado em sistemas de síntese de voz zero-shot, que modifica modelos treinados para impedir a clonagem de vozes específicas enquanto preserva a utilidade para outros falantes, identificando limites de escalabilidade ao lidar com um grande número de identidades esquecidas.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth Narayanan2026-03-10💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Este trabalho apresenta o corpus de fala Devanagari "Nwāchā Munā" e demonstra que o ajuste fino de um modelo de reconhecimento de fala treinado em nepali (uma língua vizinha) supera a escassez de recursos para a língua Nepal Bhasha, alcançando desempenho comparável a modelos multilíngues massivos com maior eficiência computacional.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

O artigo propõe a GRD-Net, uma nova arquitetura que combina uma Rede Adversarial Generativa baseada em autoencoder residual com um módulo de atenção para regiões de interesse, visando detectar e localizar anomalias em produtos industriais de forma mais precisa e generalizável, eliminando a dependência de algoritmos de pós-processamento tradicionais.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Este artigo apresenta uma comparação sistemática de quatro objetivos de treinamento (Perda de Entropia Cruzada, Perda de Protótipos, Perda de Tripletos e Perda de Precisão Média) para detecção de dados fora de distribuição, concluindo que a Perda de Entropia Cruzada oferece o desempenho mais consistente em cenários de distribuição próxima e distante, mantendo precisão competitiva em dados dentro da distribuição.

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

Este artigo apresenta um framework semi-supervisionado de detecção de anomalias baseado em uma arquitetura generativa adversarial com autoencoder residual, projetado para inspeção visual online em alta velocidade na produção farmacêutica, demonstrando alta precisão e localização espacial dentro das restrições de tempo de ciclo de uma linha Blow-Fill-Seal.

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Este artigo apresenta um pipeline de geração de dados sintéticos baseado em um Digital Twin do Aeroporto Internacional de Algiers, demonstrando que o treinamento híbrido com esses dados e apenas 40% das anotações reais alcança desempenho superior ou equivalente ao uso de dados reais completos para a detecção de carrinhos de bagagem, reduzindo o esforço de anotação em 25 a 35%.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

O artigo apresenta o AtomicVLA, um framework unificado de planejamento e execução que utiliza uma biblioteca de habilidades atômicas escalável e um mecanismo de especialistas mistos orientados por habilidades para superar as limitações dos modelos VLA existentes em tarefas robóticas de longo horizonte e aprendizado contínuo.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

O artigo apresenta o Ref-DGS, um novo framework de "Dual Gaussian Splatting" que resolve o desafio da reconstrução de superfícies com reflexos especulares próximos e distantes, decoplando a geometria das reflexões em uma representação dual e utilizando um shader adaptativo para alcançar resultados de ponta com treinamento significativamente mais rápido do que métodos baseados em rastreamento de raios.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs

AI-Driven Phase Identification from X-ray Hyperspectral Imaging of cycled Na-ion Cathode Materials

Os autores desenvolveram um método baseado em inteligência artificial, combinando um autoencoder variacional de mistura gaussiana com o coeficiente de correlação de Pearson, para processar dados de imagem hiperespectral de raios X subamostrados e mapear com resolução nanométrica a distribuição e coexistência de fases em materiais catódicos de íons de sódio, revelando heterogeneidades de fase e zonas de transição críticas para a otimização desses materiais.

Fayçal Adrar, Nicolas Folastre, Chloé Pablos, Stefan Stanescu, Sufal Swaraj, Raghvender Raghvender, François Cadiou, Laurence Croguennec, Matthieu Bugnet, Arnaud Demortière2026-03-10🔬 cond-mat.mtrl-sci