SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

O artigo propõe o framework SGMA, que utiliza os módulos de Fusão Guiada por Semântica e Amostragem Consciente da Modalidade para superar os desafios de desequilíbrio, variação intraclasse e heterogeneidade na segmentação semântica de sensoriamento remoto com dados multimodais incompletos, garantindo um aprendizado balanceado e melhorando significativamente o desempenho das modalidades mais frágeis.

Lekang Wen, Liang Liao, Jing Xiao + 1 more2026-03-04💻 cs

Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

Este artigo apresenta um framework de aprendizado profundo baseado em grafos que, ao substituir parcellações anatômicas por parcellações funcionais e utilizar redes de atenção em grafos, alcança uma acurácia de 95% na classificação de Transtorno do Espectro Autista (TEA) a partir de dados de fMRI em repouso, identificando com interpretabilidade os hubs do Modo Padrão como biomarcadores neurais.

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

Functional Properties of the Focal-Entropy

Este trabalho estabelece uma fundamentação teórica para a função de perda focal ao analisar a entropia focal, demonstrando suas propriedades de convexidade e continuidade, provando a existência de um minimizador único e revelando como a função amplifica probabilidades intermediárias enquanto suprime tanto os eventos de alta probabilidade quanto os de baixa probabilidade em cenários de desequilíbrio de classes.

Jaimin Shah, Martina Cardone, Alex Dytso2026-03-04📊 stat

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

Este artigo apresenta um robô cirúrgico assistivo de dois braços que utiliza um modelo visão-linguagem para gerar trajetórias de entrega de instrumentos sem disparos e um framework de programação quadrática para garantir movimentos reativos livres de colisões em ambientes dinâmicos, alcançando uma taxa de sucesso de 83,33% em validações experimentais.

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

O artigo propõe a Generalizable Knowledge Distillation (GKD), um framework multi-estágio que desacopla a aprendizagem de representações da aprendizagem de tarefas e utiliza um mecanismo de distilação suave baseado em consultas para preservar a robustez fora de domínio ao transferir conhecimento de Modelos Fundamentais de Visão para segmentação semântica, superando significativamente os métodos convencionais em benchmarks de generalização.

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment

O artigo apresenta o CAPT, um framework de ajuste de prompts que reduz o desalinhamento entre visão e linguagem ao modelar explicitamente padrões de confusão sistemática através de um banco de dados, mineradores semânticos e amostrais, e um especialista de diferenças multi-granularidade, demonstrando melhorias significativas na precisão e generalização em 11 conjuntos de dados de benchmark.

Maoyuan Shao, Yutong Gao, Xinyang Huang + 3 more2026-03-04🤖 cs.AI

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

O artigo apresenta o CAWM-Mamba, um modelo unificado pioneiro que realiza a fusão de imagens infravermelhas e visíveis com restauração simultânea de condições climáticas adversas compostas, superando métodos existentes através de módulos inovadores como o WAPM, CFIM e WSSB, e demonstrando superioridade em benchmarks e tarefas downstream.

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

O artigo apresenta o SOLAR, um framework de modelagem de sequências para sistemas de recomendação que utiliza a atenção SVD-Optimized para reduzir a complexidade computacional de O(N2d)O(N^2 d) para O(Ndr)O(Ndr) preservando a distribuição softmax, permitindo o processamento eficiente de sequências de comportamento de grande escala e resultando em ganhos significativos de visualizações de vídeo no cenário online do Kuaishou.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

O artigo propõe a Arquitetura ATD (Adaptive Token Dictionary), um novo modelo baseado em Transformers para restauração de imagens que utiliza um dicionário de tokens aprendível e mecanismos de atenção cruzada para modelar dependências globais com complexidade linear, alcançando desempenho state-of-the-art em tarefas como super-resolução e remoção de ruído.

Leheng Zhang, Wei Long, Yawei Li + 3 more2026-03-04💻 cs

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

Este estudo demonstra que a combinação de técnicas de aumento de dados, especificamente Transformações Afins Aleatórias e Distorção de Cor, maximiza a precisão de um modelo Vision Transformer leve (EfficientViT) para o reconhecimento de caracteres manuscritos bengalis em conjuntos de dados com recursos limitados.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation

O artigo apresenta o Synthetic-Child, um pipeline de dados sintéticos baseado em IA generativa que, sem utilizar fotografias reais de crianças, produz imagens fotorealistas para treinar um modelo de estimativa de postura que supera a precisão de modelos pré-treinados com dados adultos e atinge desempenho em tempo real em dispositivos de borda, resolvendo desafios éticos e de privacidade.

Taowen Zeng2026-03-04💻 cs