Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Este artigo apresenta o FARL, um novo framework que melhora a generalização em poucos exemplos de Modelos Visão-Linguagem ao utilizar análise de Fourier e um mecanismo de atenção cruzada para desentrelaçar explicitamente as características estruturais e estilísticas das imagens, resultando em uma alinhamento visão-linguagem mais robusto.

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Este estudo apresenta um método de detecção de incêndios relacionados a conflitos no Sudão em quase tempo real, utilizando um modelo leve de Auto-Encoder Variacional (VAE) não supervisionado com imagens de satélite de 4 bandas, que supera técnicas tradicionais ao identificar áreas afetadas em 24 a 30 horas com alta precisão e recall.

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Este estudo sistemático demonstra que, em cenários de adaptação contínua em tempo de teste, a escolha da família de mascaramento (espacial versus frequência) é determinante para a estabilidade do aprendizado, sendo o mascaramento espacial superior em arquiteturas baseadas em patches para evitar o colapso catastrófico, enquanto o mascaramento em frequência se torna competitivo em tarefas de alta granularidade com CNNs ou ViTs de grande capacidade.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

O artigo apresenta o Brain-Semantoks, um modelo de fundação auto-supervisionado que utiliza um tokenizador semântico e um objetivo de auto-distilação para aprender representações robustas da dinâmica cerebral a partir de séries temporais de fMRI, permitindo alto desempenho em tarefas downstream e ganhos de generalização com o aumento de dados não rotulados.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

ββ-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

O artigo apresenta o β\beta-CLIP, um framework de aprendizado contrastivo condicionado a texto que alinha representações visuais e textuais em múltiplas granularidades hierárquicas por meio de um mecanismo de atenção cruzada e uma nova função de perda (β\beta-CAL), alcançando desempenho superior em tarefas de alinhamento denso e recuperação de imagens sem o uso de negativos difíceis.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Este trabalho apresenta um quadro abrangente de IA interpretável que integra imagens clínicas e histórico familiar para aprimorar o diagnóstico dermatológico, com validação preliminar por profissionais de saúde e planos para futuros ensaios clínicos prospectivos.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

O artigo apresenta o GeoTeacher, um método de detecção 3D semi-supervisionada que melhora a capacidade dos modelos de capturar relações geométricas de objetos através de uma supervisão baseada em pontos-chave e uma estratégia de aumento de dados em voxels com mecanismo de decaimento de distância, alcançando resultados state-of-the-art nos conjuntos de dados ONCE e Waymo.

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

O TP-Blend é uma estrutura leve e sem treinamento que combina dois prompts textuais distintos para realizar a fusão precisa de objetos e estilos em modelos de difusão, utilizando os mecanismos de fusão de atenção de objetos (CAOF) e fusão de estilo (SASF) para gerar edições fotorealistas de alta resolução com controle simultâneo sobre conteúdo e aparência.

Xin Jin, Yichuan Zhong, Yapeng Tian2026-03-03🤖 cs.AI

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

O artigo apresenta o Vision-DeepResearch, um novo paradigma para Modelos de Linguagem Multimodal (MLLMs) que, por meio de treinamento supervisionado e por reforço, internaliza capacidades de pesquisa profunda multi-turno e multi-escala para superar ruído visual e resolver questões complexas, superando tanto modelos existentes quanto fluxos de trabalho baseados em fundações proprietárias de ponta.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI