BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

O artigo apresenta o BioCAP, um modelo fundamental biológico que utiliza legendas sintéticas geradas por modelos de linguagem multimodal para superar a escassez de descrições textuais específicas, melhorando assim a classificação de espécies e a recuperação de imagens ao alinhar características visuais e textuais em um espaço latente compartilhado.

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Este trabalho propõe um método inovador que gera vídeos de rostos falantes em alta resolução exclusivamente a partir de uma única entrada de áudio, utilizando um modelo de difusão condicionado à fala com priores faciais e um módulo de refinamento regional para superar as limitações das abordagens existentes que dependem de imagens de referência.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

Este estudo demonstra que a segmentação de imagens médicas segue uma lei de escala limitada pela geometria anatômica, onde o aumento de dados apresenta saturação precoce, mas o uso de aumentações baseadas em topologia melhora a eficiência amostral ao expandir a cobertura topológica efetiva sem alterar a estrutura fundamental da lei de escala.

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Este artigo apresenta o FARL, um novo framework que melhora a generalização em poucos exemplos de Modelos Visão-Linguagem ao utilizar análise de Fourier e um mecanismo de atenção cruzada para desentrelaçar explicitamente as características estruturais e estilísticas das imagens, resultando em uma alinhamento visão-linguagem mais robusto.

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Este estudo apresenta um método de detecção de incêndios relacionados a conflitos no Sudão em quase tempo real, utilizando um modelo leve de Auto-Encoder Variacional (VAE) não supervisionado com imagens de satélite de 4 bandas, que supera técnicas tradicionais ao identificar áreas afetadas em 24 a 30 horas com alta precisão e recall.

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Este estudo sistemático demonstra que, em cenários de adaptação contínua em tempo de teste, a escolha da família de mascaramento (espacial versus frequência) é determinante para a estabilidade do aprendizado, sendo o mascaramento espacial superior em arquiteturas baseadas em patches para evitar o colapso catastrófico, enquanto o mascaramento em frequência se torna competitivo em tarefas de alta granularidade com CNNs ou ViTs de grande capacidade.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

O artigo apresenta o Brain-Semantoks, um modelo de fundação auto-supervisionado que utiliza um tokenizador semântico e um objetivo de auto-distilação para aprender representações robustas da dinâmica cerebral a partir de séries temporais de fMRI, permitindo alto desempenho em tarefas downstream e ganhos de generalização com o aumento de dados não rotulados.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

ββ-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

O artigo apresenta o β\beta-CLIP, um framework de aprendizado contrastivo condicionado a texto que alinha representações visuais e textuais em múltiplas granularidades hierárquicas por meio de um mecanismo de atenção cruzada e uma nova função de perda (β\beta-CAL), alcançando desempenho superior em tarefas de alinhamento denso e recuperação de imagens sem o uso de negativos difíceis.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs