Pareto-Guided Optimization for Uncertainty-Aware Medical Image Segmentation

Este artigo propõe uma estratégia de otimização guiada por Pareto para segmentação de imagens médicas que, combinando um currículo baseado em regiões, uma função de perda consistente com Pareto e um mecanismo de rotulagem fuzzy, supera as abordagens tradicionais ao priorizar áreas de alta certeza e gerenciar a ambiguidade nas bordas para alcançar soluções de equilíbrio ótimas.

Jinming Zhang, Youpeng Yang, Xi Yang + 5 more2026-02-25💻 cs

DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning

O artigo apresenta o DVLA-RL, um novo método de aprendizado com poucos exemplos que utiliza alinhamento semântico de linguagem e visão em dois níveis, combinado com um mecanismo de atenção acionado por aprendizado por reforço, para alcançar desempenho superior ao estado da arte em nove benchmarks ao integrar dinamicamente atributos de baixo nível e descrições de alto nível.

Wenhao Li, Xianjing Meng, Qiangchang Wang + 3 more2026-02-25💻 cs

UI-Venus-1.5 Technical Report

O relatório técnico apresenta o UI-Venus-1.5, uma nova família de agentes de interface gráfica unificados e de ponta que, através de avanços como um estágio de treinamento intermediário abrangente, aprendizado por reforço online e fusão de modelos, alcança desempenho superior em benchmarks globais e demonstra robustez na execução de tarefas em aplicativos móveis reais, incluindo em português e chinês.

Venus Team, Changlong Gao, Zhangxuan Gu + 24 more2026-02-25💬 cs.CL

Ecological mapping with geospatial foundation models

Este estudo demonstra que os modelos de base geoespacial Prithvi-EO-2.0 e TerraMind superam consistentemente a linha de base ResNet-101 em tarefas ecológicas como estimativa de traços florestais, mapeamento de uso do solo e detecção de turfeiras, embora seu desempenho dependa criticamente do alinhamento entre os dados de entrada e as modalidades de pré-treinamento, bem como da resolução e precisão dos rótulos.

Craig Mahlasi, Gciniwe S. Baloyi, Zaheed Gaffoor + 6 more2026-02-25💻 cs

DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

O DriveMamba é um modelo escalável baseado em Espaços de Estado (Mamba) que supera as limitações de eficiência e escalabilidade dos sistemas de direção autônoma de ponta a ponta atuais, substituindo a arquitetura sequencial baseada em Transformers por um decodificador unificado de complexidade linear capaz de modelar dinamicamente as relações entre tarefas e integrar percepção, previsão e planejamento de forma eficiente.

Haisheng Su, Wei Wu, Feixiang Song + 3 more2026-02-25💻 cs

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

O Sim2Radar é um framework que preenche a lacuna entre simulação e realidade em percepção por radar de ondas milimétricas ao sintetizar dados de treinamento a partir de imagens RGB, utilizando reconstrução de cena guiada por visão computacional e linguagem para inferir materiais e simular propagação física, resultando em melhorias significativas na detecção de objetos 3D em ambientes reais com poucos dados supervisionados.

Emily Bejerano, Federico Tondolo, Ayaan Qayyum + 2 more2026-02-25🤖 cs.AI

Tree crop mapping of South America reveals links to deforestation and conservation

Este estudo apresenta o primeiro mapa de culturas arbóreas de 10 metros de resolução para a América do Sul, gerado por inteligência artificial, que identifica cerca de 11 milhões de hectares e revela que mapas regulatórios atuais frequentemente classificam erroneamente a agrofloresta de pequenos produtores como floresta, destacando a necessidade de dados precisos para políticas de conservação justas e eficazes.

Yuchang Jiang, Anton Raichuk, Xiaoye Tong + 6 more2026-02-25💻 cs

EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

O artigo propõe o EAGLE, um framework sem ajuste de parâmetros que utiliza a orientação de atenção aprimorada por modelos especialistas para capacitar Modelos de Linguagem Multimodais a detectar anomalias industriais com alta precisão e gerar explicações semânticas interpretáveis, superando a necessidade de fine-tuning custoso.

Xiaomeng Peng, Xilang Huang, Seon Han Choi2026-02-25💻 cs

Probability-Invariant Random Walk Learning on Gyral Folding-Based Cortical Similarity Networks for Alzheimer's and Lewy Body Dementia Diagnosis

Este artigo propõe um novo quadro de aprendizado baseado em caminhadas aleatórias invariantes à probabilidade que classifica redes de similaridade cortical individualizadas fundamentadas em dobras girais, superando as limitações de alinhamento de nós e variabilidade anatômica para melhorar o diagnóstico diferencial entre Doença de Alzheimer e Demência por Corpos de Lewy.

Minheng Chen, Tong Chen, Chao Cao + 4 more2026-02-25🧬 q-bio

VISION-ICE: Video-based Interpretation and Spatial Identification of Arrhythmia Origins via Neural Networks in Intracardiac Echocardiography

O artigo propõe o framework VISION-ICE, que utiliza redes neurais convolucionais tridimensionais para analisar vídeos de ecocardiografia intracardíaca e localizar automaticamente a origem de arritmias, demonstrando viabilidade clínica para reduzir o tempo e o esforço dos procedimentos de ablação.

Dorsa EPMoghaddam, Feng Gao, Drew Bernard + 3 more2026-02-25🤖 cs.LG