UI-Venus-1.5 Technical Report

O relatório técnico apresenta o UI-Venus-1.5, uma nova família de agentes de interface gráfica unificados e de ponta que, através de avanços como um estágio de treinamento intermediário abrangente, aprendizado por reforço online e fusão de modelos, alcança desempenho superior em benchmarks globais e demonstra robustez na execução de tarefas em aplicativos móveis reais, incluindo em português e chinês.

Venus Team, Changlong Gao, Zhangxuan Gu + 24 more2026-02-25💬 cs.CL

Ecological mapping with geospatial foundation models

Este estudo demonstra que os modelos de base geoespacial Prithvi-EO-2.0 e TerraMind superam consistentemente a linha de base ResNet-101 em tarefas ecológicas como estimativa de traços florestais, mapeamento de uso do solo e detecção de turfeiras, embora seu desempenho dependa criticamente do alinhamento entre os dados de entrada e as modalidades de pré-treinamento, bem como da resolução e precisão dos rótulos.

Craig Mahlasi, Gciniwe S. Baloyi, Zaheed Gaffoor + 6 more2026-02-25💻 cs

DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

O DriveMamba é um modelo escalável baseado em Espaços de Estado (Mamba) que supera as limitações de eficiência e escalabilidade dos sistemas de direção autônoma de ponta a ponta atuais, substituindo a arquitetura sequencial baseada em Transformers por um decodificador unificado de complexidade linear capaz de modelar dinamicamente as relações entre tarefas e integrar percepção, previsão e planejamento de forma eficiente.

Haisheng Su, Wei Wu, Feixiang Song + 3 more2026-02-25💻 cs

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

O Sim2Radar é um framework que preenche a lacuna entre simulação e realidade em percepção por radar de ondas milimétricas ao sintetizar dados de treinamento a partir de imagens RGB, utilizando reconstrução de cena guiada por visão computacional e linguagem para inferir materiais e simular propagação física, resultando em melhorias significativas na detecção de objetos 3D em ambientes reais com poucos dados supervisionados.

Emily Bejerano, Federico Tondolo, Ayaan Qayyum + 2 more2026-02-25🤖 cs.AI

Tree crop mapping of South America reveals links to deforestation and conservation

Este estudo apresenta o primeiro mapa de culturas arbóreas de 10 metros de resolução para a América do Sul, gerado por inteligência artificial, que identifica cerca de 11 milhões de hectares e revela que mapas regulatórios atuais frequentemente classificam erroneamente a agrofloresta de pequenos produtores como floresta, destacando a necessidade de dados precisos para políticas de conservação justas e eficazes.

Yuchang Jiang, Anton Raichuk, Xiaoye Tong + 6 more2026-02-25💻 cs

EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

O artigo propõe o EAGLE, um framework sem ajuste de parâmetros que utiliza a orientação de atenção aprimorada por modelos especialistas para capacitar Modelos de Linguagem Multimodais a detectar anomalias industriais com alta precisão e gerar explicações semânticas interpretáveis, superando a necessidade de fine-tuning custoso.

Xiaomeng Peng, Xilang Huang, Seon Han Choi2026-02-25💻 cs

Probability-Invariant Random Walk Learning on Gyral Folding-Based Cortical Similarity Networks for Alzheimer's and Lewy Body Dementia Diagnosis

Este artigo propõe um novo quadro de aprendizado baseado em caminhadas aleatórias invariantes à probabilidade que classifica redes de similaridade cortical individualizadas fundamentadas em dobras girais, superando as limitações de alinhamento de nós e variabilidade anatômica para melhorar o diagnóstico diferencial entre Doença de Alzheimer e Demência por Corpos de Lewy.

Minheng Chen, Tong Chen, Chao Cao + 4 more2026-02-25🧬 q-bio

VISION-ICE: Video-based Interpretation and Spatial Identification of Arrhythmia Origins via Neural Networks in Intracardiac Echocardiography

O artigo propõe o framework VISION-ICE, que utiliza redes neurais convolucionais tridimensionais para analisar vídeos de ecocardiografia intracardíaca e localizar automaticamente a origem de arritmias, demonstrando viabilidade clínica para reduzir o tempo e o esforço dos procedimentos de ablação.

Dorsa EPMoghaddam, Feng Gao, Drew Bernard + 3 more2026-02-25🤖 cs.LG

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

O artigo apresenta o UniLACT, um modelo Vision-Language-Action que supera as limitações de representações baseadas apenas em RGB ao incorporar estrutura geométrica através de um pré-treinamento com latentes de ação unificados e conscientes da profundidade, aprendidos pelo framework UniLARN, resultando em políticas de manipulação mais precisas e robustas tanto em simulação quanto no mundo real.

Manish Kumar Govind, Dominick Reilly, Pu Wang + 1 more2026-02-25💻 cs