The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

O artigo apresenta o KeyTailor, um novo framework que melhora a virtualização de roupas em vídeos através de uma estratégia de injeção de detalhes orientada a quadros-chave para preservar a dinâmica das roupas e a integridade do fundo, acompanhado pelo conjunto de dados ViT-HD de alta definição para superar as limitações atuais em fidelidade e eficiência computacional.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

O artigo apresenta o CogFlow, um novo framework de três estágios inspirado na cognição humana que supera as limitações atuais na resolução de problemas matemáticos visuais ao integrar explicitamente a percepção, a internalização de conhecimento e o raciocínio, utilizando recompensas visuais sinérgicas, um modelo de recompensa para internalização e otimização de política com portão visual, apoiado pelo novo conjunto de dados MathCog.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Principal Component Analysis-Based Terahertz Self-Supervised Denoising and Deblurring Deep Neural Networks

Este artigo propõe a rede neural THz-SSDD, baseada em Análise de Componentes Principais (PCA) e aprendizado auto-supervisionado, para realizar simultaneamente a remoção de ruído e o desembaçamento de imagens terahertz, superando as limitações das técnicas convencionais sem a necessidade de dados rotulados ou intervenção manual.

Pengfei Zhu, Stefano Sfarra, Hai Zhang + 4 more2026-02-25💻 cs

CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

O artigo apresenta o CER-HV, um quadro de trabalho com intervenção humana que combina deteção de ruído baseada em CER e verificação humana para identificar e limpar erros em conjuntos de dados de reconhecimento de texto manuscrito em escrita árabe, demonstrando melhorias significativas na precisão e estabelecendo novos baselines de desempenho.

Sana Al-azzawi, Elisa Barney, Marcus Liwicki2026-02-25💻 cs

Pareto-Guided Optimization for Uncertainty-Aware Medical Image Segmentation

Este artigo propõe uma estratégia de otimização guiada por Pareto para segmentação de imagens médicas que, combinando um currículo baseado em regiões, uma função de perda consistente com Pareto e um mecanismo de rotulagem fuzzy, supera as abordagens tradicionais ao priorizar áreas de alta certeza e gerenciar a ambiguidade nas bordas para alcançar soluções de equilíbrio ótimas.

Jinming Zhang, Youpeng Yang, Xi Yang + 5 more2026-02-25💻 cs

DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning

O artigo apresenta o DVLA-RL, um novo método de aprendizado com poucos exemplos que utiliza alinhamento semântico de linguagem e visão em dois níveis, combinado com um mecanismo de atenção acionado por aprendizado por reforço, para alcançar desempenho superior ao estado da arte em nove benchmarks ao integrar dinamicamente atributos de baixo nível e descrições de alto nível.

Wenhao Li, Xianjing Meng, Qiangchang Wang + 3 more2026-02-25💻 cs

UI-Venus-1.5 Technical Report

O relatório técnico apresenta o UI-Venus-1.5, uma nova família de agentes de interface gráfica unificados e de ponta que, através de avanços como um estágio de treinamento intermediário abrangente, aprendizado por reforço online e fusão de modelos, alcança desempenho superior em benchmarks globais e demonstra robustez na execução de tarefas em aplicativos móveis reais, incluindo em português e chinês.

Venus Team, Changlong Gao, Zhangxuan Gu + 24 more2026-02-25💬 cs.CL

Ecological mapping with geospatial foundation models

Este estudo demonstra que os modelos de base geoespacial Prithvi-EO-2.0 e TerraMind superam consistentemente a linha de base ResNet-101 em tarefas ecológicas como estimativa de traços florestais, mapeamento de uso do solo e detecção de turfeiras, embora seu desempenho dependa criticamente do alinhamento entre os dados de entrada e as modalidades de pré-treinamento, bem como da resolução e precisão dos rótulos.

Craig Mahlasi, Gciniwe S. Baloyi, Zaheed Gaffoor + 6 more2026-02-25💻 cs

DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

O DriveMamba é um modelo escalável baseado em Espaços de Estado (Mamba) que supera as limitações de eficiência e escalabilidade dos sistemas de direção autônoma de ponta a ponta atuais, substituindo a arquitetura sequencial baseada em Transformers por um decodificador unificado de complexidade linear capaz de modelar dinamicamente as relações entre tarefas e integrar percepção, previsão e planejamento de forma eficiente.

Haisheng Su, Wei Wu, Feixiang Song + 3 more2026-02-25💻 cs

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

O Sim2Radar é um framework que preenche a lacuna entre simulação e realidade em percepção por radar de ondas milimétricas ao sintetizar dados de treinamento a partir de imagens RGB, utilizando reconstrução de cena guiada por visão computacional e linguagem para inferir materiais e simular propagação física, resultando em melhorias significativas na detecção de objetos 3D em ambientes reais com poucos dados supervisionados.

Emily Bejerano, Federico Tondolo, Ayaan Qayyum + 2 more2026-02-25🤖 cs.AI