cs.CV artigos | Gist.Science

DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning

O artigo apresenta o DVLA-RL, um novo método de aprendizado com poucos exemplos que utiliza alinhamento semântico de linguagem e visão em dois níveis, combinado com um mecanismo de atenção acionado por aprendizado por reforço, para alcançar desempenho superior ao estado da arte em nove benchmarks ao integrar dinamicamente atributos de baixo nível e descrições de alto nível.

Wenhao Li, Xianjing Meng, Qiangchang Wang + 3 more2026-02-25💻 cs

All-Optical Segmentation via Diffractive Neural Networks for Autonomous Driving

Este trabalho propõe um novo framework de computação totalmente óptica baseado em redes neurais difrativas para realizar segmentação semântica e detecção de faixas em veículos autônomos, demonstrando experimentalmente sua eficácia e eficiência energética em comparação com as abordagens convencionais baseadas em redes neurais digitais.

Yingjie Li, Daniel Robinson, Weilu Gao + 1 more2026-02-25💻 cs

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

O artigo apresenta o GOT-Edit, uma abordagem de edição de modelo online que integra pistas geométricas 3D a rastreadores de objetos genéricos baseados em 2D, resultando em maior robustez e precisão, especialmente em cenários com oclusão e distrações.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo + 1 more2026-02-25⚡ eess

UI-Venus-1.5 Technical Report

O relatório técnico apresenta o UI-Venus-1.5, uma nova família de agentes de interface gráfica unificados e de ponta que, através de avanços como um estágio de treinamento intermediário abrangente, aprendizado por reforço online e fusão de modelos, alcança desempenho superior em benchmarks globais e demonstra robustez na execução de tarefas em aplicativos móveis reais, incluindo em português e chinês.

Venus Team, Changlong Gao, Zhangxuan Gu + 24 more2026-02-25💬 cs.CL

Ecological mapping with geospatial foundation models

Este estudo demonstra que os modelos de base geoespacial Prithvi-EO-2.0 e TerraMind superam consistentemente a linha de base ResNet-101 em tarefas ecológicas como estimativa de traços florestais, mapeamento de uso do solo e detecção de turfeiras, embora seu desempenho dependa criticamente do alinhamento entre os dados de entrada e as modalidades de pré-treinamento, bem como da resolução e precisão dos rótulos.

Craig Mahlasi, Gciniwe S. Baloyi, Zaheed Gaffoor + 6 more2026-02-25💻 cs

DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

O DriveMamba é um modelo escalável baseado em Espaços de Estado (Mamba) que supera as limitações de eficiência e escalabilidade dos sistemas de direção autônoma de ponta a ponta atuais, substituindo a arquitetura sequencial baseada em Transformers por um decodificador unificado de complexidade linear capaz de modelar dinamicamente as relações entre tarefas e integrar percepção, previsão e planejamento de forma eficiente.

Haisheng Su, Wei Wu, Feixiang Song + 3 more2026-02-25💻 cs

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

O Sim2Radar é um framework que preenche a lacuna entre simulação e realidade em percepção por radar de ondas milimétricas ao sintetizar dados de treinamento a partir de imagens RGB, utilizando reconstrução de cena guiada por visão computacional e linguagem para inferir materiais e simular propagação física, resultando em melhorias significativas na detecção de objetos 3D em ambientes reais com poucos dados supervisionados.

Emily Bejerano, Federico Tondolo, Ayaan Qayyum + 2 more2026-02-25🤖 cs.AI

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Este artigo apresenta o HERO, um novo paradigma para locomanipulação em robôs humanoides que combina modelos de visão de grande escala para generalização visual aberta com um controle preciso de efetuador final baseado em aprendizado por simulação, permitindo a manipulação confiável de diversos objetos em ambientes reais variados.

Runpei Dong, Ziyan Li, Xialin He + 1 more2026-02-25💻 cs

Tree crop mapping of South America reveals links to deforestation and conservation

Este estudo apresenta o primeiro mapa de culturas arbóreas de 10 metros de resolução para a América do Sul, gerado por inteligência artificial, que identifica cerca de 11 milhões de hectares e revela que mapas regulatórios atuais frequentemente classificam erroneamente a agrofloresta de pequenos produtores como floresta, destacando a necessidade de dados precisos para políticas de conservação justas e eficazes.

Yuchang Jiang, Anton Raichuk, Xiaoye Tong + 6 more2026-02-25💻 cs

EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

O artigo propõe o EAGLE, um framework sem ajuste de parâmetros que utiliza a orientação de atenção aprimorada por modelos especialistas para capacitar Modelos de Linguagem Multimodais a detectar anomalias industriais com alta precisão e gerar explicações semânticas interpretáveis, superando a necessidade de fine-tuning custoso.

Xiaomeng Peng, Xilang Huang, Seon Han Choi2026-02-25💻 cs

Probability-Invariant Random Walk Learning on Gyral Folding-Based Cortical Similarity Networks for Alzheimer's and Lewy Body Dementia Diagnosis

Este artigo propõe um novo quadro de aprendizado baseado em caminhadas aleatórias invariantes à probabilidade que classifica redes de similaridade cortical individualizadas fundamentadas em dobras girais, superando as limitações de alinhamento de nós e variabilidade anatômica para melhorar o diagnóstico diferencial entre Doença de Alzheimer e Demência por Corpos de Lewy.

Minheng Chen, Tong Chen, Chao Cao + 4 more2026-02-25🧬 q-bio

MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions

O artigo apresenta o MIRROR, um framework de raciocínio multimodal iterativo que aprimora a precisão e reduz alucinações em Modelos Visão-Linguagem ao incorporar um processo de reflexão em loop fechado focado na verificação de regiões visuais, apoiado pelo novo conjunto de dados ReflectV para treinamento supervisionado.

Haoyu Zhang, Yuwei Wu, Pengxiang Li + 6 more2026-02-25💻 cs

Keep it SymPL: Symbolic Projective Layout for Allocentric Spatial Reasoning in Vision-Language Models

Este artigo apresenta o SymPL, um framework que reformula o raciocínio espacial alocêntrico em representações simbólicas estruturadas, permitindo que modelos de visão e linguagem superem suas limitações atuais nesse tipo de tarefa e demonstrem maior robustez em cenários complexos.

Jaeyun Jang, Seunghui Shin, Taeho Park + 1 more2026-02-25💻 cs

TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

O artigo apresenta o TraceVision, um modelo unificado visão-linguagem que integra percepção visual consciente de trajetórias para simular a atenção humana e melhorar a compreensão espacial, localização e segmentação, alcançando desempenho superior em diversas tarefas através de uma nova arquitetura e do conjunto de dados RILN.

Fan Yang, Shurong Zheng, Hongyin Zhao + 5 more2026-02-25💻 cs

Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation

Este artigo propõe um framework de destilação contrastiva com dois professores que alinha modelos fundacionais de visão óptica e de sensoriamento multiespectral para aprendizado de representação eficiente, alcançando desempenho superior em tarefas de observação da Terra sem comprometer a eficácia em dados ópticos.

Filip Wolf, Blaž Rolih, Luka Čehovin Zajc2026-02-25💻 cs

A Very Big Video Reasoning Suite

Este artigo apresenta o VBVR, um conjunto de dados e um benchmark de escala sem precedentes para raciocínio em vídeo, que permite estudos de escalabilidade e revela sinais iniciais de generalização emergente em tarefas não vistas anteriormente.

Maijunxian Wang, Ruisi Wang, Juyi Lin + 53 more2026-02-25🤖 cs.AI

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

O artigo apresenta o Mobile-O, um modelo multimodal unificado compacto e eficiente que permite compreensão e geração de imagens em tempo real diretamente em dispositivos móveis, superando modelos existentes em desempenho e velocidade sem depender de nuvem.

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad + 8 more2026-02-25💻 cs

VISION-ICE: Video-based Interpretation and Spatial Identification of Arrhythmia Origins via Neural Networks in Intracardiac Echocardiography

O artigo propõe o framework VISION-ICE, que utiliza redes neurais convolucionais tridimensionais para analisar vídeos de ecocardiografia intracardíaca e localizar automaticamente a origem de arritmias, demonstrando viabilidade clínica para reduzir o tempo e o esforço dos procedimentos de ablação.

Dorsa EPMoghaddam, Feng Gao, Drew Bernard + 3 more2026-02-25🤖 cs.LG

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

O artigo apresenta o OptimusVLA, um modelo de Visão-Linguagem-Ação com memória dupla que integra um Prior Global para acelerar a inferência e uma Memória de Consistência Local para garantir robustez temporal, alcançando desempenho superior e maior velocidade em tarefas de manipulação robótica.

Zaijing Li, Bing Hu, Rui Shao + 5 more2026-02-25🤖 cs.AI

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

O artigo apresenta o UniLACT, um modelo Vision-Language-Action que supera as limitações de representações baseadas apenas em RGB ao incorporar estrutura geométrica através de um pré-treinamento com latentes de ação unificados e conscientes da profundidade, aprendidos pelo framework UniLARN, resultando em políticas de manipulação mais precisas e robustas tanto em simulação quanto no mundo real.

Manish Kumar Govind, Dominick Reilly, Pu Wang + 1 more2026-02-25💻 cs

← Anterior Próximo →