ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting

Este artigo propõe o framework ST-GS, que utiliza uma estratégia de agregação espacial guiada e um esquema de fusão temporal consciente da geometria para superar as limitações de interação espacial e consistência temporal nos métodos atuais de predição de ocupação 3D baseada em Gaussiana, alcançando desempenho superior e maior coerência temporal no benchmark nuScenes.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-02-27💻 cs

Detection and Measurement of Hailstones with Multimodal Large Language Models

Este estudo demonstra que modelos de linguagem grandes multimodais pré-treinados, sem necessidade de ajuste fino, podem detectar e medir com precisão o diâmetro de granizo a partir de imagens de redes sociais, superando abordagens de prompt único ao utilizar dicas de referência e oferecendo uma ferramenta complementar valiosa para a avaliação rápida de eventos climáticos severos.

Moritz Alker, David C. Schedl, Andreas Stöckl2026-02-27🤖 cs.AI

Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

O artigo apresenta o FlowRVS, um novo framework que reformula a segmentação de objetos em vídeo referenciada por linguagem como um problema de fluxo contínuo, aprendendo uma deformação direta guiada por texto da representação do vídeo para a máscara alvo, superando as limitações de pipelines em cascata e alcançando resultados state-of-the-art em benchmarks principais.

Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li + 6 more2026-02-27💻 cs

PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Este trabalho apresenta o PoSh, uma métrica que utiliza grafos de cena para orientar modelos de linguagem como juízes na avaliação de descrições detalhadas de imagens, e valida sua eficácia através do novo conjunto de dados DOCENT, demonstrando maior correlação com julgamentos humanos e robustez em comparação com métodos existentes.

Amith Ananthram, Elias Stengel-Eskin, Lorena A. Bradford + 7 more2026-02-27💬 cs.CL

Learning with less: label-efficient land cover classification at very high spatial resolution using self-supervised deep learning

Este estudo demonstra que o uso de aprendizado auto-supervisionado com a estratégia "Bootstrap Your Own Latent" em imagens aéreas não rotuladas permite realizar classificação de cobertura do solo com resolução de 1 metro em escala estadual, alcançando alta precisão com apenas 1.000 amostras de treinamento rotuladas.

Dakota Hester, Vitor S. Martins, Lucas B. Ferreira + 1 more2026-02-27💻 cs

USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation

Este artigo apresenta o USF-Net, uma rede unificada de fusão espaciotemporal que combina convoluções adaptativas de grandes kernels e mecanismos de atenção de baixa complexidade para superar as limitações de métodos existentes na extrapolação de sequências de imagens de nuvens para sistemas fotovoltaicos, validada por meio de experimentos no novo conjunto de dados ASI-CIS.

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-27💻 cs

Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

Este artigo apresenta o benchmark RETINA e o modelo MIMIR para superar as "atalhos visuais" que comprometem os sistemas atuais de Resposta Visual a Perguntas Baseadas em Conhecimento Multimodal, demonstrando que a incorporação de imagens de entidades relacionadas melhora significativamente a precisão ao forçar uma compreensão mais profunda das relações contextuais.

Dosung Lee, Sangwon Jung, Boyoung Kim + 4 more2026-02-27💻 cs

ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data

O artigo apresenta o ClimaDrive, um framework de geração de imagens guiado por semântica que cria dados sintéticos realistas e diversificados em relação ao clima, e o utiliza para construir o benchmark ClimaOoD, demonstrando que o treinamento com esses dados melhora significativamente a robustez e a generalização de modelos de segmentação de anomalias para direção autônoma.

Yuxing Liu, Zheng Li, Huanhuan Liang + 3 more2026-02-27💻 cs