Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

Este trabalho propõe um novo framework para previsão de ocupação de vocabulário aberto em cenas internas usando apenas uma câmera, que supera as limitações dos métodos existentes ao empregar uma supervisão baseada apenas em geometria binária e uma representação unificada de Gaussians com embeddings linguísticos, alcançando desempenho superior no conjunto de dados Occ-ScanNet.

Changqing Zhou, Yueru Luo, Han Zhang + 2 more2026-02-27💻 cs

SPMamba-YOLO: An Underwater Object Detection Network Based on Multi-Scale Feature Enhancement and Global Context Modeling

O artigo apresenta o SPMamba-YOLO, uma rede inovadora para detecção de objetos subaquáticos que combina aprimoramento de características multiescala e modelagem de contexto global para superar desafios como distorção de cor e alvos pequenos, superando significativamente o baseline YOLOv8n no conjunto de dados URPC2022.

Guanghao Liao, Zhen Liu, Liyuan Cao + 2 more2026-02-27💻 cs

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Este trabalho apresenta o ViCLIP-OT, o primeiro modelo fundacional de visão e linguagem otimizado para a recuperação de imagem-texto em vietnamita, que integra aprendizado contrastivo CLIP com uma perda de transporte ótimo regularizada por grafos de similaridade para superar os modelos existentes e reduzir a lacuna entre modalidades em contextos de recursos linguísticos limitados.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-02-27🤖 cs.AI

No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

Este trabalho apresenta o MoFit, um framework de inferência de associação sem necessidade de legendas que supera as limitações dos métodos anteriores ao gerar condições sintéticas otimizadas especificamente para o modelo, permitindo detectar com eficácia se uma imagem faz parte do conjunto de treinamento de modelos de difusão latente mesmo na ausência de anotações textuais originais.

Joonsung Jeon, Woo Jae Kim, Suhyeon Ha + 2 more2026-02-27💻 cs

SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs

O artigo apresenta o SoPE, uma nova técnica de incorporação posicional baseada em coordenadas esféricas que supera as limitações do RoPE tradicional ao preservar a estrutura geométrica e as dependências angulares de dados 3D, melhorando significativamente a percepção espacial e a generalização de Modelos Grandes de Visão e Linguagem 3D.

Guanting Ye, Qiyan Zhao, Wenhao Yu + 7 more2026-02-27🤖 cs.AI

HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models

O artigo apresenta o HulluEdit, um método inovador de edição em subespaço ortogonal que mitiga alucinações em Modelos de Linguagem e Visão Grandes (LVLMs) através de uma intervenção de passo único e sem referência, garantindo a supressão de padrões alucinatórios sem comprometer o alinhamento com evidências visuais.

Yangguang Lin, Quan Fang, Yufei Li + 3 more2026-02-27💻 cs

Sapling-NeRF: Geo-Localised Sapling Reconstruction in Forests for Ecological Monitoring

Este artigo apresenta o Sapling-NeRF, um pipeline que integra NeRF, SLAM baseado em LiDAR e GNSS para realizar a reconstrução 3D geo-localizada e de escala precisa de mudas em florestas, permitindo o monitoramento ecológico quantitativo e repetível de suas características estruturais com maior precisão do que métodos tradicionais.

Miguel Ángel Muñoz-Bañón, Nived Chebrolu, Sruthi M. Krishna Moorthy + 4 more2026-02-27💻 cs

ProjFlow: Projection Sampling with Flow Matching for Zero-Shot Exact Spatial Motion Control

O artigo apresenta o ProjFlow, um amostrador sem treinamento que utiliza um mapeamento de fluxo e uma métrica cinemática inovadora para garantir a satisfação exata de restrições espaciais lineares em geração de movimento humano, preservando o realismo e permitindo aplicações como preenchimento de lacunas e elevação 2D-3D sem necessidade de treinamento específico.

Akihisa Watanabe, Qing Yu, Edgar Simo-Serra + 1 more2026-02-27💻 cs

SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation

O artigo apresenta o SceneTransporter, um novo framework que utiliza transporte ótimo entópico dentro de um modelo de difusão latente composicional para gerar cenas 3D estruturadas a partir de uma única imagem, resolvendo problemas de entrelaçamento e fragmentação ao impor restrições estruturais que garantem coerência de instâncias e fidelidade geométrica em ambientes abertos.

Ling Wang, Hao-Xiang Guo, Xinzhou Wang + 9 more2026-02-27💻 cs

Reflectance Multispectral Imaging for Soil Composition Estimation and USDA Texture Classification

Este artigo apresenta um sistema de imageamento multiespectral de baixo custo, combinado com modelos de aprendizado de máquina, capaz de prever com alta precisão a composição e as classes de textura do solo segundo a USDA, oferecendo uma alternativa não destrutiva e viável para uso em campo na agricultura de precisão e na engenharia geotécnica.

G. A. S. L Ranasinghe, J. A. S. T. Jayakody, M. C. L. De Silva + 5 more2026-02-27⚡ eess