cs.CV artigos | Gist.Science

Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

Este trabalho propõe um novo framework para previsão de ocupação de vocabulário aberto em cenas internas usando apenas uma câmera, que supera as limitações dos métodos existentes ao empregar uma supervisão baseada apenas em geometria binária e uma representação unificada de Gaussians com embeddings linguísticos, alcançando desempenho superior no conjunto de dados Occ-ScanNet.

Changqing Zhou, Yueru Luo, Han Zhang + 2 more2026-02-27💻 cs

SPMamba-YOLO: An Underwater Object Detection Network Based on Multi-Scale Feature Enhancement and Global Context Modeling

O artigo apresenta o SPMamba-YOLO, uma rede inovadora para detecção de objetos subaquáticos que combina aprimoramento de características multiescala e modelagem de contexto global para superar desafios como distorção de cor e alvos pequenos, superando significativamente o baseline YOLOv8n no conjunto de dados URPC2022.

Guanghao Liao, Zhen Liu, Liyuan Cao + 2 more2026-02-27💻 cs

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Este trabalho apresenta o ViCLIP-OT, o primeiro modelo fundacional de visão e linguagem otimizado para a recuperação de imagem-texto em vietnamita, que integra aprendizado contrastivo CLIP com uma perda de transporte ótimo regularizada por grafos de similaridade para superar os modelos existentes e reduzir a lacuna entre modalidades em contextos de recursos linguísticos limitados.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-02-27🤖 cs.AI

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

O artigo apresenta o SUPERGLASSES, o primeiro benchmark abrangente de VQA baseado em dados reais de óculos inteligentes, e propõe o agente SUPERLENS, que supera o GPT-4o ao integrar detecção automática de objetos e busca na web para responder a perguntas multimodais em cenários de uso real.

Zhuohang Jiang, Xu Yuan, Haohao Qu + 4 more2026-02-27🤖 cs.AI

No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

Este trabalho apresenta o MoFit, um framework de inferência de associação sem necessidade de legendas que supera as limitações dos métodos anteriores ao gerar condições sintéticas otimizadas especificamente para o modelo, permitindo detectar com eficácia se uma imagem faz parte do conjunto de treinamento de modelos de difusão latente mesmo na ausência de anotações textuais originais.

Joonsung Jeon, Woo Jae Kim, Suhyeon Ha + 2 more2026-02-27💻 cs

UFO-DETR: Frequency-Guided End-to-End Detector for UAV Tiny Objects

Este artigo apresenta o UFO-DETR, um detector de objetos end-to-end otimizado para imagens de UAV que integra uma rede LSKNet, módulos DAttention e AIFI, e o módulo DynFreq-C3 para aprimorar a detecção de alvos pequenos através do aprimoramento de características no domínio da frequência, superando a RT-DETR-L em desempenho e eficiência computacional.

Yuankai Chen, Kai Lin, Qihong Wu + 6 more2026-02-27💻 cs

SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs

O artigo apresenta o SoPE, uma nova técnica de incorporação posicional baseada em coordenadas esféricas que supera as limitações do RoPE tradicional ao preservar a estrutura geométrica e as dependências angulares de dados 3D, melhorando significativamente a percepção espacial e a generalização de Modelos Grandes de Visão e Linguagem 3D.

Guanting Ye, Qiyan Zhao, Wenhao Yu + 7 more2026-02-27🤖 cs.AI

IRSDE-Despeckle: A Physics-Grounded Diffusion Model for Generalizable Ultrasound Despeckling

O artigo apresenta o IRSDE-Despeckle, um modelo de difusão baseado em equações diferenciais estocásticas que utiliza dados simulados para remover ruído de speckle em imagens de ultrassom, superando métodos existentes na preservação de bordas e oferecendo uma estimativa de incerteza para identificar regiões de reconstrução problemática.

Shuoqi Chen, Yujia Wu, Geoffrey P. Luke2026-02-27💻 cs

HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models

O artigo apresenta o HulluEdit, um método inovador de edição em subespaço ortogonal que mitiga alucinações em Modelos de Linguagem e Visão Grandes (LVLMs) através de uma intervenção de passo único e sem referência, garantindo a supressão de padrões alucinatórios sem comprometer o alinhamento com evidências visuais.

Yangguang Lin, Quan Fang, Yufei Li + 3 more2026-02-27💻 cs

Sapling-NeRF: Geo-Localised Sapling Reconstruction in Forests for Ecological Monitoring

Este artigo apresenta o Sapling-NeRF, um pipeline que integra NeRF, SLAM baseado em LiDAR e GNSS para realizar a reconstrução 3D geo-localizada e de escala precisa de mudas em florestas, permitindo o monitoramento ecológico quantitativo e repetível de suas características estruturais com maior precisão do que métodos tradicionais.

Miguel Ángel Muñoz-Bañón, Nived Chebrolu, Sruthi M. Krishna Moorthy + 4 more2026-02-27💻 cs

Asymmetric Idiosyncrasies in Multimodal Models

Este trabalho demonstra que, embora os modelos de geração de legendas apresentem assinaturas estilísticas distintas e facilmente identificáveis, essas características idiossincráticas não são preservadas nas imagens geradas por modelos de texto-para-imagem, revelando uma assimetria significativa na fidelidade do seguimento de prompts.

Muzi Tao, Chufan Shi, Huijuan Wang + 2 more2026-02-27💻 cs

ProjFlow: Projection Sampling with Flow Matching for Zero-Shot Exact Spatial Motion Control

O artigo apresenta o ProjFlow, um amostrador sem treinamento que utiliza um mapeamento de fluxo e uma métrica cinemática inovadora para garantir a satisfação exata de restrições espaciais lineares em geração de movimento humano, preservando o realismo e permitindo aplicações como preenchimento de lacunas e elevação 2D-3D sem necessidade de treinamento específico.

Akihisa Watanabe, Qing Yu, Edgar Simo-Serra + 1 more2026-02-27💻 cs

Beyond Detection: Multi-Scale Hidden-Code for Natural Image Deepfake Recovery and Factual Retrieval

Este artigo propõe um quadro unificado de recuperação de código oculto multi-escala que permite a restauração e recuperação factual de imagens naturais adulteradas, superando as limitações atuais focadas apenas na detecção de deepfakes.

Yuan-Chih Chen, Chun-Shien Lu2026-02-27💻 cs

TrajTok: Learning Trajectory Tokens enables better Video Understanding

O artigo apresenta o TrajTok, um tokenizador de vídeo integrado e eficiente que gera trajetórias de objetos dinâmicas em uma única passagem, superando métodos existentes ao melhorar o desempenho em tarefas de compreensão de vídeo, classificação e raciocínio em vídeos longos sem depender de pipelines externos complexos.

Chenhao Zheng, Jieyu Zhang, Jianing Zhang + 6 more2026-02-27💻 cs

SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation

O artigo apresenta o SceneTransporter, um novo framework que utiliza transporte ótimo entópico dentro de um modelo de difusão latente composicional para gerar cenas 3D estruturadas a partir de uma única imagem, resolvendo problemas de entrelaçamento e fragmentação ao impor restrições estruturais que garantem coerência de instâncias e fidelidade geométrica em ambientes abertos.

Ling Wang, Hao-Xiang Guo, Xinzhou Wang + 9 more2026-02-27💻 cs

Robust Human Trajectory Prediction via Self-Supervised Skeleton Representation Learning

Este artigo propõe um método robusto para previsão de trajetórias humanas que utiliza um modelo de representação esquelética auto-supervisionado, pré-treinado com codificação automática mascarada, para manter a precisão e a robustez mesmo na presença de juntas faltantes devido a oclusões.

Taishu Arashima, Hiroshi Kera, Kazuhiko Kawamoto2026-02-27💻 cs

GSTurb: Gaussian Splatting for Atmospheric Turbulence Mitigation

O artigo apresenta o GSTurb, um novo framework que combina correção de inclinação guiada por fluxo óptico e splatting gaussiano para mitigar eficazmente a degradação de imagens causada pela turbulência atmosférica, superando os métodos mais avançados existentes em métricas quantitativas e qualitativas em cenários sintéticos e do mundo real.

Hanliang Du, Zhangji Lu, Zewei Cai + 3 more2026-02-27💻 cs

Face Time Traveller : Travel Through Ages Without Losing Identity

O artigo apresenta o Face Time Traveller (FaceTT), um framework baseado em difusão que realiza transformações de envelhecimento facial de alta fidelidade preservando a identidade e o fundo, através de estratégias inovadoras como refinamento de prompts sensíveis a atributos, inversão angular sem ajuste e controle de atenção adaptativo.

Purbayan Kar, Ayush Ghadiya, Vishal Chudasama + 2 more2026-02-27💻 cs

CMSA-Net: Causal Multi-scale Aggregation with Adaptive Multi-source Reference for Video Polyp Segmentation

O artigo propõe a CMSA-Net, uma rede robusta para segmentação de pólipos em vídeos que utiliza agregação causal multi-escala e uma estratégia de referência multi-fonte dinâmica para superar desafios de semelhança visual e variações de escala, alcançando desempenho superior e viabilidade clínica em tempo real.

Tong Wang, Yaolei Qi, Siwen Wang + 3 more2026-02-27💻 cs

Reflectance Multispectral Imaging for Soil Composition Estimation and USDA Texture Classification

Este artigo apresenta um sistema de imageamento multiespectral de baixo custo, combinado com modelos de aprendizado de máquina, capaz de prever com alta precisão a composição e as classes de textura do solo segundo a USDA, oferecendo uma alternativa não destrutiva e viável para uso em campo na agricultura de precisão e na engenharia geotécnica.

G. A. S. L Ranasinghe, J. A. S. T. Jayakody, M. C. L. De Silva + 5 more2026-02-27⚡ eess

← Anterior Próximo →