cs.CV artigos | Gist.Science

FLUID: A Fine-Grained Lightweight Urban Signalized-Intersection Dataset of Dense Conflict Trajectories

Este artigo apresenta o FLUID, um novo conjunto de dados de trajetórias de tráfego de alta fidelidade e um framework leve para processamento via drone, focado em conflitos densos em cruzamentos urbanos sinalizados para apoiar pesquisas em comportamento de tráfego e direção autônoma.

Yiyang Chen, Zhigang Wu, Guohong Zheng + 5 more2026-02-24💻 cs

Decoding Tourist Perception in Historic Urban Quarters with Multimodal Social Media Data: An AI-Based Framework and Evidence from Shanghai

Este estudo propõe um quadro baseado em IA que integra dados multimodais de mídia social para decodificar a percepção turística em bairros históricos de Xangai, revelando lacunas entre a realidade física e a representação visual online para orientar o planejamento urbano e a gestão do patrimônio.

Kaizhen Tan, Yufan Wu, Yuxuan Liu + 1 more2026-02-24🤖 cs.AI

MOGS: Monocular Object-guided Gaussian Splatting in Large Scenes

O MOGS é um framework de Gaussian Splatting 3D monocular para grandes cenas que substitui sensores LiDAR caros por profundidade densa metrizada derivada de pistas visuais-inerciais e priores de forma de objetos, reduzindo significativamente o tempo de treinamento e o consumo de memória enquanto mantém qualidade de renderização competitiva.

Shengkai Zhang, Yuhe Liu, Jianhua He + 3 more2026-02-24💻 cs

Modelling and analysis of the 8 filters from the "master key filters hypothesis" for depthwise-separable deep networks in relation to idealized receptive fields based on scale-space theory

Este artigo demonstra que os filtros aprendidos em redes profundas separáveis por profundidade, baseadas na arquitetura ConvNeXt, podem ser efetivamente modelados e substituídos por filtros de espaço de escala discretos idealizados, derivados de operadores de diferença aplicados a kernels gaussianos, mantendo propriedades preditivas comparáveis.

Tony Lindeberg, Zahra Babaiee, Peyman M. Kiasari2026-02-24💻 cs

Unleashing the Power of Discrete-Time State Representation: Ultrafast Target-based IMU-Camera Spatial-Temporal Calibration

Este artigo propõe um método de calibração espacial-temporal IMU-câmera ultra-rápido e eficiente que substitui a representação de estado contínua tradicional por uma representação de tempo discreto, superando as limitações computacionais e de calibração temporal para viabilizar a calibração em massa de plataformas visuais-inerciais.

Junlin Song, Antoine Richard, Miguel Olivares-Mendez2026-02-24💻 cs

RangeSAM: On the Potential of Visual Foundation Models for Range-View represented LiDAR segmentation

O artigo apresenta o RangeSAM, o primeiro framework que adapta o modelo de fundação visual SAM2 para a segmentação de nuvens de pontos LiDAR em visão de alcance, alcançando desempenho competitivo no SemanticKITTI com alta eficiência computacional ao explorar modificações arquitetônicas específicas para as propriedades geométricas das projeções esféricas.

Paul Julius Kühn, Duc Anh Nguyen, Arjan Kuijper + 1 more2026-02-24💻 cs

Comparing and Integrating Different Notions of Representational Correspondence in Neural Systems

Este artigo avalia e integra múltiplas métricas de similaridade representacional em sistemas neurais biológicos e artificiais, demonstrando que a fusão de grafos de similaridade (via Similarity Network Fusion) supera medidas individuais ao revelar com maior clareza a estrutura hierárquica do processamento visual e as relações entre famílias de modelos.

Jialin Wu, Shreya Saha, Yiqing Bo + 1 more2026-02-24🤖 cs.AI

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

O artigo apresenta o WAVE, o primeiro modelo baseado em LLM que cria um espaço de representação unificado para texto, áudio e vídeo, alcançando resultados state-of-the-art em recuperação cruzada e em tarefas de perguntas e respostas multimodais através de uma estratégia inovadora de fusão hierárquica de características e treinamento conjunto.

Changli Tang, Qinfan Xiao, Ke Mei + 3 more2026-02-24💻 cs

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

O artigo apresenta o CMT (Consistency Mid-Training), uma nova etapa intermediária de treinamento que estabiliza e acelera o aprendizado de modelos de mapa de fluxo, como Consistency Models e Mean Flow, alcançando resultados de estado da arte com até 98% menos dados e tempo de GPU em comparação com métodos anteriores.

Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji + 1 more2026-02-24🤖 cs.AI

AlignTok: Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

O artigo apresenta o AlignTok, uma estratégia de três etapas que alinha codificadores visuais pré-treinados a tokenizadores para modelos de difusão, aproveitando sua rica estrutura semântica para acelerar a convergência e melhorar a qualidade da geração de imagens em comparação com os métodos tradicionais.

Bowei Chen, Sai Bi, Hao Tan + 6 more2026-02-24💻 cs

SAGE: Spatial-visual Adaptive Graph Exploration for Efficient Visual Place Recognition

O artigo apresenta o SAGE, um pipeline de treinamento unificado que aprimora o Reconhecimento Visual de Locais ao integrar um módulo de sondagem suave para agregação de características locais e uma exploração adaptativa de grafos geo-visuais para mineração de amostras difíceis, alcançando desempenho state-of-the-art em oito benchmarks.

Shunpeng Chen, Changwei Wang, Rongtao Xu + 7 more2026-02-24💻 cs

Flower: A Flow-Matching Solver for Inverse Problems

O artigo apresenta o Flower, um solver inovador para problemas inversos lineares que utiliza um modelo de fluxo pré-treinado em um processo iterativo de três etapas para gerar reconstruções consistentes com as medições, unificando perspectivas teóricas de amostragem bayesiana e alcançando resultados state-of-the-art com hiperparâmetros universais.

Mehrsa Pourya, Bassam El Rawas, Michael Unser2026-02-24🤖 cs.LG

VIRTUE: Visual-Interactive Text-Image Universal Embedder

O artigo apresenta o VIRTUE, um novo modelo de incorporação universal texto-imagem que integra interações visuais (como pontos e máscaras) para melhorar a precisão na localização de regiões de interesse e o aprendizado de informações em nível de entidade, alcançando desempenho superior em benchmarks universais e em uma nova tarefa de recuperação de legendas baseada em segmentação.

Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu + 2 more2026-02-24🤖 cs.AI

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

O artigo apresenta o RewardMap, um framework de aprendizado por reforço em múltiplos estágios que supera o desafio de recompensas esparsas no raciocínio visual detalhado de modelos de linguagem multimodal, utilizando o conjunto de dados ReasonMap-Plus e um design de recompensa sensível à dificuldade para alcançar melhorias consistentes em tarefas de raciocínio espacial e visual.

Sicheng Feng, Kaiwen Tuo, Song Wang + 3 more2026-02-24🤖 cs.AI

OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

O artigo apresenta o OBS-Diff, um novo framework de poda one-shot e sem treinamento que adapta o algoritmo Optimal Brain Surgeon aos modelos de difusão, utilizando uma construção Hessiana sensível aos timesteps e uma estratégia de poda em grupo para alcançar compressão precisa e aceleração de inferência com mínima degradação na qualidade visual.

Junhan Zhu, Hesong Wang, Mingluo Su + 2 more2026-02-24💻 cs

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

O artigo apresenta o EDJE, um codificador conjunto discriminativo e eficiente que supera os gargalos computacionais dos modelos existentes para reclassificação em escala de visão e linguagem, pré-calculando e comprimindo tokens visuais para permitir inferência de alto rendimento com armazenamento reduzido, mantendo ao mesmo tempo o desempenho de recuperação em benchmarks como Flickr e COCO.

Mitchell Keren Taraday, Shahaf Wagner, Chaim Baskin2026-02-24🤖 cs.LG

LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation

O artigo apresenta o LinVideo, uma framework de pós-treinamento livre de dados que substitui seletivamente módulos de atenção quadrática por atenção linear em modelos de difusão de vídeo, utilizando correspondência de distribuição para alcançar acelerações de 1,25 a 2,00 vezes (e até 15,92 vezes em modelos destilados) sem comprometer a qualidade de geração.

Yushi Huang, Xingtong Ge, Ruihao Gong + 2 more2026-02-24💻 cs

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Este artigo apresenta o Modelo Específico de Estado (SSM), um novo quadro unificado que melhora a detecção e antecipação de ações em vídeos não editados ao comprimir redundâncias, modelar dinâmicas de ação complexas e integrar interações cruzadas temporais para capturar a intenção do agente, alcançando desempenho superior em múltiplos conjuntos de dados de referência.

Xinyu Yang, Zheheng Jiang, Feixiang Zhou + 5 more2026-02-24💻 cs

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Este artigo apresenta o NEO, uma nova família de Modelos Visuais-Linguísticos (VLMs) nativos construída a partir de princípios fundamentais para superar as limitações dos modelos modulares, alinhando representações de pixels e palavras em um espaço semântico compartilhado e oferecendo uma arquitetura monolítica eficiente e acessível para pesquisa escalável.

Haiwen Diao, Mingxuan Li, Silei Wu + 6 more2026-02-24🤖 cs.AI

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Este artigo investiga o impacto da complexidade dos prompts na qualidade, diversidade e consistência de dados sintéticos gerados por modelos de texto-para-imagem, demonstrando que, embora prompts mais complexos reduzam a divergência da distribuição real, eles diminuem a diversidade e a consistência, sendo que a expansão de prompts via modelos de linguagem pré-treinados se destaca como a intervenção mais eficaz para superar até mesmo os dados reais em diversidade e estética.

Zhang Xiaofeng, Aaron Courville, Michal Drozdzal + 1 more2026-02-24💻 cs

← Anterior Próximo →