cs.CV artigos | Gist.Science

Dark3R: Learning Structure from Motion in the Dark

O artigo apresenta o Dark3R, um novo framework que utiliza distilação de modelos fundacionais 3D e treinamento apenas com pares de imagens ruidosas-limpos para realizar estrutura a partir do movimento e síntese de novas visualizações em condições de extrema baixa luminosidade (SNR abaixo de -4 dB), superando os métodos convencionais.

Andrew Y Guo, Anagh Malik, SaiKiran Tedla + 7 more2026-03-06💻 cs

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

O OpenFrontier é um framework de navegação sem treinamento que utiliza fronteiras visuais como âncoras semânticas para integrar modelos de visão e linguagem, permitindo que robôs realizem navegação em ambientes abertos com alto desempenho zero-shot sem a necessidade de mapeamento 3D denso ou ajuste fino.

Esteban Padilla, Boyang Sun, Marc Pollefeys + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Este trabalho apresenta o ORMOT, uma nova tarefa de rastreamento multi-objeto omnidirecional guiada por linguagem, acompanhada do dataset ORSet e do framework ORTrack baseado em Modelos de Linguagem e Visão de Grande Escala (LVLM), projetados para superar as limitações de campo de visão dos métodos tradicionais e melhorar o rastreamento de objetos em cenas panorâmicas.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations

O artigo apresenta o Fusion-CAM, um novo quadro de trabalho que integra mapas de ativação de classe baseados em gradientes e em regiões por meio de um mecanismo de fusão adaptativa, gerando explicações visuais mais robustas, discriminativas e contextualmente ricas para redes neurais convolucionais profundas.

Hajar Dekdegue, Moncef Garouani, Josiane Mothe + 1 more2026-03-06💻 cs

Loop Closure via Maximal Cliques in 3D LiDAR-Based SLAM

Este artigo apresenta o CliReg, um algoritmo determinístico baseado na busca de cliques máximos que substitui o RANSAC para validação de fechamento de laço em SLAM baseado em LiDAR 3D, demonstrando maior robustez, precisão e confiabilidade em condições de ruído e ambiguidade ambiental.

Javier Laserna, Saurabh Gupta, Oscar Martinez Mozos + 2 more2026-03-06💻 cs

Video-based Locomotion Analysis for Fish Health Monitoring

Este artigo apresenta um sistema baseado em rastreamento de múltiplos objetos e no detector YOLOv11 para analisar a locomoção de peixes a partir de vídeos, visando a detecção precoce de doenças e o monitoramento da saúde em aquicultura.

Timon Palm, Clemens Seibold, Anna Hilsmann + 1 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

O artigo apresenta o MobileFetalCLIP, um modelo de aprendizado profundo leve que utiliza uma técnica inovadora de destilação de conhecimento repulsiva seletiva para superar as limitações de capacidade de modelos maiores, permitindo a análise em tempo real de ultrassons fetais em dispositivos móveis com desempenho superior ao do modelo professor.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

RelaxFlow: Text-Driven Amodal 3D Generation

O artigo apresenta o RelaxFlow, um framework sem treinamento que resolve a ambiguidade semântica na geração 3D a partir de imagens sob oclusão ao utilizar prompts de texto para completar regiões invisíveis, preservando rigidamente a observação original enquanto aplica um controle estrutural relaxado para alinhar a geometria gerada com a intenção do prompt.

Jiayin Zhu, Guoji Fu, Xiaolu Liu + 3 more2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

O artigo apresenta o SAIL, um método de aprendizado para legendagem densa de vídeos fraca-supervisionada que supera as limitações de abordagens anteriores ao utilizar alinhamento cross-modal para criar máscaras semanticamente conscientes e uma estratégia de aumento baseada em LLM para gerar legendas sintéticas, alcançando desempenho state-of-the-art nas métricas de legendagem e localização temporal.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

O artigo apresenta o CompACT, um tokenizador discreto compacto que comprime observações em apenas 8 tokens, permitindo que modelos de mundo realizem planejamento de decisão em tempo real com custo computacional drasticamente reduzido e desempenho competitivo.

Dongwon Kim, Gawon Seo, Jinsung Lee + 2 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

O artigo apresenta o NaiLIA, um método de recuperação multimodal de designs de unhas que alinha descrições de intenção densas e consultas de paleta de cores, superando os modelos existentes e validado por meio de um novo benchmark com mais de 10.000 imagens anotadas.

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs

RealWonder: Real-Time Physical Action-Conditioned Video Generation

O artigo apresenta o RealWonder, o primeiro sistema em tempo real que gera vídeos condicionados a ações físicas a partir de uma única imagem, utilizando simulação física como ponte intermediária para permitir a interação com objetos rígidos, corpos deformáveis, fluidos e materiais granulares em aplicações como AR/VR e aprendizado robótico.

Wei Liu, Ziyu Chen, Zizhang Li + 3 more2026-03-06🤖 cs.AI

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

O artigo apresenta o agendador Longest Stable Prefix (LSP), uma abordagem de inferência sem treinamento que acelera a geração de texto em Modelos de Linguagem de Difusão (DLMs) em até 3,4 vezes ao substituir a aceitação fragmentada por uma absorção monolítica de prefixos, otimizando assim o uso da cache KV e melhorando a eficiência de hardware sem comprometer a qualidade do texto.

Pengxiang Li, Joey Tsai, Hongwei Xue + 2 more2026-03-06💻 cs

EdgeDAM: Real-time Object Tracking for Mobile Devices

O artigo apresenta o EdgeDAM, um framework de rastreamento de objetos leve e guiado por detecção que utiliza memória dupla e mecanismos de estabilização para garantir rastreamento robusto em tempo real em dispositivos móveis, superando desafios como oclusão e interferência de distratores.

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam + 2 more2026-03-06💻 cs

HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

O artigo HALP demonstra que é possível detectar alucinações em modelos de linguagem e visão antes da geração de qualquer token, utilizando sondas treinadas em representações internas para alcançar alta precisão e permitir intervenções precoces de segurança e eficiência.

Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun + 1 more2026-03-06💻 cs

Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields

Este artigo propõe o uso de Campos Neurais de Radiância (NeRFs) adaptados para reconstruir cenas 3D a partir de imagens hiperespectrais no infravermelho de ondas longas (LWIR), demonstrando que essa abordagem permite a detecção eficaz de plumas de gás com menos imagens de treinamento e alta qualidade de renderização.

Scout Jarman, Zigfried Hampel-Arias, Adra Carr + 1 more2026-03-06💻 cs

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Este trabalho apresenta o MM-Lifelong, um novo conjunto de dados de 181,1 horas para compreensão multimodal de longo prazo, e propõe o Agente Multimodal Recursivo (ReMA) para superar as limitações de memória e localização global dos métodos atuais, estabelecendo uma base rigorosa para pesquisas futuras.

Guo Chen, Lidong Lu, Yicheng Liu + 17 more2026-03-06💻 cs

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

O artigo apresenta o CalibAtt, um método livre de treinamento que acelera a geração de vídeo por meio de atenção esparsa calibrada, identificando e pulando padrões de atenção redundantes para alcançar até 1,58x de velocidade sem comprometer a qualidade.

Shai Yehezkel, Shahar Yadin, Noam Elata + 2 more2026-03-06💻 cs

FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning

O artigo apresenta o FaceCam, um sistema inovador que gera vídeos de retratos humanos com trajetórias de câmera personalizáveis e sem distorções geométricas, utilizando uma representação de condicionamento de escala consciente e estratégias de treinamento híbridas para superar as limitações dos métodos anteriores.

Weijie Lyu, Ming-Hsuan Yang, Zhixin Shu2026-03-06💻 cs

Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

Este artigo propõe um método de inpainting baseado em transformadores e sensível a múltiplas vistas, projetado como um módulo pós-processamento independente para preencher lacunas de textura em tempo real em streaming 3D com câmeras esparsas, garantindo consistência espaço-temporal e alto desempenho sem depender da representação subjacente.

Leif Van Holland, Domenic Zingsheim, Mana Takhsha + 4 more2026-03-06💻 cs

← Anterior Próximo →