cs.CV artigos | Gist.Science

Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

Este artigo propõe um método prático e sem treinamento para gerar imagens sintéticas de defeitos em isoladores de linhas de energia utilizando modelos de linguagem multimodal, demonstrando que essa abordagem de aumento de dados melhora significativamente a precisão na classificação de defeitos em cenários com escassez de dados reais.

Xuesong Wang, Caisheng Wang2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

O artigo TALON propõe um framework de aprendizado adaptativo em tempo de teste para descoberta de categorias sob demanda, que supera as limitações de métodos baseados em hash ao atualizar dinamicamente protótipos semânticos e o codificador, evitando a fragmentação de classes e melhorando significativamente a precisão na identificação de novas categorias.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

Este artigo propõe uma transição da inteligência artificial reativa para uma baseada em mapas, utilizando um modelo Llama-2 ajustado via LoRA para inferir zonas semânticas e integrar essas informações a um sistema de mapeamento híbrido, resultando em uma navegação a objetivos mais eficiente e com menor exploração redundante em ambientes desconhecidos.

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

O artigo apresenta o DSH-Bench, um novo benchmark abrangente para geração de imagens de texto orientada a sujeitos que supera as limitações existentes através de uma taxonomia hierárquica, uma avaliação granular de dificuldade e cenários, e uma nova métrica de consistência de identidade, oferecendo insights diagnósticos cruciais para o aprimoramento de modelos.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization

O TrianguLang é um novo framework de inferência direta para localização 3D guiada por texto que alcança estado da arte em precisão e consistência geométrica sem exigir calibração de câmera ou otimização por cena, permitindo aplicações práticas em robótica e realidade aumentada.

Bryce Grant, Aryeh Rothenberg, Atri Banerjee, Peng Wang2026-03-10💻 cs

Adaptive MLP Pruning for Large Vision Transformers

Este artigo propõe o método de Poda Adaptativa de MLP (AMP), que utiliza um critério de entropia de informação sem rótulos e uma busca binária para reduzir automaticamente cerca de 40% dos parâmetros e FLOPs de grandes Transformers de visão, como CLIP e DINOv2, mantendo o desempenho quase sem perdas.

Chengchao Shen2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

O artigo apresenta o SAMoE-VLA, um modelo de visão-linguagem-ação para direção autônoma que substitui os mecanismos de mistura de especialistas baseados em tokens por uma seleção adaptativa ao cenário baseada em representações de visão de pássaro, resultando em desempenho superior e maior estabilidade de segurança.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

O artigo apresenta o FoleyFlow, um modelo que gera áudio sincronizado com vídeos utilizando alinhamento multimodal baseado em mascaramento e um fluxo condicional dinâmico para garantir coerência semântica e rítmica, superando os métodos existentes em benchmarks padrão.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

O artigo apresenta o UniGround, um método de treinamento livre que supera as limitações dos modelos pré-treinados no Grounding Visual 3D ao utilizar raciocínio visual e geométrico em duas etapas para localizar objetos em qualquer cena, estabelecendo novos recordes de estado da arte em métodos zero-shot sem supervisão 3D.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

O artigo apresenta o FLED-GS, um framework rápido que reformata a restauração de cenas 3D escuras como um ciclo alternado de realce e reconstrução, superando os métodos atuais ao evitar a amplificação de ruído e alcançar velocidades de treinamento e renderização significativamente superiores.

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

VesselFusion: Diffusion Models for Vessel Centerline Extraction from 3D CT Images

O artigo apresenta o VesselFusion, um modelo de difusão que utiliza uma representação de centro de vaso do grosseiro ao fino e agregação baseada em votação para extrair com maior precisão e naturalidade as linhas centrais de vasos a partir de imagens de TC 3D, superando as abordagens determinísticas convencionais.

Soichi Mita, Shumpei Takezaki, Ryoma Bise2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

O artigo apresenta o MV-Fashion, um grande conjunto de dados de vídeo multi-visão com anotações detalhadas e pares de imagens de roupas vestidas e planas, projetado para superar as limitações existentes em pesquisas de moda e permitir tarefas como provação virtual e estimativa de tamanho.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

O artigo apresenta o Edged USLAM, um sistema híbrido visual-inercial que combina uma frente de borda consciente e um módulo de profundidade leve para superar as limitações de iluminação e movimento rápido das câmeras convencionais, oferecendo uma localização robusta e precisa em diversas condições de voo de UAV.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

O artigo apresenta o MERLIN, um novo framework de treinamento para Modelos de Linguagem Multimodal (MLLMs) no domínio de sinais eletromagnéticos, que supera desafios críticos de escassez de dados e robustez em baixas relações sinal-ruído através da introdução do conjunto de dados EM-100k, da avaliação padronizada EM-Bench e de um modelo otimizado para ambientes desafiadores.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

O artigo apresenta o ALOOD, uma abordagem inovadora que utiliza representações linguísticas de modelos visão-linguagem para alinhar características de detecção LiDAR e tratar a identificação de objetos fora da distribuição como uma tarefa de classificação zero-shot, melhorando a segurança em sistemas de direção autônoma.

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

O artigo apresenta o Fusion-Poly, um novo framework de fusão espaço-temporal para rastreamento 3D de múltiplos objetos que integra dados assíncronos de LiDAR e câmeras para superar limitações de sincronização e alcançar o estado da arte no conjunto de dados nuScenes.

Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun2026-03-10💻 cs

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

O artigo apresenta o MM-TS, um método que melhora o aprendizado contrastivo multimodal com dados de cauda longa ao introduzir agendamentos dinâmicos de temperatura e margem que adaptam as forças de atração e repulsão com base na distribuição local das amostras, unificando as abordagens InfoNCE e de margem máxima para alcançar resultados state-of-the-art em diversos conjuntos de dados de imagem e vídeo.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Este estudo propõe duas estratégias de fusão multimodal, RGIF e RGMAF, que combinam registro espacial e mecanismos de atenção ponderados por confiabilidade para superar as limitações de sensores heterogêneos e melhorar significativamente a detecção de veículos aéreos não tripulados (UAVs) em ambientes complexos.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

O artigo apresenta o Video2LoRA, um framework escalável e eficiente que utiliza uma hiper-rede leve para prever pesos LoRA personalizados a partir de vídeos de referência, permitindo a geração de vídeos semanticamente alinhados com alta generalização e sem necessidade de treinamento adicional por condição.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

O artigo apresenta o SAVE, um método de aprendizado de representação de vídeo que supera os atuais métodos de ponta ao incorporar uma ramificação dedicada para processar o conteúdo de fala e utilizar o soft-ALBEF para alinhamento precoce entre visão e áudio, resultando em melhorias significativas em cinco benchmarks de recuperação vídeo-texto.

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs

← Anterior Próximo →