cs.CV artigos | Gist.Science

Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation

Este artigo propõe um framework de pré-treinamento supervisionado sintético que integra lógica anatômica realista e restrições topológicas para superar as limitações de métodos baseados em formas genéricas, resultando em um desempenho superior e escalável para segmentação médica 3D sem violar a privacidade dos dados.

Jiaqi Tang, Mengyan Zheng, Shu Zhang + 2 more2026-03-03💻 cs

Event-Anchored Frame Selection for Effective Long-Video Understanding

Este artigo apresenta o EFS, um módulo plug-and-play e sem treinamento que melhora a compreensão de vídeos longos em modelos LVLM ao selecionar frames-chave baseados em eventos e relevância para a consulta, superando significativamente os métodos de amostragem plana em benchmarks desafiadores.

Wang Chen, Yongdong Luo, Yuhui Zeng + 5 more2026-03-03💻 cs

The Texture-Shape Dilemma: Boundary-Safe Synthetic Generation for 3D Medical Transformers

Este artigo propõe um novo quadro de síntese espacialmente desacoplada inspirado na física que resolve o conflito de aliasing de borda ao separar a geração de texturas da preservação de gradientes, permitindo que Transformers de Visão treinados com dados sintéticos superem métodos existentes na análise de imagens médicas 3D sem depender de dados reais de pacientes.

Jiaqi Tang, Weixuan Xu, Shu Zhang + 2 more2026-03-03💻 cs

Foundation Models in Remote Sensing: Evolving from Unimodality to Multimodality

Este artigo apresenta uma pesquisa técnica abrangente sobre modelos fundamentais em sensoriamento remoto, explorando sua evolução de abordagens unimodais para multimodais, categorizando métodos existentes e oferecendo um guia tutorial para capacitar pesquisadores a treinar e aplicar esses modelos em tarefas do mundo real.

Danfeng Hong, Chenyu Li, Xuyang Li + 2 more2026-03-03💻 cs

MLRecon: Robust Markerless Freehand 3D Ultrasound Reconstruction via Coarse-to-Fine Pose Estimation

O artigo apresenta o MLRecon, um sistema robusto e sem marcadores para reconstrução 3D de ultrassom livre que utiliza uma câmera RGB-D comum e modelos de visão fundacionais para realizar rastreamento de pose preciso e contínuo, superando as limitações de custo e deriva de métodos existentes e estabelecendo um novo padrão para imageamento volumétrico acessível em ambientes clínicos.

Yi Zhang, Puxun Tu, Kun Wang + 3 more2026-03-03💻 cs

GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis

O artigo apresenta o GeodesicNVS, um método de síntese de novas vistas que utiliza o Fluxo de Correspondência Geodésica de Densidade de Probabilidade para aprender transformações determinísticas entre pares de vistas, resultando em maior coerência estrutural e transições mais suaves em comparação com modelos baseados em difusão.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 5 more2026-03-03💻 cs

Implementation of Licensed Plate Detection and Noise Removal in Image Processing

Este artigo discute a implementação de um sistema de reconhecimento de placas de veículos com detecção e remoção de ruído, destacando sua crescente relevância na Malásia para aplicações como controle de tráfego, pedágios e policiamento devido ao aumento do parque automotivo.

Yiquan Gao2026-03-03⚡ eess

RaUF: Learning the Spatial Uncertainty Field of Radar

O artigo apresenta o RaUF, um quadro de aprendizado de campo de incerteza espacial que utiliza um modelo probabilístico anisotrópico e um mecanismo de atenção de domínio bidirecional para resolver ambiguidades e ruídos em dados de radar de ondas milimétricas, resultando em detecções espaciais mais confiáveis e bem calibradas para cenários de condução desafiadores.

Shengpeng Wang, Kuangyu Wang, Wei Wang2026-03-03💻 cs

Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

Este artigo apresenta o CAFE e sua extensão CAFE+, novas técnicas de codificação de frequência que combinam recursos de Fourier e Chebyshev para superar o viés espectral das Representações Neurais Implícitas, permitindo a síntese eficiente e adaptativa de uma gama mais ampla de frequências para capturar detalhes de alta frequência com desempenho superior.

Junbo Ke, Yangyang Xu, You-Wei Wen + 1 more2026-03-03🤖 cs.AI

Vision-Language Feature Alignment for Road Anomaly Segmentation

O artigo apresenta o VL-Anomaly, um framework de segmentação de anomalias em estradas que utiliza alinhamento de características visão-linguagem e aprendizado por prompts para reduzir falsos positivos em fundos normais e melhorar a detecção de obstáculos desconhecidos, alcançando desempenho superior em benchmarks públicos.

Zhuolin He, Jiacheng Tang, Jian Pu + 1 more2026-03-03💻 cs

SMR-Net:Robot Snap Detection Based on Multi-Scale Features and Self-Attention Network

Este artigo apresenta o SMR-Net, um algoritmo de detecção de objetos baseado em atenção e recursos multiescala, desenvolvido para superar as limitações dos métodos visuais tradicionais na detecção e localização precisa de encaixes robóticos complexos, demonstrando melhorias significativas na precisão e eficiência da montagem automatizada.

Kuanxu Hou2026-03-03💻 cs

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

O artigo apresenta o TAR-FAS, um framework de MLLM que aprimora a generalização na detecção de falsificação facial ao reformular a tarefa como um raciocínio em cadeia que combina observações intuitivas com a invocação adaptativa de ferramentas visuais externas para investigar detalhes sutis, resultando em desempenho superior e explicações visuais detalhadas.

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

O artigo apresenta o MM-DeepResearch, um agente de pesquisa multimodal que supera desafios como a escassez de dados e os custos de treinamento ao combinar a geração de dados via Hyper-Search, a otimização de especialistas em ferramentas de busca com DR-TTS e um mecanismo de aprendizado por reforço offline, resultando em um sistema capaz de raciocínio explícito e síntese de informações cruzadas.

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures

O artigo propõe o framework ELF-VLA, que supera as limitações de exploração dos modelos VLA em direção autônoma ao incorporar feedback diagnóstico explícito sobre falhas, permitindo refinamentos guiados que alcançam desempenho de ponta no benchmark NAVSIM.

Yuechen Luo, Qimao Chen, Fang Li + 5 more2026-03-03💻 cs

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

O artigo apresenta o LLaDA-o, um modelo de difusão omni multimodal eficiente e adaptável ao comprimento, baseado em um framework de Mistura de Difusão (MoD) que alcança desempenho de ponta na compreensão e geração multimodal.

Zebin You, Xiaolu Zhang, Jun Zhou + 2 more2026-03-03🤖 cs.LG

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

O artigo apresenta o SHIELD8-UAV, um acelerador de hardware 8-bit sequencial e de baixo consumo que utiliza uma CNN 1D com quantização adaptativa e poda estruturada para realizar detecção acústica e rastreamento de drones em tempo real com alta eficiência energética e precisão em plataformas de borda.

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

Adaptive Augmentation-Aware Latent Learning for Robust LiDAR Semantic Segmentation

O artigo apresenta o A3Point, um novo framework de aprendizado latente adaptativo que melhora a robustez da segmentação semântica de nuvens de pontos LiDAR em condições climáticas adversas, mitigando a mudança semântica através da localização de regiões de deslocamento e do aprendizado de confusão semântica para otimizar o uso de diversas ampliações de dados.

Wangkai Li, Zhaoyang Li, Yuwen Pan + 3 more2026-03-03💻 cs

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Este artigo apresenta o MCMR, um novo benchmark em larga escala para avaliação de recuperação multimodal de alta granularidade sob múltiplas condições interdependentes, demonstrando que os rerankers baseados em MLLM melhoram significativamente a correspondência ao verificar explicitamente a consistência entre consultas e candidatos.

Xuan Lu, Kangle Li, Haohang Huang + 3 more2026-03-03💻 cs

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

Este trabalho apresenta o AesEval-Bench, um benchmark abrangente e um conjunto de dados para avaliar e aprimorar a capacidade de Modelos de Visão e Linguagem (VLMs) em julgar a estética do design gráfico, superando as limitações de estudos anteriores através de uma avaliação sistemática e de um framework de treinamento inovador.

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Unified Vision-Language Modeling via Concept Space Alignment

O artigo apresenta o V-SONAR, um espaço de incorporação unificado de visão e linguagem que alinha codificadores visuais ao espaço SONAR existente, permitindo que modelos como o V-LCM superem os modelos state-of-the-art em tarefas multilíngues e multimodais, como legendagem de vídeo e compreensão de conceitos visuais, especialmente em idiomas de recursos limitados.

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk2026-03-03💬 cs.CL

← Anterior Próximo →