cs.CV artigos | Gist.Science

RaUF: Learning the Spatial Uncertainty Field of Radar

O artigo apresenta o RaUF, um quadro de aprendizado de campo de incerteza espacial que utiliza um modelo probabilístico anisotrópico e um mecanismo de atenção de domínio bidirecional para resolver ambiguidades e ruídos em dados de radar de ondas milimétricas, resultando em detecções espaciais mais confiáveis e bem calibradas para cenários de condução desafiadores.

Shengpeng Wang, Kuangyu Wang, Wei Wang2026-03-03💻 cs

Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

Este artigo apresenta o CAFE e sua extensão CAFE+, novas técnicas de codificação de frequência que combinam recursos de Fourier e Chebyshev para superar o viés espectral das Representações Neurais Implícitas, permitindo a síntese eficiente e adaptativa de uma gama mais ampla de frequências para capturar detalhes de alta frequência com desempenho superior.

Junbo Ke, Yangyang Xu, You-Wei Wen + 1 more2026-03-03🤖 cs.AI

Vision-Language Feature Alignment for Road Anomaly Segmentation

O artigo apresenta o VL-Anomaly, um framework de segmentação de anomalias em estradas que utiliza alinhamento de características visão-linguagem e aprendizado por prompts para reduzir falsos positivos em fundos normais e melhorar a detecção de obstáculos desconhecidos, alcançando desempenho superior em benchmarks públicos.

Zhuolin He, Jiacheng Tang, Jian Pu + 1 more2026-03-03💻 cs

SMR-Net:Robot Snap Detection Based on Multi-Scale Features and Self-Attention Network

Este artigo apresenta o SMR-Net, um algoritmo de detecção de objetos baseado em atenção e recursos multiescala, desenvolvido para superar as limitações dos métodos visuais tradicionais na detecção e localização precisa de encaixes robóticos complexos, demonstrando melhorias significativas na precisão e eficiência da montagem automatizada.

Kuanxu Hou2026-03-03💻 cs

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

O artigo apresenta o TAR-FAS, um framework de MLLM que aprimora a generalização na detecção de falsificação facial ao reformular a tarefa como um raciocínio em cadeia que combina observações intuitivas com a invocação adaptativa de ferramentas visuais externas para investigar detalhes sutis, resultando em desempenho superior e explicações visuais detalhadas.

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

O artigo apresenta o MM-DeepResearch, um agente de pesquisa multimodal que supera desafios como a escassez de dados e os custos de treinamento ao combinar a geração de dados via Hyper-Search, a otimização de especialistas em ferramentas de busca com DR-TTS e um mecanismo de aprendizado por reforço offline, resultando em um sistema capaz de raciocínio explícito e síntese de informações cruzadas.

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures

O artigo propõe o framework ELF-VLA, que supera as limitações de exploração dos modelos VLA em direção autônoma ao incorporar feedback diagnóstico explícito sobre falhas, permitindo refinamentos guiados que alcançam desempenho de ponta no benchmark NAVSIM.

Yuechen Luo, Qimao Chen, Fang Li + 5 more2026-03-03💻 cs

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

O artigo apresenta o LLaDA-o, um modelo de difusão omni multimodal eficiente e adaptável ao comprimento, baseado em um framework de Mistura de Difusão (MoD) que alcança desempenho de ponta na compreensão e geração multimodal.

Zebin You, Xiaolu Zhang, Jun Zhou + 2 more2026-03-03🤖 cs.LG

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

O artigo apresenta o SHIELD8-UAV, um acelerador de hardware 8-bit sequencial e de baixo consumo que utiliza uma CNN 1D com quantização adaptativa e poda estruturada para realizar detecção acústica e rastreamento de drones em tempo real com alta eficiência energética e precisão em plataformas de borda.

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

Adaptive Augmentation-Aware Latent Learning for Robust LiDAR Semantic Segmentation

O artigo apresenta o A3Point, um novo framework de aprendizado latente adaptativo que melhora a robustez da segmentação semântica de nuvens de pontos LiDAR em condições climáticas adversas, mitigando a mudança semântica através da localização de regiões de deslocamento e do aprendizado de confusão semântica para otimizar o uso de diversas ampliações de dados.

Wangkai Li, Zhaoyang Li, Yuwen Pan + 3 more2026-03-03💻 cs

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Este artigo apresenta o MCMR, um novo benchmark em larga escala para avaliação de recuperação multimodal de alta granularidade sob múltiplas condições interdependentes, demonstrando que os rerankers baseados em MLLM melhoram significativamente a correspondência ao verificar explicitamente a consistência entre consultas e candidatos.

Xuan Lu, Kangle Li, Haohang Huang + 3 more2026-03-03💻 cs

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

Este trabalho apresenta o AesEval-Bench, um benchmark abrangente e um conjunto de dados para avaliar e aprimorar a capacidade de Modelos de Visão e Linguagem (VLMs) em julgar a estética do design gráfico, superando as limitações de estudos anteriores através de uma avaliação sistemática e de um framework de treinamento inovador.

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Unified Vision-Language Modeling via Concept Space Alignment

O artigo apresenta o V-SONAR, um espaço de incorporação unificado de visão e linguagem que alinha codificadores visuais ao espaço SONAR existente, permitindo que modelos como o V-LCM superem os modelos state-of-the-art em tarefas multilíngues e multimodais, como legendagem de vídeo e compreensão de conceitos visuais, especialmente em idiomas de recursos limitados.

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk2026-03-03💬 cs.CL

Differential privacy representation geometry for medical image analysis

Este artigo apresenta o DP-RGMI, um novo framework que analisa a perda de utilidade na privacidade diferencial para imagens médicas ao decompor o desempenho em geometria da representação e utilização da tarefa, revelando que a privacidade altera a anisotropia das representações e cria uma lacuna de utilização mesmo quando a separabilidade linear é preservada.

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting

O artigo apresenta o StrokeDiff, um framework baseado em modelos de difusão com Regularização Suave (SmR) que permite a geração eficiente de pinceladas realistas para pinturas a óleo a partir de um conjunto de dados limitado, oferecendo ao mesmo tempo controle estruturado e integração em um pipeline completo de criação artística.

Dantong Qin, Alessandro Bozzon, Xian Yang + 3 more2026-03-03💻 cs

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

O artigo apresenta o "Egocentric Co-Pilot", um agente de óculos inteligentes baseado em uma estrutura neuro-simbólica nativa da web que combina modelos de linguagem, raciocínio temporal e compressão de contexto para fornecer assistência contínua e acessível em tempo real, demonstrando superioridade em tarefas de perguntas e respostas egocêntricas e satisfação do usuário em comparação com soluções comerciais.

Sicheng Yang, Yukai Huang, Weitong Cai + 8 more2026-03-03🤖 cs.AI

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

O artigo apresenta o GroundedSurg, o primeiro benchmark de referência linguística para segmentação de instrumentos cirúrgicos em nível de instância, que avalia a capacidade de modelos de visão e linguagem de localizar ferramentas específicas com base em descrições naturais e relações espaciais em diversos cenários cirúrgicos.

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation

O artigo apresenta o GuiDINO, um framework que reposiciona modelos de visão fundamentais como geradores de orientação visual para segmentação médica, utilizando um mecanismo leve para transformar características do DINOv3 em máscaras-guia que melhoram a precisão e a robustez de bordas sem a necessidade de ajuste fino completo.

Zhuonan Liang, Wei Guo, Jie Gan + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

O artigo apresenta o ClinCoT, um framework de cadeia de pensamento visual consciente do contexto clínico que supera as alucinações factuais em modelos de linguagem e visão médica ao transformar a otimização de preferência de correção de resposta para raciocínio guiado por evidências visuais, utilizando um pipeline de geração de dados automatizado e uma estratégia de otimização iterativa baseada em pontuação.

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

O artigo propõe o modelo PR-A $^2$ CL, que utiliza Aprendizado Contrastivo de Anomalia Aumentada e um paradigma de prever-e-verificar com Blocos de Raciocínio de Anomalia Preditiva para superar os desafios de raciocínio visual em relações composicionais, demonstrando desempenho superior em conjuntos de dados como SVRT, CVR e MC $^2$ R.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

← Anterior Próximo →