cs.CV artigos | Gist.Science

DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving

O artigo apresenta o DriveCode, um método inovador de codificação numérica que representa números como embeddings dedicados em vez de tokens de texto, superando as limitações de precisão e eficiência dos modelos de linguagem atuais para melhorar a previsão de trajetórias e a geração de comandos de controle em sistemas de direção autônoma.

Zhiye Wang, Yanbo Jiang, Rui Zhou + 5 more2026-03-03💻 cs

The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors

O estudo revela que os modelos de linguagem e visão (VLMs) falham ao analisar erros de alunos com dificuldades no benchmark DrawEduMath, indicando que, embora sejam competentes na resolução de problemas matemáticos, carecem de incentivos de desenvolvimento adequados para apoiar efetivamente aplicações pedagógicas.

Li Lucy, Albert Zhang, Nathan Anderson + 2 more2026-03-03💬 cs.CL

Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos

Este artigo apresenta o "Beyond8Bits", um grande conjunto de dados subjetivo para vídeos HDR gerados por usuários, e o "HDR-Q", o primeiro modelo de linguagem multimídia projetado especificamente para avaliar a qualidade desses vídeos, superando os métodos tradicionais voltados para SDR.

Shreshth Saini, Bowen Chen, Neil Birkbeck + 3 more2026-03-03🤖 cs.AI

StegoNGP: 3D Cryptographic Steganography using Instant-NGP

O artigo apresenta o StegoNGP, um método inovador de esteganografia criptográfica 3D que utiliza a codificação hash do Instant-NGP para esconder uma cena completa dentro de uma única rede neural indistinguível, oferecendo alta capacidade, robustez e segurança sem necessidade de decodificadores externos ou modificações arquiteturais.

Wenxiang Jiang, Yujun Lan, Shuo Zhao + 3 more2026-03-03💻 cs

When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning

O artigo demonstra que o uso de clamping de margem no aprendizado Contrastivo Forward-Forward pode inflacionar significativamente a variância do treinamento em cenários específicos (como CIFAR-10) devido à saturação de gradientes, mas esse efeito é dependente do conjunto de dados e pode ser mitigado substituindo o clamping por uma subtração de margem neutra em relação ao gradiente.

Joshua Steier2026-03-03🤖 cs.LG

Decoupling Motion and Geometry in 4D Gaussian Splatting

O artigo apresenta o VeGaS, um novo framework de 4D Gaussian Splatting que desacopla o movimento e a geometria das Gausianas através de uma matriz de cisalhamento galileana e de uma rede de deformação geométrica, resultando em reconstruções de cenas dinâmicas de alta fidelidade com estado da arte.

Yi Zhang, Yulei Kang, Jian-Fang Hu2026-03-03💻 cs

EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

O artigo apresenta o EraseAnything++, um framework unificado que utiliza otimização multi-objetivo e técnicas de ajuste de parâmetros para remover conceitos indesejados de modelos de difusão baseados em fluxo e transformadores para geração de imagens e vídeos, garantindo simultaneamente a preservação da qualidade generativa e da consistência temporal.

Zhaoxin Fan, Nanxiang Jiang, Daiheng Gao + 2 more2026-03-03🤖 cs.AI

Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation

Este artigo propõe um framework de pré-treinamento supervisionado sintético que integra lógica anatômica realista e restrições topológicas para superar as limitações de métodos baseados em formas genéricas, resultando em um desempenho superior e escalável para segmentação médica 3D sem violar a privacidade dos dados.

Jiaqi Tang, Mengyan Zheng, Shu Zhang + 2 more2026-03-03💻 cs

Event-Anchored Frame Selection for Effective Long-Video Understanding

Este artigo apresenta o EFS, um módulo plug-and-play e sem treinamento que melhora a compreensão de vídeos longos em modelos LVLM ao selecionar frames-chave baseados em eventos e relevância para a consulta, superando significativamente os métodos de amostragem plana em benchmarks desafiadores.

Wang Chen, Yongdong Luo, Yuhui Zeng + 5 more2026-03-03💻 cs

The Texture-Shape Dilemma: Boundary-Safe Synthetic Generation for 3D Medical Transformers

Este artigo propõe um novo quadro de síntese espacialmente desacoplada inspirado na física que resolve o conflito de aliasing de borda ao separar a geração de texturas da preservação de gradientes, permitindo que Transformers de Visão treinados com dados sintéticos superem métodos existentes na análise de imagens médicas 3D sem depender de dados reais de pacientes.

Jiaqi Tang, Weixuan Xu, Shu Zhang + 2 more2026-03-03💻 cs

Foundation Models in Remote Sensing: Evolving from Unimodality to Multimodality

Este artigo apresenta uma pesquisa técnica abrangente sobre modelos fundamentais em sensoriamento remoto, explorando sua evolução de abordagens unimodais para multimodais, categorizando métodos existentes e oferecendo um guia tutorial para capacitar pesquisadores a treinar e aplicar esses modelos em tarefas do mundo real.

Danfeng Hong, Chenyu Li, Xuyang Li + 2 more2026-03-03💻 cs

MLRecon: Robust Markerless Freehand 3D Ultrasound Reconstruction via Coarse-to-Fine Pose Estimation

O artigo apresenta o MLRecon, um sistema robusto e sem marcadores para reconstrução 3D de ultrassom livre que utiliza uma câmera RGB-D comum e modelos de visão fundacionais para realizar rastreamento de pose preciso e contínuo, superando as limitações de custo e deriva de métodos existentes e estabelecendo um novo padrão para imageamento volumétrico acessível em ambientes clínicos.

Yi Zhang, Puxun Tu, Kun Wang + 3 more2026-03-03💻 cs

GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis

O artigo apresenta o GeodesicNVS, um método de síntese de novas vistas que utiliza o Fluxo de Correspondência Geodésica de Densidade de Probabilidade para aprender transformações determinísticas entre pares de vistas, resultando em maior coerência estrutural e transições mais suaves em comparação com modelos baseados em difusão.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 5 more2026-03-03💻 cs

Implementation of Licensed Plate Detection and Noise Removal in Image Processing

Este artigo discute a implementação de um sistema de reconhecimento de placas de veículos com detecção e remoção de ruído, destacando sua crescente relevância na Malásia para aplicações como controle de tráfego, pedágios e policiamento devido ao aumento do parque automotivo.

Yiquan Gao2026-03-03⚡ eess

RaUF: Learning the Spatial Uncertainty Field of Radar

O artigo apresenta o RaUF, um quadro de aprendizado de campo de incerteza espacial que utiliza um modelo probabilístico anisotrópico e um mecanismo de atenção de domínio bidirecional para resolver ambiguidades e ruídos em dados de radar de ondas milimétricas, resultando em detecções espaciais mais confiáveis e bem calibradas para cenários de condução desafiadores.

Shengpeng Wang, Kuangyu Wang, Wei Wang2026-03-03💻 cs

Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

Este artigo apresenta o CAFE e sua extensão CAFE+, novas técnicas de codificação de frequência que combinam recursos de Fourier e Chebyshev para superar o viés espectral das Representações Neurais Implícitas, permitindo a síntese eficiente e adaptativa de uma gama mais ampla de frequências para capturar detalhes de alta frequência com desempenho superior.

Junbo Ke, Yangyang Xu, You-Wei Wen + 1 more2026-03-03🤖 cs.AI

Vision-Language Feature Alignment for Road Anomaly Segmentation

O artigo apresenta o VL-Anomaly, um framework de segmentação de anomalias em estradas que utiliza alinhamento de características visão-linguagem e aprendizado por prompts para reduzir falsos positivos em fundos normais e melhorar a detecção de obstáculos desconhecidos, alcançando desempenho superior em benchmarks públicos.

Zhuolin He, Jiacheng Tang, Jian Pu + 1 more2026-03-03💻 cs

SMR-Net:Robot Snap Detection Based on Multi-Scale Features and Self-Attention Network

Este artigo apresenta o SMR-Net, um algoritmo de detecção de objetos baseado em atenção e recursos multiescala, desenvolvido para superar as limitações dos métodos visuais tradicionais na detecção e localização precisa de encaixes robóticos complexos, demonstrando melhorias significativas na precisão e eficiência da montagem automatizada.

Kuanxu Hou2026-03-03💻 cs

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

O artigo apresenta o TAR-FAS, um framework de MLLM que aprimora a generalização na detecção de falsificação facial ao reformular a tarefa como um raciocínio em cadeia que combina observações intuitivas com a invocação adaptativa de ferramentas visuais externas para investigar detalhes sutis, resultando em desempenho superior e explicações visuais detalhadas.

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

O artigo apresenta o MM-DeepResearch, um agente de pesquisa multimodal que supera desafios como a escassez de dados e os custos de treinamento ao combinar a geração de dados via Hyper-Search, a otimização de especialistas em ferramentas de busca com DR-TTS e um mecanismo de aprendizado por reforço offline, resultando em um sistema capaz de raciocínio explícito e síntese de informações cruzadas.

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

← Anterior Próximo →