cs.CV artigos | Gist.Science

Auto Quantum Machine Learning for Multisource Classification

Este trabalho apresenta uma abordagem de Aprendizado de Máquina Quântica Automatizado (AQML) para fusão de dados multissource, demonstrando que os circuitos quânticos gerados automaticamente superam tanto redes neurais clássicas quanto modelos quânticos manuais, alcançando maior precisão na detecção de mudanças no conjunto de dados ONERA multiespectral.

Tomasz Rybotycki, Sebastian Dziura, Piotr Gawron2026-02-24⚛️ quant-ph

Information-Guided Noise Allocation for Efficient Diffusion Training

O artigo apresenta o InfoNoise, um método de agendamento de ruído adaptativo e guiado por teoria da informação que otimiza o treinamento de modelos de difusão ao identificar e corrigir alocações subótimas de ruído, resultando em maior eficiência computacional e qualidade superior em comparação com agendamentos manuais.

Gabriel Raya, Bac Nguyen, Georgios Batzolis + 6 more2026-02-24🤖 cs.LG

Systematic Analysis of Coupling Effects on Closed-Loop and Open-Loop Performance in Aerial Continuum Manipulators

Este artigo analisa sistematicamente os efeitos do acoplamento na modelagem dinâmica de manipuladores contínuos aéreos, demonstrando que, embora o modelo desacoplado apresente discrepâncias significativas em simulações de malha aberta, ele alcança precisão de rastreamento comparável ao modelo acoplado em controle de malha fechada, oferecendo simultaneamente menor custo computacional.

Niloufar Amiri, Shayan Sepahvand, Iraj Mantegh + 1 more2026-02-24💻 cs

Neural Fields as World Models

O artigo propõe "modelos de mundo isomórficos" baseados em campos neurais que preservam a topologia sensorial para prever física através de propagação geométrica, demonstrando que essa abordagem permite transferência mais rápida de políticas de imaginação para a realidade e o surgimento espontâneo de codificação corporal seletiva.

Joshua Nunley2026-02-24🧬 q-bio

Deep LoRA-Unfolding Networks for Image Restoration

O artigo apresenta o LoRun, uma rede de desdobramento profundo que utiliza adaptadores LoRA leves e específicos para cada estágio sobre um único denoiser pré-treinado, superando a redundância de parâmetros e a falta de adaptação às etapas das redes existentes para restauração de imagens com maior eficiência e desempenho.

Xiangming Wang, Haijin Zeng, Benteng Sun + 4 more2026-02-24💻 cs

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

O artigo apresenta o Video-TwG, um framework de aprendizado por reforço com currículo que introduz o paradigma "pensar com fundamentação" para permitir que modelos de linguagem de vídeo realizem fundamentação sob demanda em clipes específicos durante o raciocínio, superando assim as alucinações e a redundância temporal comuns na compreensão de vídeos longos.

Houlun Chen, Xin Wang, Guangyao Li + 4 more2026-02-24🤖 cs.AI

HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

O artigo apresenta o HIME, um método de edição de modelo que utiliza uma pontuação de insensibilidade à alucinação para identificar e editar seletivamente camadas específicas em Modelos Visuais-Linguísticos, reduzindo significativamente as alucinações de objetos sem custos computacionais adicionais ou perda de conhecimento pré-treinado.

Ahmed Akl, Abdelwahed Khamis, Ali Cheraghian + 3 more2026-02-24💻 cs

NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

O artigo apresenta o NeXt2Former-CD, um novo framework de detecção de mudanças em imagens de sensoriamento remoto que integra arquiteturas modernas de visão (ConvNeXt, atenção deformável e Mask2Former) para superar as limitações de ruído e ambiguidade, superando métodos baseados em Modelos de Espaço de Estado (SSM) em precisão e mantendo latência de inferência competitiva.

Yufan Wang, Sokratis Makrogiannis, Chandra Kambhamettu2026-02-24💻 cs

Subtle Motion Blur Detection and Segmentation from Static Image Artworks

Este artigo apresenta o SMBlurDetect, um framework unificado que combina a geração de um dataset específico de alta qualidade com um detector baseado em U-Net para identificar e segmentar com precisão desfoques de movimento sutis em imagens estáticas, superando significativamente os métodos existentes em generalização zero-shot e métricas de segmentação.

Ganesh Samarth, Sibendu Paul, Solale Tabarestani + 1 more2026-02-24💻 cs

Phase-Consistent Magnetic Spectral Learning for Multi-View Clustering

Este artigo propõe uma nova abordagem de aprendizado espectral magnético consistente de fase para agrupamento multi-visão, que modela a concordância direcional entre visões como um termo de fase em afinidades complexas para extrair um sinal espectral compartilhado estável e superar as limitações dos métodos existentes que dependem apenas de magnitudes ou alvos pseudo iniciais.

Mingdong Lu, Zhikui Chen, Meng Liu + 2 more2026-02-24🤖 cs.LG

MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

O artigo apresenta o MiSCHiEF, um benchmark composto por dois conjuntos de dados contrastivos (MiS e MiC) para avaliar a capacidade de modelos de linguagem e visão (VLMs) de realizar alinhamento imagem-legenda de alta granularidade em cenários críticos de segurança e cultura, revelando desafios persistentes na distinção de nuances visuais e semânticas sutis.

Sagarika Banerjee, Tangatar Madi, Advait Swaminathan + 4 more2026-02-24🤖 cs.AI

RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

O RoboCurate é um novo framework de geração de dados sintéticos para aprendizado robótico que valida a qualidade das ações anotadas comparando-as com simulações e aumenta a diversidade de observações através de edição de imagens, resultando em melhorias significativas nas taxas de sucesso em comparação com o uso exclusivo de dados reais.

Seungku Kim, Suhyeok Jang, Byungjun Yoon + 3 more2026-02-24🤖 cs.AI

Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

Este artigo apresenta o GeoCode, um novo conjunto de dados sintetizado que gera problemas complexos de geometria multimodal com código de plotagem para garantir consistência visual e simbólica, permitindo que modelos de linguagem visuais aprendam alinhamento estruturado e melhorem seu raciocínio geométrico em diversos benchmarks.

Haobo Lin, Tianyi Bai, Chen Chen + 4 more2026-02-24🤖 cs.AI

Benchmarking Computational Pathology Foundation Models For Semantic Segmentation

Este estudo apresenta um benchmark robusto que avalia dez modelos de fundação para segmentação semântica em patologia computacional, demonstrando que o modelo CONCH obteve o melhor desempenho individual e que a concatenação de características de múltiplos modelos supera significativamente os resultados individuais, oferecendo uma abordagem rápida, interpretável e sem necessidade de ajuste fino.

Lavish Ramchandani, Aashay Tinaikar, Dev Kumar Das + 2 more2026-02-24💻 cs

Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement

O artigo apresenta o EditedID, uma solução sem treinamento e plug-and-play baseada em alinhamento, desentrelaçamento e entrelaçamento que supera as limitações atuais na preservação da identidade facial e da consistência de elementos editados em modelos de edição multimodal.

Yuran Dong, Hang Dai, Mang Ye2026-02-24💻 cs

Driving with A Thousand Faces: A Benchmark for Closed-Loop Personalized End-to-End Autonomous Driving

O artigo apresenta o Person2Drive, uma plataforma e benchmark abrangentes que abordam os desafios da personalização na condução autônoma de ponta a ponta por meio de um sistema de coleta de dados diversificado, métricas quantitativas de estilo de direção e um framework adaptativo que permite a criação de sistemas de condução autônoma seguros e individualizados.

Xiaoru Dong, Ruiqin Li, Xiao Han + 7 more2026-02-24💻 cs

TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

O artigo apresenta o TAG, um modelo de linguagem e visão que melhora o reconhecimento de expressões faciais ao vincular o raciocínio a unidades de ação (AUs) específicas, resultando em previsões mais robustas, interpretáveis e livres de alucinações.

Haobo Lin, Tianyi Bai, Jiajun Zhang + 5 more2026-02-24🤖 cs.AI

A high-resolution nationwide urban village mapping product for 342 Chinese cities based on foundation models

Este artigo apresenta o GeoLink-UV, um produto de mapeamento de alta resolução que utiliza modelos fundamentais para identificar e delimitar aldeias urbanas em 342 cidades chinesas, fornecendo uma base geoespacial validada para o monitoramento de assentamentos informais e o planejamento de renovação urbana alinhado aos Objetivos de Desenvolvimento Sustentável.

Lubin Bai, Sheng Xiao, Ziyu Yin + 4 more2026-02-24💻 cs

Initialization matters in few-shot adaptation of vision-language models for histopathological image classification

Este trabalho propõe o método ZS-MIL, que utiliza embeddings de texto de modelos visão-linguagem para inicializar classificadores em frameworks de aprendizado de múltiplas instâncias, demonstrando superioridade e robustez em cenários de poucos exemplos para classificação de imagens de histopatologia em comparação com inicializações aleatórias.

Pablo Meseguer, Rocío del Amor, Valery Naranjo2026-02-24💻 cs

Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

Este artigo propõe uma nova abordagem para o alinhamento de preferências em modelos de difusão que evita o re-treinamento do modelo base, utilizando um mecanismo de "guia contrastivo" em tempo de inferência que combina previsões de modelos especializados em dados positivos e negativos para gerar sinais de alinhamento mais nítidos e generalizáveis.

Zhou Jiang, Yandong Wen, Zhen Liu2026-02-24💻 cs

← Anterior Próximo →