cs.CV artigos | Gist.Science

MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry

O MERG3R é uma abordagem de divisão e conquista sem treinamento que permite que modelos de geometria neural existentes superem as limitações de memória de GPU para reconstruir grandes coleções de imagens desordenadas, reordenando-as em subconjuntos gerenciáveis e fundindo as reconstruções locais em um modelo 3D globalmente consistente.

Leo Kaixuan Cheng, Abdus Shaikh, Ruofan Liang + 3 more2026-03-04💻 cs

Beyond Caption-Based Queries for Video Moment Retrieval

Este trabalho investiga a degradação de métodos de recuperação de momentos em vídeo ao serem avaliados com consultas de busca em vez de legendas, identificando lacunas linguísticas e de múltiplos momentos como desafios principais, e propõe modificações arquiteturais para mitigar o colapso de consultas do decodificador, resultando em melhorias significativas de desempenho.

David Pujol-Perich, Albert Clapés, Dima Damen + 2 more2026-03-04💻 cs

Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment

Este artigo propõe um framework de seleção de conjuntos de características radiômicas específico para cada paciente, que utiliza uma estratégia de recuperação em duas etapas para identificar subconjuntos compactos e complementares de características em vez de apenas as top-k marginais, alcançando desempenho diagnóstico competitivo com modelos de deep learning enquanto mantém alta transparência e interpretabilidade clínica.

Yaxi Chen, Simin Ni, Jingjing Zhang + 7 more2026-03-04💻 cs

Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples

Este artigo apresenta o "Cultural Counterfactuals", um novo conjunto de dados sintéticos de alta qualidade com quase 60 mil imagens editadas que permitem avaliar e quantificar vieses culturais relacionados a religião, nacionalidade e status socioeconômico em Modelos Grandes de Visão e Linguagem (LVLMs), preenchendo uma lacuna crítica na pesquisa sobre preconceitos que não dependem apenas de características visuais demográficas.

Phillip Howard, Xin Su, Kathleen C. Fraser2026-03-04💻 cs

Aligning Fetal Anatomy with Kinematic Tree Log-Euclidean PolyRigid Transforms

Este artigo apresenta um modelo corporal volumétrico diferenciável baseado em SMPL e impulsionado por uma nova transformação KTPolyRigid, que resolve ambiguidades em movimentos articulados e permite análise volumétrica robusta e segmentação de órgãos em imagens de ressonância magnética fetal.

Yingcheng Liu, Athena Taymourtash, Yang Liu + 5 more2026-03-04💻 cs

Authenticated Contradictions from Desynchronized Provenance and Watermarking

Este trabalho identifica e demonstra empiricamente o "Conflito de Integridade", uma vulnerabilidade onde ativos digitais exibem simultaneamente metadados C2PA válidos e marcas d'água de IA contraditórias devido à falta de sincronização entre as camadas de verificação, propondo e validando um protocolo de auditoria cruzada que resolve essa falha com 100% de precisão.

Alexander Nemecek, Hengzhi He, Guang Cheng + 1 more2026-03-04⚡ eess

Advancing Earth Observation Through Machine Learning: A TorchGeo Tutorial

Este artigo apresenta um tutorial que demonstra como utilizar a biblioteca TorchGeo para construir pipelines de aprendizado de máquina em observação da Terra, ilustrando conceitos fundamentais e um estudo de caso completo de segmentação de águas multiespectrais em imagens Sentinel-2.

Caleb Robinson, Nils Lehmann, Adam J. Stewart + 4 more2026-03-04💻 cs

OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments

O artigo apresenta o OpenMarcie, o maior conjunto de dados multimodal conhecido para reconhecimento de ações humanas em ambientes industriais, que integra dados de wearables e câmeras de 36 participantes em tarefas de montagem para benchmarking em classificação, legendagem e alinhamento multimodal.

Hymalai Bello, Lala Ray, Joanna Sorysz + 2 more2026-03-04⚡ eess

From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

O artigo apresenta o QuADD, um framework unificado que otimiza conjuntamente a compactação e a precisão de dados sintéticos por meio de quantização diferenciável, demonstrando superioridade em eficiência informacional para tarefas de classificação de imagens e gerenciamento de feixes 3GPP.

My H. Dinh, Aditya Sant, Akshay Malhotra + 2 more2026-03-04🤖 cs.AI

TruckDrive: Long-Range Autonomous Highway Driving Dataset

O artigo apresenta o TruckDrive, um novo conjunto de dados multimodal de condução em autoestradas projetado especificamente para preencher a lacuna de percepção de longo alcance (até 1.000 metros) necessária para a autonomia segura de caminhões pesados, demonstrando que os modelos atuais falham significativamente ao generalizar para distâncias superiores a 150 metros.

Filippo Ghilotti, Edoardo Palladin, Samuel Brucker + 3 more2026-03-04💻 cs

MIRAGE: Knowledge Graph-Guided Cross-Cohort MRI Synthesis for Alzheimer's Disease Prediction

O MIRAGE é um novo framework que supera a falta de exames de ressonância magnética (MRI) no diagnóstico de Alzheimer ao utilizar um grafo de conhecimento biomédico e redes de atenção para sintetizar representações latentes guiadas por anatomia a partir de registros de saúde eletrônicos, melhorando significativamente a precisão da classificação sem a necessidade de reconstrução volumétrica 3D.

Guanchen Wu, Zhe Huang, Yuzhang Xie + 6 more2026-03-04🤖 cs.AI

ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering

O artigo apresenta o ORCA, um novo framework multiagente que utiliza coordenação estratégica, agentes especializados e mecanismos de debate para superar as limitações atuais na resposta a perguntas visuais em documentos complexos, alcançando desempenho superior em benchmarks.

Aymen Lassoued, Mohamed Ali Souibgui, Yousri Kessentini2026-03-04💻 cs

Deep Learning Based Wildfire Detection for Peatland Fires Using Transfer Learning

Este artigo apresenta uma abordagem baseada em aprendizado por transferência para detectar incêndios em turfeiras, adaptando modelos pré-treinados em imagens de incêndios florestais gerais para superar as limitações de dados rotulados e melhorar a precisão na identificação das características únicas desses incêndios, como a combustão por brasa e a fumaça persistente.

Emadeldeen Hamdan, Ahmad Faiz Tharima, Mohd Zahirasri Mohd Tohir + 4 more2026-03-04🤖 cs.AI

Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

Este trabalho apresenta o STW, um grande conjunto de dados aberto com 42.313 imagens rotuladas pela escala MST de 10 tons, e propõe o modelo SkinToneNet, uma ViT ajustada que alcança o estado da arte na classificação de tons de pele e na auditoria de justiça em conjuntos de dados públicos.

Vitor Pereira Matias, Márcus Vinícius Lobo Costa, João Batista Neto + 1 more2026-03-04🤖 cs.LG

E2E-GNet: An End-to-End Skeleton-based Geometric Deep Neural Network for Human Motion Recognition

O artigo propõe a E2E-GNet, uma rede neural geométrica de ponta a ponta para reconhecimento de movimento humano baseada em esqueleto, que utiliza camadas de transformação geométrica e otimização consciente de distorção para projetar dados não euclidianos em um espaço linear, alcançando desempenho superior com menor custo computacional em diversos conjuntos de dados.

Mubarak Olaoluwa, Hassen Drira2026-03-04💻 cs

ModalPatch: A Plug-and-Play Module for Robust Multi-Modal 3D Object Detection under Modality Drop

O artigo apresenta o ModalPatch, um módulo plug-and-play que utiliza dados temporais e uma estratégia de fusão guiada por incerteza para garantir a detecção robusta de objetos 3D em cenários de condução autónoma, compensando eficazmente falhas transitórias ou perda de modalidades sensoriais sem exigir alterações na arquitetura ou retreinamento.

Shuangzhi Li, Lei Ma, Xingyu Li2026-03-04💻 cs

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

O artigo apresenta o MUSE, uma plataforma de código aberto e centrada em execuções para avaliação unificada de segurança multimodal de modelos de linguagem, que integra geração automática de payloads, ataques multi-turno com troca de modalidades e uma métrica dual para demonstrar que estratégias iterativas podem explorar falhas de alinhamento que testes de turno único não detectam.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

Este trabalho introduz duas novas estruturas geométricas (Finsleriana e dual de informação) no domínio do bicone simétrico definido por James, demonstrando que elas permitem que as geodésicas correspondam a linhas retas em coordenadas adequadas e generalizam distâncias existentes, como a distância do simplex de Hilbert, para aplicações em diversas áreas científicas.

Jacek Karwowski, Frank Nielsen2026-03-04📊 stat

WTHaar-Net: a Hybrid Quantum-Classical Approach

O artigo apresenta o WTHaar-Net, uma rede neural convolucional híbrida quântico-clássica que substitui a Transformada de Hadamard pela Transformada de Wavelet de Haar para obter representações multiescala espacialmente localizadas, resultando em uma redução significativa de parâmetros e desempenho competitivo em tarefas de visão computacional, com validação experimental em hardware quântico real.

Vittorio Palladino, Tsai Idden, Ahmet Enis Cetin2026-03-04💻 cs

Biomechanically Accurate Gait Analysis: A 3d Human Reconstruction Framework for Markerless Estimation of Gait Parameters

Este artigo apresenta uma estrutura de reconstrução humana em 3D baseada em vídeo que permite a análise de marcha sem marcadores, gerando estimativas biomecânicas precisas e clinicamente interpretáveis que demonstram forte concordância com os dados de referência de captura de movimento tradicional.

Akila Pemasiri, Ethan Goan, Glen Lichtwark + 3 more2026-03-04⚡ eess

← Anterior Próximo →