Beyond Caption-Based Queries for Video Moment Retrieval

Este trabalho investiga a degradação de métodos de recuperação de momentos em vídeo ao serem avaliados com consultas de busca em vez de legendas, identificando lacunas linguísticas e de múltiplos momentos como desafios principais, e propõe modificações arquiteturais para mitigar o colapso de consultas do decodificador, resultando em melhorias significativas de desempenho.

David Pujol-Perich, Albert Clapés, Dima Damen + 2 more2026-03-04💻 cs

Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment

Este artigo propõe um framework de seleção de conjuntos de características radiômicas específico para cada paciente, que utiliza uma estratégia de recuperação em duas etapas para identificar subconjuntos compactos e complementares de características em vez de apenas as top-k marginais, alcançando desempenho diagnóstico competitivo com modelos de deep learning enquanto mantém alta transparência e interpretabilidade clínica.

Yaxi Chen, Simin Ni, Jingjing Zhang + 7 more2026-03-04💻 cs

Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples

Este artigo apresenta o "Cultural Counterfactuals", um novo conjunto de dados sintéticos de alta qualidade com quase 60 mil imagens editadas que permitem avaliar e quantificar vieses culturais relacionados a religião, nacionalidade e status socioeconômico em Modelos Grandes de Visão e Linguagem (LVLMs), preenchendo uma lacuna crítica na pesquisa sobre preconceitos que não dependem apenas de características visuais demográficas.

Phillip Howard, Xin Su, Kathleen C. Fraser2026-03-04💻 cs

Authenticated Contradictions from Desynchronized Provenance and Watermarking

Este trabalho identifica e demonstra empiricamente o "Conflito de Integridade", uma vulnerabilidade onde ativos digitais exibem simultaneamente metadados C2PA válidos e marcas d'água de IA contraditórias devido à falta de sincronização entre as camadas de verificação, propondo e validando um protocolo de auditoria cruzada que resolve essa falha com 100% de precisão.

Alexander Nemecek, Hengzhi He, Guang Cheng + 1 more2026-03-04⚡ eess

TruckDrive: Long-Range Autonomous Highway Driving Dataset

O artigo apresenta o TruckDrive, um novo conjunto de dados multimodal de condução em autoestradas projetado especificamente para preencher a lacuna de percepção de longo alcance (até 1.000 metros) necessária para a autonomia segura de caminhões pesados, demonstrando que os modelos atuais falham significativamente ao generalizar para distâncias superiores a 150 metros.

Filippo Ghilotti, Edoardo Palladin, Samuel Brucker + 3 more2026-03-04💻 cs

MIRAGE: Knowledge Graph-Guided Cross-Cohort MRI Synthesis for Alzheimer's Disease Prediction

O MIRAGE é um novo framework que supera a falta de exames de ressonância magnética (MRI) no diagnóstico de Alzheimer ao utilizar um grafo de conhecimento biomédico e redes de atenção para sintetizar representações latentes guiadas por anatomia a partir de registros de saúde eletrônicos, melhorando significativamente a precisão da classificação sem a necessidade de reconstrução volumétrica 3D.

Guanchen Wu, Zhe Huang, Yuzhang Xie + 6 more2026-03-04🤖 cs.AI

Deep Learning Based Wildfire Detection for Peatland Fires Using Transfer Learning

Este artigo apresenta uma abordagem baseada em aprendizado por transferência para detectar incêndios em turfeiras, adaptando modelos pré-treinados em imagens de incêndios florestais gerais para superar as limitações de dados rotulados e melhorar a precisão na identificação das características únicas desses incêndios, como a combustão por brasa e a fumaça persistente.

Emadeldeen Hamdan, Ahmad Faiz Tharima, Mohd Zahirasri Mohd Tohir + 4 more2026-03-04🤖 cs.AI

E2E-GNet: An End-to-End Skeleton-based Geometric Deep Neural Network for Human Motion Recognition

O artigo propõe a E2E-GNet, uma rede neural geométrica de ponta a ponta para reconhecimento de movimento humano baseada em esqueleto, que utiliza camadas de transformação geométrica e otimização consciente de distorção para projetar dados não euclidianos em um espaço linear, alcançando desempenho superior com menor custo computacional em diversos conjuntos de dados.

Mubarak Olaoluwa, Hassen Drira2026-03-04💻 cs

ModalPatch: A Plug-and-Play Module for Robust Multi-Modal 3D Object Detection under Modality Drop

O artigo apresenta o ModalPatch, um módulo plug-and-play que utiliza dados temporais e uma estratégia de fusão guiada por incerteza para garantir a detecção robusta de objetos 3D em cenários de condução autónoma, compensando eficazmente falhas transitórias ou perda de modalidades sensoriais sem exigir alterações na arquitetura ou retreinamento.

Shuangzhi Li, Lei Ma, Xingyu Li2026-03-04💻 cs

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

O artigo apresenta o MUSE, uma plataforma de código aberto e centrada em execuções para avaliação unificada de segurança multimodal de modelos de linguagem, que integra geração automática de payloads, ataques multi-turno com troca de modalidades e uma métrica dual para demonstrar que estratégias iterativas podem explorar falhas de alinhamento que testes de turno único não detectam.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

Este trabalho introduz duas novas estruturas geométricas (Finsleriana e dual de informação) no domínio do bicone simétrico definido por James, demonstrando que elas permitem que as geodésicas correspondam a linhas retas em coordenadas adequadas e generalizam distâncias existentes, como a distância do simplex de Hilbert, para aplicações em diversas áreas científicas.

Jacek Karwowski, Frank Nielsen2026-03-04📊 stat

WTHaar-Net: a Hybrid Quantum-Classical Approach

O artigo apresenta o WTHaar-Net, uma rede neural convolucional híbrida quântico-clássica que substitui a Transformada de Hadamard pela Transformada de Wavelet de Haar para obter representações multiescala espacialmente localizadas, resultando em uma redução significativa de parâmetros e desempenho competitivo em tarefas de visão computacional, com validação experimental em hardware quântico real.

Vittorio Palladino, Tsai Idden, Ahmet Enis Cetin2026-03-04💻 cs