cs.CV articoli | Gist.Science

Authenticated Contradictions from Desynchronized Provenance and Watermarking

Questo studio dimostra come sia possibile generare contenuti digitali con metadati C2PA validi che affermano l'autoria umana ma che contengono contemporaneamente filigrane che li identificano come generati dall'IA, proponendo un protocollo di audit cross-layer per rilevare e risolvere queste contraddizioni di integrità.

Alexander Nemecek, Hengzhi He, Guang Cheng + 1 more2026-03-04⚡ eess

Advancing Earth Observation Through Machine Learning: A TorchGeo Tutorial

Questo articolo presenta un tutorial su TorchGeo, una libreria PyTorch per l'osservazione terrestre, illustrando le sue astrazioni fondamentali e un caso di studio completo sulla segmentazione delle acque multispettrali da immagini Sentinel-2, con l'obiettivo di semplificare l'integrazione dei dati geospaziali nei flussi di lavoro di machine learning.

Caleb Robinson, Nils Lehmann, Adam J. Stewart + 4 more2026-03-04💻 cs

OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments

OpenMarcie è il più grande dataset multimodale esistente per il riconoscimento delle azioni umane in ambienti industriali, composto da oltre 37 ore di dati eterogenei raccolti da 36 partecipanti durante compiti di assemblaggio e collaborazione, e progettato per supportare l'ottimizzazione della produzione e la sicurezza nei contesti di fabbricazione intelligente.

Hymalai Bello, Lala Ray, Joanna Sorysz + 2 more2026-03-04⚡ eess

From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

Il paper propone QuADD, un quadro unificato per la distillazione dei dataset che ottimizza congiuntamente il numero di campioni e la precisione dei dati tramite quantizzazione differenziabile, superando i metodi esistenti in termini di efficienza informativa e prestazioni su compiti di classificazione e gestione dei fasci 3GPP.

My H. Dinh, Aditya Sant, Akshay Malhotra + 2 more2026-03-04🤖 cs.AI

TruckDrive: Long-Range Autonomous Highway Driving Dataset

Il paper introduce TruckDrive, un nuovo dataset multimodale su larga scala progettato per colmare il divario nella guida autonoma degli autocarri su autostrada fornendo annotazioni fino a 1.000 metri e dimostrando che i modelli attuali falliscono nel generalizzare oltre i 150 metri.

Filippo Ghilotti, Edoardo Palladin, Samuel Brucker + 3 more2026-03-04💻 cs

MIRAGE: Knowledge Graph-Guided Cross-Cohort MRI Synthesis for Alzheimer's Disease Prediction

Il paper presenta MIRAGE, un framework innovativo che utilizza una conoscenza biomedica e un decoder 3D pre-addestrato come regolarizzatore per distillare rappresentazioni latenti dai dati clinici tabellari, permettendo così la previsione dell'Alzheimer in assenza di scansioni MRI reali senza dover ricostruire volumi 3D complessi.

Guanchen Wu, Zhe Huang, Yuzhang Xie + 6 more2026-03-04🤖 cs.AI

ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering

Il paper presenta ORCA, un innovativo framework multi-agente che migliora il Visual Question Answering sui documenti attraverso un'orchestrazione collaborativa, un ragionamento iterativo e meccanismi di verifica per affrontare compiti complessi con prestazioni superiori agli stati dell'arte.

Aymen Lassoued, Mohamed Ali Souibgui, Yousri Kessentini2026-03-04💻 cs

Deep Learning Based Wildfire Detection for Peatland Fires Using Transfer Learning

Questo lavoro presenta un approccio basato sull'apprendimento profondo e sul transfer learning per migliorare l'accuratezza e la robustezza del rilevamento degli incendi di torbiera, adattando modelli preaddestrati su incendi forestali generici a un dataset specifico di immagini e video della Malesia per superare le sfide poste dalle caratteristiche visive uniche di questi incendi.

Emadeldeen Hamdan, Ahmad Faiz Tharima, Mohd Zahirasri Mohd Tohir + 4 more2026-03-04🤖 cs.AI

Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

Questo lavoro presenta STW, un ampio dataset open-source e un benchmark per la classificazione delle tonalità della pelle basato sulla scala MST a 10 toni, introducendo SkinToneNet, un modello ViT che supera i metodi classici e permette un'analisi equa e affidabile di dataset pubblici.

Vitor Pereira Matias, Márcus Vinícius Lobo Costa, João Batista Neto + 1 more2026-03-04🤖 cs.LG

E2E-GNet: An End-to-End Skeleton-based Geometric Deep Neural Network for Human Motion Recognition

Il paper propone E2E-GNet, una rete neurale geometrica end-to-end per il riconoscimento del movimento umano basato sullo scheletro, che utilizza un layer di trasformazione geometrica e un'ottimizzazione consapevole delle distorsioni per migliorare l'accuratezza di classificazione riducendo i costi computazionali.

Mubarak Olaoluwa, Hassen Drira2026-03-04💻 cs

ModalPatch: A Plug-and-Play Module for Robust Multi-Modal 3D Object Detection under Modality Drop

Il paper introduce ModalPatch, un modulo plug-and-play che garantisce una rilevazione 3D robusta e accurata per la guida autonoma anche in caso di interruzioni temporanee dei sensori, sfruttando dati storici e una fusione multimodale guidata dall'incertezza per compensare le modalità mancanti senza richiedere modifiche architetturali.

Shuangzhi Li, Lei Ma, Xingyu Li2026-03-04💻 cs

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Il paper presenta MUSE, una piattaforma open-source per la valutazione unificata della sicurezza multimodale dei grandi modelli linguistici che integra la generazione automatica di payload cross-modali, algoritmi di attacco multi-turno e un sistema di giudizio basato su LLM, rivelando come le strategie di attacco multi-turno e il cambio di modalità tra i turni possano compromettere significativamente le difese dei modelli anche quando questi mostrano un alto tasso di rifiuto negli input singoli.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

Questo lavoro introduce nuove strutture geometriche di tipo Finsleriano e duale information-geometrico sul dominio dei biconi di matrici definite positive simmetriche di James, garantendo che le geodetiche corrispondano a linee rette e generalizzando distanze esistenti con applicazioni in diversi campi scientifici.

Jacek Karwowski, Frank Nielsen2026-03-04📊 stat

WTHaar-Net: a Hybrid Quantum-Classical Approach

Il paper presenta WTHaar-Net, un'architettura ibrida quantistica-classica che sostituisce la trasformata di Hadamard con la trasformata wavelet di Haar per ottenere una significativa riduzione dei parametri e prestazioni superiori su dataset di visione artificiale, validando inoltre la sua implementazione su hardware quantistico reale.

Vittorio Palladino, Tsai Idden, Ahmet Enis Cetin2026-03-04💻 cs

Biomechanically Accurate Gait Analysis: A 3d Human Reconstruction Framework for Markerless Estimation of Gait Parameters

Questo articolo presenta un framework interpretabile dal punto di vista biomeccanico per l'analisi del passo che, attraverso la ricostruzione 3D del corpo umano da video, estrae marcatori analoghi a quelli dei sistemi di motion capture per stimare con precisione i parametri cinematici in modo markerless, scalabile e clinicamente applicabile.

Akila Pemasiri, Ethan Goan, Glen Lichtwark + 3 more2026-03-04⚡ eess

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

Il paper propone SGMA, un framework innovativo per la segmentazione semantica di immagini telerilevate con dati multimodali incompleti, che utilizza moduli di fusione guidata semantica e campionamento consapevole della modalità per bilanciare l'apprendimento, ridurre la variabilità intra-classe e risolvere le incongruenze tra sensori diversi, superando così i limiti degli approcci esistenti.

Lekang Wen, Liang Liao, Jing Xiao + 1 more2026-03-04💻 cs

Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

Questo studio dimostra che l'utilizzo di parcellazioni cerebrali funzionali (MSDL) invece di quelle anatomiche, combinate con un ensemble di Graph Attention Networks e tecniche di spiegabilità, permette di raggiungere un'accuratezza del 95% nella classificazione dell'autismo tramite rs-fMRI, superando i benchmark esistenti e identificando hub neurali coerenti con la neuropatologia dell'ASD.

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

Il paper propone NeighborMAE, un nuovo approccio di apprendimento auto-supervisionato che migliora la rappresentazione delle immagini di osservazione terrestre sfruttando le dipendenze spaziali tra immagini adiacenti attraverso una ricostruzione congiunta dinamica.

Liang Zeng, Valerio Marsocci, Wufan Zhao + 2 more2026-03-04💻 cs

EIMC: Efficient Instance-aware Multi-modal Collaborative Perception

Il paper presenta EIMC, un nuovo paradigma di percezione collaborativa multimodale che riduce drasticamente la larghezza di banda e migliora l'accuratezza nel rilevamento di veicoli autonomi attraverso una fusione precoce basata su voxel collaborativi e un protocollo di consenso guidato da mappe di calore per selezionare solo gli istanze critiche da scambiare tra agenti.

Kang Yang, Peng Wang, Lantao Li + 4 more2026-03-04💻 cs

Functional Properties of the Focal-Entropy

Questo lavoro fornisce una fondazione teorica per la funzione di focal-loss, analizzandone le proprietà dell'entropia focale per dimostrare come essa amplifichi le probabilità intermedie, sopprima quelle elevate e induca una sovrastima della soppressione in scenari di forte squilibrio di classe, offrendo così una comprensione sistematica dei compromessi introdotti nell'apprendimento imbalanced.

Jaimin Shah, Martina Cardone, Alex Dytso2026-03-04📊 stat

← Precedente Successivo →