Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Questo articolo presenta un approccio di deep learning multi-modale che integra dati video, pose umane e oggetti tramite meccanismi di attenzione incrociata per migliorare il riconoscimento delle attività quotidiane negli ambienti di vita assistita per anziani, dimostrando risultati promettenti sul dataset Toyota SmartHome.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Il paper introduce InverseNet, il primo benchmark cross-modale che quantifica l'impatto del disallineamento tra operatori fisici e modelli computazionali nelle immagini compressive, rivelando come la maggior parte dei metodi deep learning perda significativamente in robustezza e come la calibrazione cieca possa recuperare quasi interamente le prestazioni perse.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Questo studio analizza diverse strategie di fusione e raggruppamento per migliorare l'accuratezza della classificazione delle Zone Climatiche Locali (LCZ) utilizzando dati di telerilevamento multimodali, dimostrando che un modello ibrido di base combinato con il raggruppamento delle bande e la fusione dei livelli decisionali raggiunge la massima precisione del 76,6% sul dataset So2Sat LCZ42.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Il paper presenta PinPoint, un nuovo benchmark completo per la Ricerca di Immagini Composte (CIR) che introduce valutazioni su negativi espliciti, query multi-immagine e robustezza alle parafrasi, rivelando limiti significativi negli attuali metodi e proponendo una soluzione di riordinamento basata su MLLM per colmare tali lacune.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

Spinverse è un metodo di ricostruzione microstrutturale per la risonanza magnetica a diffusione che, sfruttando un simulatore di Bloch-Torrey completamente differenziabile su una griglia tetraedrica, ottimizza le permeabilità delle facce interne per invertire i segnali dMRI e recuperare interfacce biologiche esplicite senza modificare la connettività della mesh.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Questo studio presenta una valutazione sistematica di tre strategie di compressione delle reti neurali (pruning, quantizzazione e distillazione della conoscenza) per la classificazione di immagini iperspettrali, dimostrando che è possibile ridurre significativamente le dimensioni e i costi computazionali dei modelli mantenendo prestazioni competitive per le applicazioni di telerilevamento.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Questo studio dimostra che, sebbene i modelli linguistici multimodali possano essere adattati per il rilevamento di anomalie video tramite istruzioni specifiche, soffrono di un forte bias conservativo in modalità zero-shot che ne limita l'utilità pratica a causa di una scarsa capacità di recupero (recall) in ambienti reali.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

Il paper propone FOZO, un metodo di ottimizzazione del prompt senza backpropagation e a ordine zero che, sfruttando una scala di perturbazione decrescente e obiettivi basati su statistiche delle feature ed entropia, garantisce un'adattabilità test-time efficiente e stabile su dispositivi con risorse limitate, superando le prestazioni dei metodi basati su gradienti e di approcci forward-only esistenti.

Xingyu Wang, Tao Wang2026-03-06💻 cs