LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis

Questo articolo presenta il LISTA-Transformer, un modello innovativo che integra la codifica sparsa basata sull'algoritmo LISTA con il meccanismo di attenzione del Transformer per migliorare l'estrazione di caratteristiche locali e globali nei segnali di vibrazione, ottenendo un tasso di riconoscimento dei guasti del 98,5% sul dataset CWRU.

Shuang Liu, Lina Zhao, Tian Wang + 1 more2026-03-05💻 cs

Degradation-based augmented training for robust individual animal re-identification

Questo studio introduce un framework di addestramento aumentato basato su degradazioni artificiali che, applicato selettivamente a un sottoinsieme di individui, migliora significativamente la robustezza e l'accuratezza del re-identificazione individuale degli animali selvatici in condizioni di immagine degradate, fornendo al contempo nuovi benchmark e risorse open source per la comunità scientifica.

Thanos Polychronou, Lukáš Adam, Viktor Penchev + 1 more2026-03-05💻 cs

PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters

Il paper introduce PlaneCycle, un operatore senza addestramento e senza adattatori che permette di trasformare modelli fondazione 2D preaddestrati in reti 3D riutilizzando il backbone originale attraverso una distribuzione ciclica dell'aggregazione spaziale, ottenendo prestazioni competitive su compiti di classificazione e segmentazione 3D senza modifiche strutturali.

Yinghong Yu, Guangyuan Li, Jiancheng Yang2026-03-05🤖 cs.AI

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

Questo lavoro propone un formalismo unificato per l'aggregazione di densità basato sulle medie generalizzate, dimostrando teoricamente e validando empiricamente che solo l'intervallo r[0,1]r \in [0,1] garantisce miglioramenti sistematici rispetto alle distribuzioni individuali, fornendo così una giustificazione rigorosa per l'uso diffuso della media lineare (r=1r=1) e geometrica (r=0r=0) negli ensemble di deep learning.

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

Il paper introduce Real5-OmniDocBench, il primo benchmark che ricrea fisicamente l'intero dataset OmniDocBench v1.5 in cinque scenari reali, permettendo per la prima volta un'analisi rigorosa delle cause del degrado delle prestazioni dei modelli Vision-Language nel mondo fisico e rivelando che il divario tra simulazione e realtà nel parsing documentale è ancora significativo.

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

Il paper propone DiverseDiT, un nuovo framework che migliora l'apprendimento delle rappresentazioni nei Diffusion Transformers introducendo connessioni residue lunghe e una funzione di perdita specifica per promuovere la diversità delle rappresentazioni tra i blocchi, ottenendo così prestazioni superiori e una convergenza più rapida su diversi backbones e configurazioni.

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Il paper introduce ViterbiPlanNet, un framework innovativo che integra esplicitamente la conoscenza procedurale tramite un Livello Viterbi Differenziabile per migliorare l'efficienza dei campioni e le prestazioni nella pianificazione di video istruttivi, superando i metodi basati su modelli di grandi dimensioni con un numero significativamente inferiore di parametri.

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

A multi-center analysis of deep learning methods for video polyp detection and segmentation

Questo studio multicentrico valuta l'applicabilità delle tecniche di deep learning per la rilevazione e la segmentazione dei polipi colici in tempo reale, dimostrando come l'integrazione di dati sequenziali e informazioni temporali, ottenuti attraverso una collaborazione tra data scientist ed esperti gastroenterologi, migliori significativamente la precisione diagnostica riducendo i tassi di rilevamento mancato.

Noha Ghatwary, Pedro Chavarias Solano, Mohamed Ramzy Ibrahim + 24 more2026-03-05💻 cs

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Il paper introduce CubeComposer, un modello di diffusione autoregressivo spaziotemporale innovativo che genera nativamente video 360° in 4K partendo da input prospettici, superando i limiti computazionali dei metodi esistenti attraverso una strategia di decomposizione in cubemap e tecniche di gestione del contesto ottimizzate per garantire coerenza visiva e assenza di discontinuità.

Lingen Li, Guangzhi Wang, Xiaoyu Li + 5 more2026-03-05🤖 cs.AI