Scriboora: Rethinking Human Pose Forecasting

Il paper "Scriboora" presenta una pipeline unificata per la previsione della posa umana, evidenzia problemi di riproducibilità, dimostra come i modelli linguistici possano migliorare le prestazioni attuali e valuta la robustezza dei modelli su dati rumorosi derivanti da stime di posa reali, proponendo una nuova variante del dataset e tecniche di affinamento non supervisionato per recuperare le prestazioni perse.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-05💻 cs

Measurement-Consistent Langevin Corrector for Stabilizing Latent Diffusion Inverse Problem Solvers

Questo lavoro introduce il *Measurement-Consistent Langevin Corrector* (MCLC), un modulo teorico e plug-and-play che stabilizza i risolutori di problemi inversi basati su modelli di diffusione latente riducendo la discrepanza tra le dinamiche del solver e quelle apprese dal modello, garantendo così un comportamento più affidabile nello spazio latente senza fare affidamento su assunzioni di varietà lineare.

Lee Hyoseok, Sohwi Lim, Eunju Cha + 1 more2026-03-05🤖 cs.LG

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

Questo studio presenta un pipeline automatizzato end-to-end per l'identificazione delle fratture della colonna cervicale che, combinando rilevamento 2D, segmentazione multi-proiezione e modelli ibridi CNN-Transformer, ricostruisce volumi 3D stimati per ottenere prestazioni diagnostiche comparabili a quelle degli esperti riducendo al contempo la dimensionalità computazionale.

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

Il documento presenta i risultati della prima competizione internazionale sulla biometria del passo, che ha utilizzato il nuovo dataset StepUP-P150 per valutare modelli di riconoscimento, evidenziando un tasso di errore del 10,77% come miglior risultato ma sottolineando le sfide persistenti nella generalizzazione a diversi tipi di calzature.

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

Il paper propone CASG, un framework senza addestramento che risolve i conflitti di sicurezza multi-categoria nella generazione di immagini da testo identificando dinamicamente la categoria dannosa predominante e applicando una guida di sicurezza mirata, riducendo così il tasso di contenuti nocivi fino al 15,4% rispetto ai metodi esistenti.

Yongli Xiang, Ziming Hong, Zhaoqing Wang + 3 more2026-03-05💻 cs

Automatic Map Density Selection for Locally-Performant Visual Place Recognition

Questo articolo propone un approccio dinamico per la mappatura nel riconoscimento visivo dei luoghi che seleziona automaticamente la densità della mappa necessaria per garantire che un livello specifico di richiamo locale sia soddisfatto per una percentuale definita dell'ambiente operativo, superando i limiti delle densità di campionamento fisse e globali tipicamente utilizzate.

Somayeh Hussaini, Tobias Fischer, Michael Milford2026-03-05💻 cs

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

Il paper propone SCR (Spatial Credit Redistribution), un metodo di inferenza senza addestramento che riduce le allucinazioni nei modelli visione-linguaggio redistribuendo l'attenzione spaziale dai patch dominanti ai contesti circostanti, ottenendo significativi miglioramenti nella precisione su diversi benchmark senza compromettere la qualità della generazione o la latenza.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI