Kuramoto Orientation Diffusion Models

Il paper propone un modello generativo basato su score che utilizza le dinamiche stocastiche di Kuramoto su domini periodici per migliorare la generazione di immagini ricche di orientamento, come impronte digitali e texture, sfruttando la sincronizzazione e la desincronizzazione delle fasi per modellare efficacemente i pattern angolari coerenti.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Il documento presenta il CSLICS, un sistema di imaging automatizzato a basso costo che utilizza tecniche di visione artificiale per contare con precisione le uova di corallo e le larve, riducendo drasticamente il lavoro manuale e facilitando il ripristino delle barriere coralline.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett Raine2026-03-11💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Il paper presenta VSSFlow, un framework unificato basato sul flusso di matching che risolve congiuntamente la generazione di suoni e parlato condizionata dal video, superando le prestazioni dei modelli specifici per dominio grazie a un meccanismo di aggregazione delle condizioni disaccoppiato e all'apprendimento congiunto.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Il lavoro presenta FALCON, un nuovo paradigma che colma il divario di ragionamento spaziale nei modelli Vision-Language-Action integrando token 3D ricchi di informazioni geometriche direttamente nel modulo di azione, ottenendo così prestazioni all'avanguardia su numerosi compiti reali e simulati senza richiedere sensori specializzati o modifiche architetturali.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Questo studio dimostra che la selezione di un sottoinsieme appropriato di punti di riferimento corporei, combinata con tecniche di imputazione basate su spline, consente un riconoscimento dei segni isolati in LIBRAS con un'accuratezza pari o superiore agli stati dell'arte e con una velocità di elaborazione cinque volte superiore rispetto ai metodi precedenti.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Il paper propone l'Adaptive Diversity Cache (ADC), un modulo plug-and-play privo di addestramento che mitiga il bias a lunga coda nella rilevazione delle interazioni uomo-oggetto (HOI) accumulando rappresentazioni di feature diversificate e adattando dinamicamente la capacità di archiviazione per migliorare la rilevazione delle categorie rare senza richiedere ulteriore ottimizzazione.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Il paper presenta UPA-RFAS, un framework unificato che genera patch fisiche universali e trasferibili per attaccare modelli Vision-Language-Action in scenari black-box, sfruttando obiettivi nello spazio delle feature, un processo min-max robusto e perdite specifiche per il dominio VLA per garantire il successo dell'attacco su diverse architetture e compiti.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI