Randomized Space-Time Stacked Intelligent Metasurfaces for Massive Multiuser Downlink Connectivity

Questo articolo propone una nuova architettura di metasuperfici intelligenti impilate (SIM) spaziotemporali casuali per la connettività downlink massiva, che integra variazioni temporali artificiali per sfruttare la diversità multiutente e riduce l'overhead di feedback tramite uno schema di beamforming basato su informazioni parziali dello stato del canale.

Donatella Darsena, Ivan Iudice, Vincenzo Galdi, Francesco VerdeWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Questo studio dimostra che, per il potenziamento del parlato nello spazio latente dei codec neurali audio, la previsione di rappresentazioni continue supera quella dei token discreti, i modelli non autoregressivi offrono il miglior compromesso tra qualità ed efficienza, e il fine-tuning dell'encoder garantisce le metriche di miglioramento più elevate, sebbene a scapito della ricostruzione del codec.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

From Demonstrations to Safe Deployment: Path-Consistent Safety Filtering for Diffusion Policies

Il paper propone PACS, un metodo di filtraggio della sicurezza basato sulla consistenza del percorso che garantisce il rispetto dei vincoli di sicurezza in tempo reale senza degradare le prestazioni dei modelli di diffusione, mantenendo la coerenza con la distribuzione di addestramento e superando gli approcci reattivi tradizionali.

Ralf Römer, Julian Balletshofer, Jakob Thumm, Marco Pavone, Angela P. Schoellig, Matthias AlthoffWed, 11 Ma⚡ eess

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Lo studio dimostra che in conversazioni diadiche rumorose, i parlanti adattano il loro comportamento comunicativo aumentando la complessità dei gesti manuali e modulando i movimenti della testa e del tronco, mentre gli ascoltatori intensificano i segnali di retroazione per migliorare il rapporto segnale-rumore, sebbene la sincronia tra mano e voce subisca una lieve diminuzione.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Tiled Beamspace MVDR for 1024-element Wideband Radar

Il paper propone un'architettura a piastrelle per il beamforming digitale efficiente in termini computazionali per radar MIMO massicci a banda larga, che combina la riduzione della dimensionalità nello spazio delle onde e un addestramento coordinato dei beamformer MVDR su otto piastrelle per sopprimere efficacemente le interferenze in un sistema radar aereo da 1024 elementi.

Oveys Delafrooz Noroozi, Jiyoon Han, Wei Tang, Zhengya Zhang, Upamanyu MadhowWed, 11 Ma⚡ eess

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Il paper presenta LiM-YOLO, un rilevatore di navi ottimizzato per immagini satellitari che migliora accuratezza ed efficienza attraverso uno spostamento dei livelli della piramide delle caratteristiche da P3-P5 a P2-P4 e l'uso di normalizzazione a gruppi, risolvendo così le sfide poste dalla grande disparità di scala e dai rapporti d'aspetto elevati dei bersagli marittimi.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Questo studio presenta la prima indagine sistematica su come le informazioni relative all'accento siano codificate nei token di rappresentazione del parlato discreto (DSRT), proponendo un nuovo framework di valutazione che rivela come la scelta dei livelli e la supervisione ASR influenzino significativamente la preservazione e il recupero di tali informazioni.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Predictive Control with Indirect Adaptive Laws for Payload Transportation by Quadrupedal Robots

Questo articolo presenta un nuovo framework gerarchico di pianificazione e controllo che integra un controllo predittivo del modello (MPC) con una legge adattiva indiretta per garantire una robusta trasporto di carichi da parte di robot quadrupedi, validato sperimentalmente su terreni accidentati con carichi fino al 109% della massa del robot.

Leila Amanzadeh, Taizoon Chunawala, Randall T. Fawcett, Alexander Leonessa, Kaveh Akbari HamedWed, 11 Ma⚡ eess

SEP-NMPC: Safety Enhanced Passivity-Based Nonlinear Model Predictive Control for a UAV Slung Payload System

Questo articolo presenta il SEP-NMPC, un framework di controllo predittivo non lineare che garantisce stabilità e sicurezza per il trasporto di carichi sospesi da UAV in ambienti complessi, integrando vincoli di passività e funzioni di barriera di controllo ad alto ordine per prevenire oscillazioni e collisioni.

Seyedreza Rezaei, Junjie Kang, Amaldev Haridevan, Jinjun ShanWed, 11 Ma⚡ eess

Formation-Aware Adaptive Conformalized Perception for Safe Leader-Follower Multi-Robot Systems

Questo articolo propone un metodo distribuito di previsione conformale adattiva e consapevole della formazione, basato su Risk-Aware Mondrian CP, che quantifica in modo dinamico l'incertezza percepita per garantire la sicurezza e il mantenimento del campo visivo nei sistemi multi-robot leader-follower, migliorando le prestazioni di tracciamento rispetto alle tecniche non adattive.

Richie R. Suganda, Bin HuWed, 11 Ma⚡ eess

Universal Speech Content Factorization

Il paper propone la Fattorizzazione Universale del Contenuto del Discorso (USCF), un metodo lineare semplice e invertibile che estrae una rappresentazione del parlato a basso rango preservando il contenuto fonetico e rimuovendo l'identità del parlante, permettendo così una conversione vocale zero-shot competitiva e un addestramento efficiente di modelli di sintesi vocale.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess