ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

Il paper introduce ParaS2S, un nuovo framework di apprendimento per rinforzo e un benchmark associato che migliorano significativamente la capacità dei modelli di parlare-parlare di comprendere e rispondere adeguatamente sia al contenuto che agli aspetti paralinguistici (come tono ed emozione) direttamente a livello di forma d'onda, superando i limiti delle attuali soluzioni basate su pipeline o sul solo fine-tuning supervisionato.

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Spatiotemporal Heterogeneity of AI-Driven Traffic Flow Patterns and Land Use Interaction: A GeoAI-Based Analysis of Multimodal Urban Mobility

Questo studio propone un quadro analitico GeoAI ibrido che integra MGWR, Random Forest e ST-GCN per modellare con successo l'eterogeneità spaziotemporale dei flussi di traffico multimodali e le loro interazioni con l'uso del suolo, offrendo agli urbanisti uno strumento interpretabile e scalabile per la gestione della mobilità e la progettazione delle politiche territoriali.

Olaf Yunus Laitinen ImanovMon, 09 Ma🤖 cs.AI

A Survey on Stacked Intelligent Metasurfaces: Fundamentals, Recent Advances, and Challenges

Questo articolo offre una panoramica completa delle metasuperfici intelligenti impilate (SIM), esaminandone i principi fisici, le architetture hardware e le applicazioni nelle comunicazioni di prossima generazione, con l'obiettivo di definire le sfide e le direzioni future per il loro impiego come processori elettromagnetici programmabili nei sistemi 6G.

Chandan Kumar Sheemar, Wali Ullah Khan, Sourabh Solanki, George C. Alexandropoulos, Symeon ChatzinotasMon, 09 Ma🔢 math

Multi-Shot Quantum Sensing for RF Signal Detection with MIMO Rydberg-Atom Receivers

Questo lavoro sviluppa un modello statistico multi-scatto per i ricevitori quantistici a atomi di Rydberg, derivando rilevatori ottimali che superano i limiti delle misurazioni non coerenti e dimostrando che un numero limitato di misurazioni quantistiche permette una rilevazione dei segnali RF significativamente superiore rispetto ai metodi classici.

Saman Atapattu, Harini Hapuarachchi, Nathan RossMon, 09 Ma⚛️ quant-ph

Ill-Posedness Analysis of CSI-Based Electromagnetic Inverse Scattering for Material Reconstruction in ISAC Systems

Questo articolo analizza l'ill-posedness dell'inverso scattering elettromagnetico basato su CSI nei sistemi ISAC, dimostrando che la restrizione della regione di interesse (ROI) riduce il numero di condizione e migliora la ricostruzione dei materiali, come validato da simulazioni FDTD.

Yubin Luo, Li Yu, Takumi Takahashi, Shaoyi Liu, Yuxiang Zhang, Jianhua Zhang, Hideki OchiaiMon, 09 Ma⚡ eess

Channel Estimation for Reconfigurable Intelligent Surface Assisted Upper Mid-Band MIMO Systems

Il documento propone un framework di stima del canale consapevole della condizione per sistemi MIMO a banda medio-alta assistiti da superfici intelligenti riconfigurabili, che trasforma il problema mal condizionato in sottoproblemi ben condizionati tramite raggruppamento greedy delle colonne e progettazione di fase RIS, superando così le limitazioni dei metodi tradizionali senza assumere sparsità.

Jeongjae Lee, Chanwon Kim, Songnam HongMon, 09 Ma⚡ eess

STAR Beyond Diagonal RISs with Amplification: Modeling and Optimization

Questo articolo propone un modello fisico coerente e un framework di ottimizzazione alternata per RIS STAR oltre-diagonali con amplificazione, che massimizzano la somma dei tassi di trasmissione nel downlink rispettando i vincoli hardware e ottenendo guadagni significativi rispetto alle soluzioni passive convenzionali.

Chandan Kumar Sheemar, Giovanni Iacovelli, Wali Ullah Khan, George C. Alexandropoulos, Stefano Tomasin, Symeon ChatzinotasMon, 09 Ma🔢 math

Reinforcement Learning for Secrecy Optimization in Underwater Energy Harvesting Relay Network

Questo articolo propone una strategia di allocazione ottimale della potenza basata sull'apprendimento per rinforzo per massimizzare le prestazioni di comunicazione sicura in una rete di relay ibrida ottico-acustica con raccolta di energia, dimostrando la sua superiorità rispetto ad algoritmi greedy e naive in scenari con dinamiche di batteria e condizioni del canale variabili.

Shalini Tripathi, Ankur Bansal, Chinmoy KunduMon, 09 Ma⚡ eess

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

Il paper propone StreamVoiceAnon+, un metodo di anonimizzazione speaker in streaming che preserva le emozioni attraverso un fine-tuning supervisionato e una distillazione emotiva a livello di frame, ottenendo un miglioramento significativo nella conservazione delle emozioni senza compromettere l'intelligibilità, la privacy o la latenza.

Nikita Kuzmin, Kong Aik Lee, Eng Siong ChngMon, 09 Ma🤖 cs.AI

A Retrieval-Assisted Framework for Wireless Localization

Questo articolo propone un quadro unificato di localizzazione assistito dal recupero che combina il channel charting per la proiezione in spazi latenti e le reti neurali a attenzione grafica per modellare le correlazioni tra i dati, superando così i limiti computazionali e di scalabilità dei metodi tradizionali di localizzazione basati su impronte digitali CSI.

Haoyu Huang, Guangjin Pan, Kaixuan Huang, Shunqing Zhang, Yuhao Zhang, Musa Furkan Keskin, Zheng Xing, Henk WymeerschMon, 09 Ma⚡ eess

On the Secrecy Performance of Continuous-Aperture Arrays Over Fading Channels

Questo articolo analizza le prestazioni di segretezza dei canali di intercettazione basati su array a apertura continua (CAPA) in scenari di fading Rayleigh, dimostrando teoricamente e validando tramite simulazioni che tali sistemi superano gli array discreti tradizionali in termini di tasso di segretezza e probabilità di interruzione, pur mantenendo la stessa diversità e pendenza ad alto SNR.

Xuan Yang, Chongjun Ouyang, Dongming Li, Yuanwei LiuMon, 09 Ma🔢 math

MAD: A Multimodal and Multi-perspective Affective Dataset with Hierarchical Annotations

Questo lavoro presenta MAD, un nuovo dataset multimodale e multi-perspettivo con annotazioni gerarchiche che sincronizza segnali fisiologici (EEG, ECG, EOG, EMG, PPG, BCG) e video facciali RGB-D per supportare la ricerca sull'elaborazione affettiva e il riconoscimento delle emozioni da prospettive neurali, fisiologiche e comportamentali.

Shengwei Guo, Yunqing Qiao, Wenzhan Zhang, Bo Liu, Yong Wang, Guobing SunMon, 09 Ma⚡ eess