Calibration-Reasoning Framework for Descriptive Speech Quality Assessment

Il documento presenta un nuovo framework di post-addestramento che combina calibrazione e apprendimento per rinforzo (GRPO) per adattare i modelli linguistici audio alla valutazione della qualità del parlato attraverso dimensioni percettive esplicative, raggiungendo risultati all'avanguardia nel benchmark QualiSpeech e migliorando significativamente la localizzazione temporale degli artefatti.

Elizaveta Kostenok, Mathieu Salzmann, Milos CernakThu, 12 Ma⚡ eess

In-Situ Timing Diagnosis of PDN and Configuration-Upset-Induced Routing Delay Degradation in SRAM-based FPGAs

Questo articolo presenta un'architettura di diagnosi temporale in-situ scalabile per FPGA basati su SRAM che, mediante monitoraggio non invasivo e analisi statistica distribuita, consente di distinguere e caratterizzare le degradazioni temporali causate da marginalità della rete di distribuzione dell'alimentazione (PDN) rispetto a quelle indotte da perturbazioni nel routing.

Mostafa DarvishiThu, 12 Ma⚡ eess

Over-the-Air Consensus-based Formation Control of Heterogeneous Agents: Communication-Rate and Geometry-Aware Convergence Guarantees

Questo articolo propone un metodo di controllo di formazione per agenti eterogenei che sfrutta la sovrapposizione dei segnali nel canale wireless per calcolare combinazioni convesse, garantendo la convergenza alla formazione desiderata attraverso condizioni basate sul tasso di comunicazione e sulla geometria, riducendo significativamente il numero di trasmissioni necessarie rispetto ai protocolli tradizionali.

Michael Epp, Fabio Molinari, Jörg RaischThu, 12 Ma⚡ eess

Optimal Control Synthesis of Closed-Loop Recommendation Systems over Social Networks

Questo articolo propone una sintesi di controllo ottimo per sistemi di raccomandazione su reti sociali, modellandoli come problemi di controllo a retroazione di stato che bilanciano coinvolgimento e stabilità, dimostrando come la scelta appropriata dei pesi garantisca la stabilità del sistema mentre pesi eccessivamente orientati all'engagement possano portare a comportamenti patologici e destabilizzanti.

Simone Mariano, Paolo FrascaThu, 12 Ma⚡ eess

Inverse Learning-Based Output Feedback Control of Nonlinear Systems with Verifiable Guarantees

Questo articolo presenta un controlore in retroazione basato sull'output per sistemi non lineari che utilizza dati di misura privi di rumore e un modello inverso identificato tramite interpolazione a kernel per garantire la regolazione pratica dell'output, fornendo una condizione verificabile sul dataset per assicurare tale stabilità.

Yeongjun Jang, Hamin Chang, Heein Park, Hyeonyeong Jang, Takashi Tanaka, Hyungbo ShimThu, 12 Ma⚡ eess

Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation

Il paper propone CGVD, un framework di distillazione visiva senza addestramento che supera il "gap di precisione-raionamento" nei modelli VLA in ambienti affollati, migliorando significativamente il successo delle manipolazioni robotiche (dal 43,0% al 77,5%) attraverso la rimozione attiva dei distrattori semantici e la preservazione della geometria spaziale.

Sangmim Song, Sarath Kodagoda, Marc Carmichael, Karthick ThiyagarajanThu, 12 Ma⚡ eess

UAV-Based 3D Spectrum Sensing: Insights on Altitude, Bandwidth, Trajectory, and Effective Antenna Patterns on REM Reconstruction

Questo articolo presenta un'analisi completa sulla ricostruzione delle Mappe dell'Ambiente Radio (REM) tridimensionali tramite UAV, evidenziando come l'altitudine, la larghezza di banda, le traiettorie di volo e la calibrazione dei pattern antenna siano fattori critici per migliorare l'accuratezza della mappatura spettrale, specialmente nelle regioni in ombra profonda.

Mushfiqur Rahman, Sung Joon Maeng, Ismail Guvenc, Chau-Wai Wong, Mihail Sichitiu, Jason A. Abrahamson, Arupjyoti BhuyanThu, 12 Ma⚡ eess

Speech Codec Probing from Semantic and Phonetic Perspectives

Questo articolo dimostra che i tokenizzatori vocali attuali catturano prevalentemente informazioni fonetiche piuttosto che semantiche lessicali, evidenziando un disallineamento critico rispetto alla semantica testuale che può compromettere le prestazioni dei modelli linguistici multimodali e suggerendo la necessità di nuovi metodi di tokenizzazione.

Xuan Shi, Chang Zeng, Tiantian Feng, Shih-Heng Wang, Jianbo Ma, Shrikanth NarayananThu, 12 Ma⚡ eess

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Il paper presenta FireRedASR2S, un sistema industriale all-in-one di riconoscimento vocale all'avanguardia che integra moduli SOTA per la trascrizione (con supporto per dialetti cinesi e code-switching), il rilevamento dell'attività vocale, l'identificazione della lingua parlata e la punteggiatura, superando le prestazioni di soluzioni concorrenti su numerosi benchmark.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess