Randomized Space-Time Stacked Intelligent Metasurfaces for Massive Multiuser Downlink Connectivity

Diese Arbeit stellt eine neuartige gestapelte intelligente Metasurface-Architektur mit zufälliger Raum-Zeit-Codierung vor, die durch die Einführung künstlicher Zeitvariationen und ein teilweises Kanalzustandsinformations-Schema die Summenrate in massiven Downlink-Netzen verbessert und gleichzeitig den Feedback-Overhead drastisch reduziert.

Donatella Darsena, Ivan Iudice, Vincenzo Galdi, Francesco VerdeWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Diese Studie zeigt, dass die Vorhersage kontinuierlicher latenter Repräsentationen in Kombination mit einer Feinabstimmung des Encoders die effektivste Strategie für die Sprachverbesserung darstellt, wobei nicht-autoregressive Modelle aufgrund ihres besseren Kompromisses zwischen Qualität und Effizienz den autoregressiven Ansätzen vorzuziehen sind.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

WhisperVC: Decoupled Cross-Domain Alignment and Speech Generation for Low-Resource Whisper-to-Normal Conversion

Das Paper stellt WhisperVC vor, ein dreistufiges Framework, das durch die Entkopplung der domänenübergreifenden Ausrichtung von der Sprachgenerierung eine hochwertige Umwandlung von geflüstertem in normale Sprache auch mit geringen Datenmengen ermöglicht und dabei sowohl für den Datenschutz als auch für medizinische Rehabilitation geeignet ist.

Dong Liu, Juan Liu, Wei Ju, Yao Tian, Ming LiWed, 11 Ma⚡ eess

From Demonstrations to Safe Deployment: Path-Consistent Safety Filtering for Diffusion Policies

Die Arbeit stellt PACS vor, einen sicherheitsfilternden Ansatz für Diffusions-Policies, der durch pfadkonsistente Bremsmanöver und mengenbasierte Erreichbarkeitsanalysen formale Sicherheitsgarantien in dynamischen Umgebungen bietet, ohne dabei die Aufgabenerfolgsrate im Vergleich zu reaktiven Methoden wie Control Barrier Functions signifikant zu beeinträchtigen.

Ralf Römer, Julian Balletshofer, Jakob Thumm, Marco Pavone, Angela P. Schoellig, Matthias AlthoffWed, 11 Ma⚡ eess

Tiled Beamspace MVDR for 1024-element Wideband Radar

Die vorgestellte Arbeit demonstriert eine rechen-effiziente, kachelbasierte Architektur für die digitale Strahlformung bei breitbandigen Massive-MIMO-Radarsystemen, die durch koordinierte, reduzierte MVDR-Verarbeitung über mehrere Kacheln hinweg die Leistungsfähigkeit von 1024-elementigen Arrays bei der Unterdrückung starker Störsignale signifikant steigert.

Oveys Delafrooz Noroozi, Jiyoon Han, Wei Tang, Zhengya Zhang, Upamanyu MadhowWed, 11 Ma⚡ eess

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Die Arbeit stellt LiM-YOLO vor, einen optimierten Schiffserkennungs-Algorithmus für optische Fernerkundungsbilder, der durch eine Verschiebung der Pyramiden-Ebenen von P3-P5 auf P2-P4 sowie den Einsatz von GN-CBLinear die Detektionsgenauigkeit bei deutlich reduzierter Parameteranzahl und verbesserter Stabilität bei kleinen Schiffen erreicht.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Diese Arbeit führt die erste systematische Untersuchung zur Kodierung von Akzentinformationen in diskreten Sprachrepräsentationstokens durch und stellt ein einheitliches Evaluierungsframework vor, das zeigt, dass die Schichtauswahl den größten Einfluss hat, ASR-Überwachung die Akzentinformationen erheblich reduziert und eine naive Verkleinerung des Codebooks nicht ausreicht, um Akzente von phonetischen und Sprechereigenschaften zu trennen.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Reactive Slip Control in Multifingered Grasping: Hybrid Tactile Sensing and Internal-Force Optimization

Diese Arbeit stellt einen hybriden lernbasierten und modellgestützten Ansatz vor, der multimodale Taktile Sensoren mit einer internen Kraftoptimierung kombiniert, um das Abrutschen von Objekten in multifingrigen Greifern durch eine geschlossene Regelkreisstabilisierung mit einer Gesamtverzögerung von unter 50 ms reaktiv zu verhindern.

Théo Ayral, Saifeddine Aloui, Mathieu GrossardWed, 11 Ma⚡ eess

Predictive Control with Indirect Adaptive Laws for Payload Transportation by Quadrupedal Robots

Diese Arbeit stellt ein neuartiges hierarchisches Regelungsframework vor, das eine indirekte adaptive Schätzung unbekannter Lastparameter mit einem modellprädiktiven Regler und einem nichtlinearen Ganzkörperregler kombiniert, um quadrupede Roboter robust beim Transport schwerer statischer und dynamischer Lasten über unebenes Gelände zu steuern.

Leila Amanzadeh, Taizoon Chunawala, Randall T. Fawcett, Alexander Leonessa, Kaveh Akbari HamedWed, 11 Ma⚡ eess

SEP-NMPC: Safety Enhanced Passivity-Based Nonlinear Model Predictive Control for a UAV Slung Payload System

Dieses Paper stellt einen neuartigen Sicherheits- und Passivitäts-basierten nichtlinearen modellprädiktiven Regler (SEP-NMPC) vor, der durch die Integration strenger Passivitätsungleichungen und hochordnender Kontrollbarrierefunktionen (HOCBFs) stabile und kollisionsfreie Transporte von Lasten mit einem Quadrokopter in komplexen Umgebungen garantiert.

Seyedreza Rezaei, Junjie Kang, Amaldev Haridevan, Jinjun ShanWed, 11 Ma⚡ eess

Universal Speech Content Factorization

Der Artikel stellt die Universal Speech Content Factorization (USCF) vor, eine einfache und invertierbare lineare Methode, die in einem Open-Set-Szenario phonetischen Inhalt von Sprechereigenschaften trennt und so eine effiziente Zero-Shot-Stimmenkonversion sowie das Training von Text-zu-Sprache-Modellen ermöglicht.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess