Randomized Space-Time Stacked Intelligent Metasurfaces for Massive Multiuser Downlink Connectivity

Cet article propose une architecture de métasurfaces intelligentes empilées (SIM) codées espace-temps randomisées pour la connectivité descendante massive, qui améliore la diversité multi-utilisateurs et réduit considérablement la surcharge d'estimation et de retour d'information de l'état du canal grâce à une stratégie de beamforming basée sur un état partiel du canal.

Donatella Darsena, Ivan Iudice, Vincenzo Galdi, Francesco VerdeWed, 11 Ma⚡ eess

Tiled Beamspace MVDR for 1024-element Wideband Radar

Cet article présente une architecture en tuiles pour un radar MIMO massif à large bande qui, en combinant la réduction de dimension dans l'espace des faisceaux et un entraînement coordonné des formeurs de faisceaux MVDR, permet un traitement efficace et performant d'un réseau de 1024 éléments pour la détection de cibles aériennes malgré des interférences terrestres fortes.

Oveys Delafrooz Noroozi, Jiyoon Han, Wei Tang, Zhengya Zhang, Upamanyu MadhowWed, 11 Ma⚡ eess

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Ce papier présente LiM-YOLO, un détecteur optimisé pour la détection de navires dans les images satellitaires qui améliore la précision et l'efficacité en déplaçant la pyramide de caractéristiques vers des niveaux plus fins (P2-P4) et en intégrant une normalisation par groupes pour surmonter les défis liés aux petites cibles et aux contraintes de mémoire.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Cet article présente la première étude systématique de l'encodage de l'information accentuelle dans les tokens de représentation de parole discrète (DSRT), révélant que le choix des couches est déterminant pour conserver ces informations, que la supervision par la reconnaissance automatique de la parole les réduit considérablement, et que la simple réduction de la taille du codebook ne permet pas de les dissocier efficacement des informations phonétiques et de locuteur.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Predictive Control with Indirect Adaptive Laws for Payload Transportation by Quadrupedal Robots

Cet article présente un cadre hiérarchique de contrôle prédictif adaptatif qui permet à des robots quadrupèdes de transporter de manière robuste des charges statiques et dynamiques inconnues sur des terrains accidentés en estimant les paramètres du modèle de locomotion et en assurant la stabilité via un critère convexe intégré à la commande prédictive.

Leila Amanzadeh, Taizoon Chunawala, Randall T. Fawcett, Alexander Leonessa, Kaveh Akbari HamedWed, 11 Ma⚡ eess

SEP-NMPC: Safety Enhanced Passivity-Based Nonlinear Model Predictive Control for a UAV Slung Payload System

Cet article présente un contrôleur prédictif non linéaire amélioré par la sécurité (SEP-NMPC) qui garantit la stabilité et l'absence de collisions pour un drone quadricoptère transportant une charge suspendue dans des environnements encombrés, en intégrant une inégalité de passivité stricte et des fonctions barrières de contrôle d'ordre élevé directement dans l'optimisation en temps réel.

Seyedreza Rezaei, Junjie Kang, Amaldev Haridevan, Jinjun ShanWed, 11 Ma⚡ eess

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Cet article présente le premier benchmark d'apprentissage continu sans exemples pour la segmentation audio-visuelle, accompagné de la méthode ATLAS qui intègre un conditionnement pré-fusion guidé par l'audio et une ancrage de faible rang pour atténuer l'oubli catastrophique dans des environnements dynamiques.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

Universal Speech Content Factorization

L'article propose l'USCF, une méthode linéaire simple et inversible qui extrait une représentation speech de faible rang en supprimant le timbre de l'orateur tout en préservant le contenu phonétique, permettant ainsi une conversion vocale en zéro-shot et un entraînement efficace de modèles de synthèse vocale textuelle.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess