Tiled Beamspace MVDR for 1024-element Wideband Radar

Cet article présente une architecture en tuiles pour un radar MIMO massif à large bande qui, en combinant la réduction de dimension dans l'espace des faisceaux et un entraînement coordonné des formeurs de faisceaux MVDR, permet un traitement efficace et performant d'un réseau de 1024 éléments pour la détection de cibles aériennes malgré des interférences terrestres fortes.

Oveys Delafrooz Noroozi, Jiyoon Han, Wei Tang, Zhengya Zhang, Upamanyu Madhow2026-03-11⚡ eess

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Ce papier présente LiM-YOLO, un détecteur optimisé pour la détection de navires dans les images satellitaires qui améliore la précision et l'efficacité en déplaçant la pyramide de caractéristiques vers des niveaux plus fins (P2-P4) et en intégrant une normalisation par groupes pour surmonter les défis liés aux petites cibles et aux contraintes de mémoire.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Cet article présente la première étude systématique de l'encodage de l'information accentuelle dans les tokens de représentation de parole discrète (DSRT), révélant que le choix des couches est déterminant pour conserver ces informations, que la supervision par la reconnaissance automatique de la parole les réduit considérablement, et que la simple réduction de la taille du codebook ne permet pas de les dissocier efficacement des informations phonétiques et de locuteur.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter Bell2026-03-11⚡ eess

Predictive Control with Indirect Adaptive Laws for Payload Transportation by Quadrupedal Robots

Cet article présente un cadre hiérarchique de contrôle prédictif adaptatif qui permet à des robots quadrupèdes de transporter de manière robuste des charges statiques et dynamiques inconnues sur des terrains accidentés en estimant les paramètres du modèle de locomotion et en assurant la stabilité via un critère convexe intégré à la commande prédictive.

Leila Amanzadeh, Taizoon Chunawala, Randall T. Fawcett, Alexander Leonessa, Kaveh Akbari Hamed2026-03-11⚡ eess

SEP-NMPC: Safety Enhanced Passivity-Based Nonlinear Model Predictive Control for a UAV Slung Payload System

Cet article présente un contrôleur prédictif non linéaire amélioré par la sécurité (SEP-NMPC) qui garantit la stabilité et l'absence de collisions pour un drone quadricoptère transportant une charge suspendue dans des environnements encombrés, en intégrant une inégalité de passivité stricte et des fonctions barrières de contrôle d'ordre élevé directement dans l'optimisation en temps réel.

Seyedreza Rezaei, Junjie Kang, Amaldev Haridevan, Jinjun Shan2026-03-11⚡ eess

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Cet article présente le premier benchmark d'apprentissage continu sans exemples pour la segmentation audio-visuelle, accompagné de la méthode ATLAS qui intègre un conditionnement pré-fusion guidé par l'audio et une ancrage de faible rang pour atténuer l'oubli catastrophique dans des environnements dynamiques.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing Zhu2026-03-11⚡ eess

Universal Speech Content Factorization

L'article propose l'USCF, une méthode linéaire simple et inversible qui extrait une représentation speech de faible rang en supprimant le timbre de l'orateur tout en préservant le contenu phonétique, permettant ainsi une conversion vocale en zéro-shot et un entraînement efficace de modèles de synthèse vocale textuelle.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew Wiesner2026-03-11⚡ eess

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Cette étude démontre que l'ajustement de la profondeur de la quantification vectorielle résiduelle dans les codecs audio neuronaux permet de trouver un compromis optimal entre la préservation du contenu linguistique et la robustesse aux attaques adverses, surpassant ainsi les méthodes de compression traditionnelles.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth Narayanan2026-03-11⚡ eess

Robust Wildfire Forecasting under Partial Observability: From Reconstruction to Prediction

Cet article propose un cadre probabiliste à deux étapes pour la prévision robuste des incendies de forêt en présence d'observations partielles, où une phase de reconstruction par apprentissage (comparant quatre architectures) précède la prédiction spatio-temporelle, comblant ainsi l'écart de domaine et restaurant la précision des prévisions même sous des conditions de données fortement dégradées.

Chen Yang, Mehdi Zafari, Ziheng Duan, A. Lee Swindlehurst2026-03-11⚡ eess