Randomized Space-Time Stacked Intelligent Metasurfaces for Massive Multiuser Downlink Connectivity

Este artículo propone una arquitectura de metasuperficies inteligentes apiladas con codificación espacio-temporal aleatoria que, al introducir variaciones temporales artificiales y utilizar un esquema de beamforming basado en información parcial del estado del canal, permite una conectividad masiva de enlace descendente eficiente y escalable al reducir significativamente la sobrecarga de retroalimentación en redes densas.

Donatella Darsena, Ivan Iudice, Vincenzo Galdi, Francesco VerdeWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Este trabajo compara estrategias de mejora de voz en el espacio latente de códecs de audio neuronales, revelando que la predicción de representaciones continuas y el ajuste fino del codificador logran los mejores resultados, aunque los modelos no autoregresivos ofrecen un equilibrio más atractivo entre calidad, inteligibilidad y eficiencia.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

From Demonstrations to Safe Deployment: Path-Consistent Safety Filtering for Diffusion Policies

El artículo presenta PACS, un filtro de seguridad que garantiza el despliegue seguro de políticas de difusión mediante frenado consistente con la trayectoria y análisis de alcanzabilidad, preservando así el rendimiento de la tarea y superando a los métodos reactivos existentes en entornos dinámicos.

Ralf Römer, Julian Balletshofer, Jakob Thumm, Marco Pavone, Angela P. Schoellig, Matthias AlthoffWed, 11 Ma⚡ eess

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Este estudio demuestra que, en conversaciones cara a cara ruidosas, los hablantes aumentan la complejidad de sus gestos y el volumen de voz, mientras que los oyentes intensifican sus señales de retroalimentación y ajustan sus movimientos corporales para mantener la comunicación, aunque la sincronía entre el habla y los gestos disminuye ligeramente en niveles de ruido moderado.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Tiled Beamspace MVDR for 1024-element Wideband Radar

El artículo presenta una arquitectura de haz basado en teselados para la formación de haces digital eficiente en un radar de banda ancha con 1024 elementos, que combina reducción de dimensionalidad en el espacio de haces y entrenamiento coordinado de filtros MVDR para lograr un rendimiento superior al de un solo subconjunto de antenas en entornos con interferencias fuertes.

Oveys Delafrooz Noroozi, Jiyoon Han, Wei Tang, Zhengya Zhang, Upamanyu MadhowWed, 11 Ma⚡ eess

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

El artículo presenta LiM-YOLO, un detector de objetos optimizado para la detección de barcos en imágenes de teledetección óptica que logra un rendimiento superior con menos parámetros mediante el desplazamiento de los niveles de la pirámide de características (de P3-P5 a P2-P4) para preservar detalles de objetivos pequeños y la incorporación de un bloque de normalización por grupos para estabilizar el entrenamiento.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

KK-Lorentzian Polynomials, Semipositive Cones, and Cone-Stable EVI Systems

Este artículo extiende la teoría de los polinomios de Lorentz y log-concavidad completa a análisis variacional y dinámicas restringidas a conos, introduciendo los conceptos de polinomios KK-Lorentzianos y conos KK-semipositivos para establecer nuevas desigualdades de Rayleigh, interpretar la dependencia negativa en medidas de Gibbs y derivar criterios de estabilidad de Lyapunov para sistemas de desigualdades variacionales evolutivas.

Papri DeyWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Este artículo presenta la primera investigación sistemática sobre cómo se codifica la información de acento en los tokens de representación de voz discreta (DSRT), proponiendo un marco de evaluación unificado que revela que la selección de capas es el factor más determinante para retener dicha información, mientras que la supervisión ASR la reduce significativamente y la reducción ingenua del tamaño del código no logra desvincular el acento de la fonética y el hablante.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Reactive Slip Control in Multifingered Grasping: Hybrid Tactile Sensing and Internal-Force Optimization

Este trabajo presenta un enfoque híbrido que combina aprendizaje y modelos para la adaptación reactiva de fuerzas internas en agarres multifingerados, utilizando una sensorización háptica multimodal para detectar deslizamientos en ~20 ms y optimizar las fuerzas normales mediante programación cuadrática, logrando así una estabilización cerrada en menos de 50 ms.

Théo Ayral, Saifeddine Aloui, Mathieu GrossardWed, 11 Ma⚡ eess

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

El artículo presenta CoPeDiT, un modelo de difusión latente basado en transformadores que utiliza percepción de completitud autoaprendida para sintetizar de manera unificada y robusta imágenes de resonancia magnética 3D, superando las limitaciones de los métodos existentes al eliminar la dependencia de guías externas manuales.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le ZhangWed, 11 Ma⚡ eess

Predictive Control with Indirect Adaptive Laws for Payload Transportation by Quadrupedal Robots

Este artículo presenta un marco de control jerárquico que integra un control predictivo de modelo (MPC) con una ley adaptativa indirecta para permitir que robots cuadrúpedos transporten de forma robusta cargas estáticas y dinámicas desconocidas en terrenos irregulares, superando significativamente a los métodos de control convencionales.

Leila Amanzadeh, Taizoon Chunawala, Randall T. Fawcett, Alexander Leonessa, Kaveh Akbari HamedWed, 11 Ma⚡ eess

Universal Speech Content Factorization

El artículo presenta la Factorización Universal de Contenido de Voz (USCF), un método lineal e invertible que extrae representaciones de bajo rango preservando el contenido fonético mientras suprime el timbre del hablante, permitiendo la conversión de voz en ceros disparos y sirviendo como característica eficiente para modelos de texto a voz.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess