Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Este trabajo introduce un marco de envenenamiento de hablantes dirigido para modelos de texto a voz de cero disparos, formalizando el problema de la supresión de identidades específicas y evaluando su eficacia en términos de equilibrio entre privacidad y utilidad, demostrando resultados sólidos hasta 15 hablantes pero limitaciones de escalabilidad a 100 debido al solapamiento de identidades.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth Narayanan2026-03-10💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Este trabajo presenta Nwāchā Munā, un corpus de voz en devanagari de 5,39 horas para el nepalí (Newari), y demuestra que la transferencia proximal desde el nepalí es una alternativa computacionalmente eficiente a los modelos multilingües masivos para el reconocimiento automático de voz en esta lengua en peligro.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

El paper propone GRD-Net, una arquitectura que combina una red generativa adversarial con un módulo de atención a regiones de interés para detectar y localizar anomalías en inspecciones visuales industriales, aprendiendo tanto de productos defectuosos sintéticos como de datos reales sin depender de algoritmos de post-procesamiento sesgados.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Este artículo presenta una comparación sistemática de cuatro objetivos de entrenamiento para la detección de distribuciones fuera de contexto en clasificación de imágenes, revelando que la Pérdida de Entropía Cruzada ofrece el rendimiento más consistente tanto en distribuciones cercanas como lejanas en comparación con las pérdidas de prototipo, tripletas y precisión promedio.

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

Este artículo presenta un marco de detección de anomalías semisupervisado basado en una arquitectura generativa adversarial con autoencoder residual, diseñado para inspección visual en línea de producción farmacéutica de alta velocidad que logra un alto rendimiento de detección y localización espacial dentro de las estrictas restricciones de tiempo y hardware.

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Este artículo presenta una tubería de generación de datos sintéticos basada en un gemelo digital del Aeropuerto Internacional de Argel para entrenar un detector YOLO-OBB, demostrando que la combinación de estos datos con solo el 40% de las anotaciones reales iguala o supera el rendimiento de un modelo entrenado exclusivamente con datos reales completos, reduciendo así el esfuerzo de anotación entre un 25% y un 35%.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

El artículo presenta AtomicVLA, un marco unificado de planificación y ejecución que utiliza una biblioteca de habilidades atómicas y un mecanismo de expertos guiado por habilidades para superar las limitaciones de escalabilidad y aprendizaje continuo de los modelos VLA existentes en tareas robóticas de largo horizonte.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

AI-Driven Phase Identification from X-ray Hyperspectral Imaging of cycled Na-ion Cathode Materials

Los autores desarrollaron un método impulsado por inteligencia artificial que combina un autoencoder variacional de mezcla gaussiana con el coeficiente de correlación de Pearson para procesar datos hiperespectrales escasos y generar mapas de distribución de fases a escala nanométrica en materiales de cátodo de iones de sodio, revelando heterogeneidades de fase y zonas de transición que desafían la comprensión mecánica tradicional.

Fayçal Adrar, Nicolas Folastre, Chloé Pablos, Stefan Stanescu, Sufal Swaraj, Raghvender Raghvender, François Cadiou, Laurence Croguennec, Matthieu Bugnet, Arnaud Demortière2026-03-10🔬 cond-mat.mtrl-sci

A Novel Multi-Agent Architecture to Reduce Hallucinations of Large Language Models in Multi-Step Structural Modeling

Este estudio presenta una arquitectura de agentes múltiples que automatiza el modelado y análisis estructural en OpenSeesPy mediante la coordinación de agentes especializados para planificar, ensamblar y traducir código, logrando una precisión del 100% en la mayoría de los casos y reduciendo significativamente las alucinaciones y la acumulación de errores.

Ziheng Geng, Jiachen Liu, Ran Cao, Lu Cheng, Dan M. Frangopol, Minghui Cheng2026-03-10💻 cs

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Este trabajo evalúa las capacidades de diversos modelos de lenguaje grande, como Llama-3 y ChatGPT, en la resolución de problemas de optimización discreta mediante un conjunto de datos natural y ampliado, concluyendo que aunque los modelos más potentes rinden mejor, la técnica de razonamiento paso a paso (CoT) no siempre es efectiva y los datos desordenados pueden mejorar el rendimiento en problemas sencillos a pesar de la inestabilidad.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL