cs.AI artículos | Gist.Science

Learning-free L2-Accented Speech Generation using Phonological Rules

Este trabajo propone un marco de generación de voz sintética con acento L2 que, mediante la aplicación de reglas fonológicas a secuencias de fonemas en un modelo multilingüe, logra transformar el acento sin necesidad de datos de entrenamiento específicos ni pérdida de calidad.

Thanathai Lertpetchpun, Yoonjeong Lee, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Este trabajo introduce un marco de envenenamiento de hablantes dirigido para modelos de texto a voz de cero disparos, formalizando el problema de la supresión de identidades específicas y evaluando su eficacia en términos de equilibrio entre privacidad y utilidad, demostrando resultados sólidos hasta 15 hablantes pero limitaciones de escalabilidad a 100 debido al solapamiento de identidades.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth Narayanan2026-03-10💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Este trabajo presenta Nwāchā Munā, un corpus de voz en devanagari de 5,39 horas para el nepalí (Newari), y demuestra que la transferencia proximal desde el nepalí es una alternativa computacionalmente eficiente a los modelos multilingües masivos para el reconocimiento automático de voz en esta lengua en peligro.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

El paper propone GRD-Net, una arquitectura que combina una red generativa adversarial con un módulo de atención a regiones de interés para detectar y localizar anomalías en inspecciones visuales industriales, aprendiendo tanto de productos defectuosos sintéticos como de datos reales sin depender de algoritmos de post-procesamiento sesgados.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Este artículo presenta una comparación sistemática de cuatro objetivos de entrenamiento para la detección de distribuciones fuera de contexto en clasificación de imágenes, revelando que la Pérdida de Entropía Cruzada ofrece el rendimiento más consistente tanto en distribuciones cercanas como lejanas en comparación con las pérdidas de prototipo, tripletas y precisión promedio.

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

Este artículo presenta un marco de detección de anomalías semisupervisado basado en una arquitectura generativa adversarial con autoencoder residual, diseñado para inspección visual en línea de producción farmacéutica de alta velocidad que logra un alto rendimiento de detección y localización espacial dentro de las estrictas restricciones de tiempo y hardware.

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

Shorter Thoughts, Same Answers: Difficulty-Scaled Segment-Wise RL for CoT Compression

El artículo presenta DSS-GRPO, un método de aprendizaje por refuerzo que escala la compresión de la cadena de pensamiento según la dificultad y separa las señales de aprendizaje entre el razonamiento y la respuesta final, logrando así reducir la longitud del proceso de pensamiento sin degradar la calidad de la respuesta.

Ye Tian, Aijun Liu2026-03-10🤖 cs.LG

SMAT: Staged Multi-Agent Training for Co-Adaptive Exoskeleton Control

Este artículo presenta SMAT, un método de entrenamiento en etapas para múltiples agentes que permite el desarrollo de un controlador de exoesqueleto de cadera co-adaptativo y generalizable, el cual reduce la activación muscular en un 10,1% y proporciona asistencia mecánica positiva consistente en humanos sin necesidad de reentrenamiento específico por sujeto.

Yifei Yuan, Ghaith Androwis, Xianlian Zhou2026-03-10🤖 cs.LG

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Este artículo presenta una tubería de generación de datos sintéticos basada en un gemelo digital del Aeropuerto Internacional de Argel para entrenar un detector YOLO-OBB, demostrando que la combinación de estos datos con solo el 40% de las anotaciones reales iguala o supera el rendimiento de un modelo entrenado exclusivamente con datos reales completos, reduciendo así el esfuerzo de anotación entre un 25% y un 35%.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

El artículo presenta AtomicVLA, un marco unificado de planificación y ejecución que utiliza una biblioteca de habilidades atómicas y un mecanismo de expertos guiado por habilidades para superar las limitaciones de escalabilidad y aprendizaje continuo de los modelos VLA existentes en tareas robóticas de largo horizonte.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

Ref-DGS es un marco de doble representación gaussiana que supera el compromiso entre la reconstrucción precisa de superficies reflectantes y la eficiencia computacional al decoupling la geometría de las reflexiones especulares mediante un sombreador adaptativo, logrando un rendimiento superior y un entrenamiento más rápido que los métodos basados en trazado de rayos.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs

AI-Driven Phase Identification from X-ray Hyperspectral Imaging of cycled Na-ion Cathode Materials

Los autores desarrollaron un método impulsado por inteligencia artificial que combina un autoencoder variacional de mezcla gaussiana con el coeficiente de correlación de Pearson para procesar datos hiperespectrales escasos y generar mapas de distribución de fases a escala nanométrica en materiales de cátodo de iones de sodio, revelando heterogeneidades de fase y zonas de transición que desafían la comprensión mecánica tradicional.

Fayçal Adrar, Nicolas Folastre, Chloé Pablos, Stefan Stanescu, Sufal Swaraj, Raghvender Raghvender, François Cadiou, Laurence Croguennec, Matthieu Bugnet, Arnaud Demortière2026-03-10🔬 cond-mat.mtrl-sci

Memory for Autonomous LLM Agents:Mechanisms, Evaluation, and Emerging Frontiers

Esta encuesta ofrece una visión estructurada de los mecanismos, evaluaciones y fronteras emergentes de la memoria en agentes autónomos basados en modelos de lenguaje grandes, abarcando desde su formalización y clasificación hasta sus aplicaciones prácticas y los desafíos técnicos pendientes hasta principios de 2026.

Pengfei Du2026-03-10💻 cs

Compressed-Domain-Aware Online Video Super-Resolution

El artículo presenta CDA-VSR, una red de super-resolución de video en línea que aprovecha información del dominio comprimido (vectores de movimiento, mapas de residuos y tipos de cuadro) para lograr un equilibrio óptimo entre calidad y eficiencia, superando a los métodos actuales en velocidad de inferencia y rendimiento en el conjunto de datos REDS4.

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

El artículo presenta TDM-R1, un nuevo paradigma de aprendizaje por refuerzo que permite entrenar modelos de difusión de pocos pasos utilizando recompensas no diferenciables mediante la descomposición del proceso en aprendizaje de recompensas sustitutas y generación, logrando así un rendimiento superior en diversas métricas de calidad y alineación.

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs

VoiceSHIELD-Small: Real-Time Malicious Speech Detection and Transcription

El artículo presenta VoiceSHIELD-Small, un modelo ligero y de tiempo real basado en Whisper-small que transcribe y detecta simultáneamente comandos de voz maliciosos con una precisión del 99,16%, ofreciendo una solución eficiente para la seguridad en interfaces de voz.

Sumit Ranjan, Sugandha Sharma, Ubaid Abbas, Puneeth N Ail2026-03-10💻 cs

YAQIN: Culturally Sensitive, Agentic AI for Mental Healthcare Support Among Muslim Women in the UK

El informe presenta YAQIN, una aplicación de inteligencia artificial co-diseñada y evaluada que integra marcos islámicos y psicología para ofrecer apoyo en salud mental culturalmente sensible y aumentar la confianza entre las mujeres musulmanas en el Reino Unido.

Yasmin Zaraket, Céline Mougenot2026-03-10💻 cs

Rigidity in LLM Bandits with Implications for Human-AI Dyads

El estudio demuestra que los modelos de lenguaje grandes exhiben sesgos de decisión rígidos en tareas de bandidos de dos brazos, caracterizados por una baja tasa de aprendizaje y una alta temperatura inversa que amplifican el ruido en sesgos persistentes, lo cual tiene implicaciones críticas para la interacción humano-IA.

Haomiaomiao Wang, Tomás E Ward, Lili Zhang2026-03-10💻 cs

A Novel Multi-Agent Architecture to Reduce Hallucinations of Large Language Models in Multi-Step Structural Modeling

Este estudio presenta una arquitectura de agentes múltiples que automatiza el modelado y análisis estructural en OpenSeesPy mediante la coordinación de agentes especializados para planificar, ensamblar y traducir código, logrando una precisión del 100% en la mayoría de los casos y reduciendo significativamente las alucinaciones y la acumulación de errores.

Ziheng Geng, Jiachen Liu, Ran Cao, Lu Cheng, Dan M. Frangopol, Minghui Cheng2026-03-10💻 cs

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Este trabajo evalúa las capacidades de diversos modelos de lenguaje grande, como Llama-3 y ChatGPT, en la resolución de problemas de optimización discreta mediante un conjunto de datos natural y ampliado, concluyendo que aunque los modelos más potentes rinden mejor, la técnica de razonamiento paso a paso (CoT) no siempre es efectiva y los datos desordenados pueden mejorar el rendimiento en problemas sencillos a pesar de la inestabilidad.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

← Anterior Siguiente →