Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing
Este trabajo propone un marco de reconocimiento automático de habla multi-parlante basado únicamente en un codificador que destila las priores semánticas de un modelo de lenguaje grande para regularizar las representaciones de habla mezclada y utiliza un cabezal de conteo de hablantes para la selección dinámica de ramas, logrando un rendimiento comparable o superior a los sistemas basados en LLM con una menor complejidad computacional.