Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi
Este artigo apresenta o LilMoo, um modelo de linguagem hindi de 0,6 bilhão de parâmetros treinado do zero com um pipeline transparente e o corpus GigaLekh, que supera modelos multilíngues comparáveis e demonstra que o pré-treinamento específico para idiomas pode rivalizar com grandes modelos multilíngues em escalas subbilionárias.