Tucano 2 Cool: Better Open Source LLMs for Portuguese
El artículo presenta Tucano 2, una suite de modelos de lenguaje grandes de código abierto con parámetros entre 0.5 y 3.7 mil millones, que utiliza nuevos conjuntos de datos mejorados y recetas de entrenamiento optimizadas para lograr un rendimiento de vanguardia en tareas de lenguaje portugués, liberando todos sus artefactos para fomentar la reproducibilidad y el avance en la comunidad de PLN de habla portuguesa.