Systematic contextual biases in SegmentNT potentially relevant to other nucleotide transformer models
Este trabajo identifica y caracteriza sesgos contextuales sistemáticos en el modelo de transformador de nucleótidos SegmentNT, específicamente en relación con la longitud de la secuencia de entrada, la posición del nucleótido y una oscilación periódica de 24 nucleótidos vinculada a la tokenización, y propone métodos de estandarización para mejorar la consistencia de las predicciones y orientar el uso de modelos genómicos similares.