Systematic contextual biases in SegmentNT potentially relevant to other nucleotide transformer models
Cet article identifie et caractérise des biais contextuels systématiques dans le modèle de transformateur nucléotidique SegmentNT — spécifiquement concernant la longueur de la séquence d'entrée, la position des nucléotides et une oscillation périodique de 24 nucléotides liée à la tokenisation — et propose des méthodes de normalisation pour améliorer la cohérence des prédictions et guider l'utilisation de modèles génomiques similaires.