Systematic contextual biases in SegmentNT potentially relevant to other nucleotide transformer models
Dit artikel identificeert en karakteriseert systematische contextuele vertekeningen in het SegmentNT-nucleotide-transformatormodel—specifiek met betrekking tot de lengte van de invoersequentie, de nucleotidepositie en een 24-nucleotide periodieke oscillatie die gekoppeld is aan tokenisatie—en stelt standaardisatiemethoden voor om de consistentie van voorspellingen te verbeteren en het gebruik van vergelijkbare genomische modellen te sturen.