Systematic contextual biases in SegmentNT potentially relevant to other nucleotide transformer models
Questo articolo identifica e caratterizza i bias contestuali sistematici nel modello transformer nucleotidico SegmentNT, in particolare per quanto riguarda la lunghezza della sequenza di input, la posizione del nucleotide e un'oscillazione periodica di 24 nucleotidi legata alla tokenizzazione, e propone metodi di standardizzazione per migliorare la coerenza delle previsioni e guidare l'uso di modelli genomici simili.