Systematic contextual biases in SegmentNT potentially relevant to other nucleotide transformer models
Dieser Beitrag identifiziert und charakterisiert systematische kontextuelle Verzerrungen im SegmentNT-Nukleotid-Transformer-Modell – insbesondere hinsichtlich der Eingabesequenzlänge, der Nukleotidposition und einer mit der Tokenisierung verbundenen 24-Nukleotid-periodischen Oszillation – und schlägt Standardisierungsmethoden vor, um die Vorhersagekonsistenz zu verbessern und die Anwendung ähnlicher genomischer Modelle zu leiten.