Stateful Cross-layer Vision Modulation
Die Arbeit stellt SCVM vor, einen neuartigen visuellen Rahmen, der durch einen rekursiv aktualisierten cross-layer-Speicher und eine schichtweise Feedback-Modulation die Darstellungsentwicklung steuert, um feingranulare Details zu bewahren und die Leistung multimodaler Sprachmodelle ohne zusätzliche Token, Encoder oder Anpassungen des Sprachmodells zu verbessern.