Delta-Crosscoder: Robust Crosscoder Model Diffing in Narrow Fine-Tuning Regimes
Il paper introduce Delta-Crosscoder, un metodo innovativo che combina sparsità BatchTopK e una perdita basata sulle differenze per isolare con successo le direzioni latenti responsabili di comportamenti specifici nei modelli fine-tuned, superando le limitazioni degli approcci esistenti in scenari di modifica stretta e asimmetrica.