Why Does RLAIF Work At All?
Questo articolo propone l'ipotesi del valore latente, sostenendo che l'RLAIF funziona perché i prompt costituzionali attivano direzioni di valore umano già codificate nello spazio delle rappresentazioni del modello durante il preaddestramento, spiegando così i limiti e i meccanismi di allineamento osservati empiricamente.