A Visão Geral: Um Novo Cômodo em uma Casa Antiga

Imagine uma biblioteca massiva e altamente inteligente (o Modelo Base) que já sabe escrever, programar e raciocinar. Esta biblioteca tem uma maneira específica de organizar seus livros e pensamentos, que os pesquisadores chamam de sua "geometria interna".

Agora, imagine que você quer ensinar a essa biblioteca uma nova habilidade, como escrever em um estilo específico ou seguir novas regras de segurança. Em vez de reconstruir toda a biblioteca, você adiciona um pequeno anexo temporário a ela. Isso é o LoRA (Adaptação de Baixo Rango). É um "adaptador" leve que fica em cima da biblioteca original para ajustar seu comportamento sem alterar os livros originais.

O Problema: Sabemos que o anexo muda o que a biblioteca diz, mas não sabemos realmente como ele muda o pensamento interno da biblioteca. O anexo apenas reorganiza os livros existentes ou constrói uma nova ala completamente invisível que o mapa da biblioteca original não mostra?

O Experimento: O Detetive do "Delta"

Os pesquisadores queriam ver exatamente o que esse anexo (o adaptador LoRA) estava fazendo dentro do cérebro da biblioteca.

A Foto "Antes e Depois": Eles tiraram uma instantânea dos pensamentos da biblioteca antes de adicionar o anexo ( $h_{base}$ ) e outra instantânea após adicioná-lo ( $h_{adapted}$ ).
A "Diferença" ( $h_\Delta$ ): Eles subtraíram a foto "antes" da foto "depois". O resultado, chamado de Delta, é o "fantasma" puro do adaptador. Ele mostra apenas o que o novo anexo adicionou, removendo tudo o que a biblioteca original já sabia.
O Tradutor (Autoencoder Esparso): Para entender esse "fantasma", eles usaram uma ferramenta especial chamada Autoencoder Esparso (SAE). Pense em um SAE como um tradutor que tenta descrever pensamentos complexos usando um dicionário específico de conceitos simples e claros (como "felicidade", "matemática" ou "perigo").

A Descoberta: Dois Idiomas Diferentes

Os pesquisadores treinaram seu tradutor em duas coisas diferentes:

Dicionário A: Os conceitos existentes da biblioteca original (SAE Pré-treinado).
Dicionário B: Um novo dicionário treinado especificamente no "fantasma" do anexo (SAE Delta).

Eis o que eles descobriram:

1. O Tradutor Falhou com o Dicionário Antigo

Quando tentaram descrever os pensamentos do anexo usando o dicionário da biblioteca original, o tradutor falhou miseravelmente.

A Analogia: Imagine tentar descrever um novo tipo de fruta alienígena usando apenas palavras para maçãs e laranjas. Você não consegue. O "erro" foi tão alto que o tradutor nem conseguiu capturar a forma da fruta.
O Resultado: O dicionário original era cego às novas características que o adaptador criou.

2. O Novo Dicionário Funcionou Perfeitamente

Quando usaram o novo dicionário (treinado especificamente no anexo), ele descreveu os pensamentos perfeitamente.

A Analogia: Eles perceberam que o anexo estava falando um dialeto ligeiramente diferente. Assim que aprenderam aquele dialeto específico, tudo fez sentido.
O Resultado: O adaptador cria seu próprio "espaço de características" único, que é geometricamente distinto do modelo original.

3. O "Fantasma" Vive em um Quarto Diferente

Os pesquisadores mediram o ângulo entre os pensamentos da biblioteca original e os pensamentos do adaptador.

A Analogia: Se os pensamentos da biblioteca original apontassem para o Norte, os pensamentos do adaptador apontavam quase diretamente para o Oeste (cerca de 74 graus de distância). Eles não são apenas ligeiramente diferentes; estão operando em uma direção completamente distinta.
O Resultado: Não importa o quão grande ou pequeno fosse o adaptador (alterando o "rango" ou tamanho do anexo), ele sempre construía esse quarto separado e distinto.

Por Que Isso Importa (Segundo o Artigo)

O artigo destaca uma "lacuna de monitoramento" específica em relação à segurança:

O Ponto Cego: Se você treinar um filtro de segurança na biblioteca original (o modelo base) e depois anexar um adaptador de segurança (LoRA), as ferramentas de segurança podem estar olhando para o mapa errado. Elas estão verificando o "Norte" da biblioteca original, enquanto o adaptador está operando no "Oeste".
O Risco: Como as mudanças internas do adaptador são tão diferentes do modelo base, verificações de segurança padrão podem perder comportamentos perigosos que o adaptador introduz. O adaptador está efetivamente se escondendo em um quarto que os inspetores de segurança não conseguem ver.

Resumo das Principais Descobertas

O LoRA não é apenas um ajuste; é uma nova estrutura. Ele cria características que o dicionário do modelo original não consegue ver.
O tamanho não muda a direção. Seja o adaptador pequeno ou grande, ele sempre constrói esse "quarto" separado e distinto.
Precisamos de novos mapas. Para entender ou auditar esses modelos adaptados, não podemos apenas usar as ferramentas construídas para o modelo original. Precisamos construir novas ferramentas (como o "SAE Delta") que olhem especificamente para o que o adaptador adiciona.

Em resumo: O adaptador não apenas rearranja os móveis na casa original; ele constrói uma nova ala invisível que requer seu próprio projeto exclusivo para ser compreendida.

Resumo Técnico: Geometria de Recursos de Adaptadores LoRA

Declaração do Problema

Embora a Adaptação de Baixo Rango (LoRA) seja o método dominante para o ajuste fino de Modelos de Linguagem de Grande Escala (LLMs), as mudanças representacionais internas que ela induz permanecem pouco compreendidas. As ferramentas existentes de interpretabilidade mecânica, especificamente Autoencoders Esparsos (SAEs), foram aplicadas com sucesso a modelos base e variantes ajustadas via RLHF para decompor ativações do fluxo residual em recursos esparsos e monossêmicos. No entanto, essas ferramentas são tipicamente aplicadas à saída completa do modelo adaptado, confundindo representações do modelo base com contribuições específicas do adaptador.

Essa falta de granularidade cria uma lacuna crítica: se os adaptadores LoRA operam em subespaços representacionais que as ferramentas de interpretabilidade do modelo base não conseguem "enxergar", auditorias de segurança e análises de alinhamento de modelos ajustados podem ser sistematicamente incompletas. Além disso, as razões mecânicas pelas quais o ajuste fino de segurança pode ser facilmente desfeito por adaptações subsequentes permanecem inexploradas no nível dos recursos.

Metodologia: O Framework Delta SAE

Para isolar a contribuição específica dos adaptadores LoRA, os autores introduzem um Framework de Ativação Delta. Em vez de analisar a ativação adaptada completa ( $h_{adapted}$ ), o estudo foca no delta de ativação:
$h_\Delta = h_{adapted} - h_{base} = \frac{\alpha}{\sqrt{r}} BAx$
Este delta representa a contribuição exata e mecanicamente limpa do adaptador, livre do sinal do modelo base.

O pipeline experimental envolve:

Configuração do Modelo: Uso do Gemma-2-9B como modelo base. Quatro adaptadores LoRA foram treinados com rangos $r \in \{4, 8, 16, 32\}$ no conjunto de dados Alpaca (10.000 amostras), com todos os outros hiperparâmetros fixos para isolar o rango como variável.
Extração de Delta: Hooks de forward capturaram ativações do fluxo residual em seis camadas alvo (5, 10, 18, 22, 32, 38) para ambos os modelos base e adaptados para calcular $h_\Delta$ .
Treinamento de Delta SAE: SAEs dedicados foram treinados exclusivamente nos vetores $h_\Delta$ normalizados para cada par (rango, camada). Estes foram comparados com SAEs Gemma Scope pré-treinados (treinados no fluxo residual do modelo base).
Análise Geométrica: Três medidas complementares foram usadas para avaliar o alinhamento entre os recursos induzidos pelo adaptador e os recursos do modelo base:
- Semelhança Cosseno: Semelhança máxima entre as direções do decodificador do delta SAE e as direções dos recursos do Gemma Scope.
- Análise de Ângulos Principais: Ângulos entre os subespaços de 256 dimensões superiores das matrizes de decodificador do delta SAE e do Gemma Scope.
- Alinhamento de Kernel Centralizado (CKA): Medindo a similaridade representacional entre os conjuntos de ativação $h_{base}$ e $h_\Delta$ .

Principais Resultados

1. Falha dos SAEs Base em Reconstruir Sinais do Adaptador

Quando SAEs do Gemma Scope (modelo base) foram usados para reconstruir $h_\Delta$ , o erro de reconstrução relativo excedeu 1,0 em todas as camadas e rangos. Isso indica que o erro de aproximação do dicionário base é maior que a magnitude do sinal do próprio adaptador. O erro foi mais severo nas camadas iniciais (Camada 5, $\epsilon \approx 2,3$ ) e melhorou ligeiramente com a profundidade, mas permaneceu alto.

2. Superioridade dos SAEs Específicos para Adaptadores

SAEs treinados especificamente em $h_\Delta$ superaram significativamente os SAEs base em dados de retenção. As melhorias de reconstrução variaram de 46,3% a 86,2%, demonstrando que os adaptadores LoRA aprendem estruturas genuínas e generalizáveis que não são capturadas pelo dicionário de recursos do modelo base.

3. Divergência Geométrica

Três análises independentes confirmaram que os recursos LoRA ocupam um subespaço geometricamente distinto:

Semelhança Cosseno: A semelhança cosseno máxima média entre recursos delta e recursos base foi de ~0,071, pouco acima do valor esperado para vetores aleatórios em 3.584 dimensões (~0). Apenas 0,01–0,02% dos recursos delta mostraram forte alinhamento (>0,7) com recursos base.
Ângulos Principais: O ângulo principal médio entre os subespaços foi de ~74°, com 0% das direções mostrando alinhamento (<20°). Aproximadamente 66% do subespaço foi quase ortogonal (>70°).
CKA: O CKA entre $h_{base}$ e $h_\Delta$ foi mais baixo na Camada 18 (a camada de processamento semântico), caindo para ~0,05–0,08, indicando divergência representacional máxima onde o processamento semântico está concentrado.

4. Efeitos de Rango e Profundidade

Densidade de Recursos: O número de recursos ativos por token aumentou monotonicamente com a profundidade da camada e o rango LoRA. Por exemplo, na Camada 38, o rango 4 ativou ~30 recursos/token, enquanto o rango 32 ativou ~41.
Estabilidade Geométrica: Apesar das mudanças na densidade e capacidade, a novidade geométrica fundamental (medida por ângulos principais e semelhança cosseno) permaneceu invariante ao rango. Todos os rangos produziram representações que estavam geometricamente separadas do modelo base.
Recursos Fracamente Alinhados: Mais de 93% dos recursos ativados por $h_\Delta$ foram "fracamente alinhados" (ativos apenas no delta, não na base), uma fração que permaneceu consistente em todos os rangos e camadas.

Significado e Alegações

O artigo afirma fornecer a primeira análise mecânica sistemática da geometria de recursos do LoRA. A contribuição principal é a identificação de uma "lacuna de monitoramento": ferramentas de interpretabilidade treinadas exclusivamente em ativações do modelo base são sistematicamente cegas às contribuições representacionais dos adaptadores LoRA.

Os autores argumentam que:

Auditorias de Segurança são Incompletas: Se uma organização implantar um modelo LoRA ajustado para segurança, auditorias padrão baseadas em SAEs podem falhar em detectar representações codificadas no adaptador porque o dicionário base não consegue reconstruir o sinal delta.
Explicação Mecânica para a Fragilidade: A separação geométrica oferece uma conta mecânica para o motivo pelo qual o ajuste fino de segurança pode ser facilmente desfeito; o ajuste fino subsequente pode simplesmente deslocar o modelo para um subespaço distinto que as restrições de segurança originais (codificadas na geometria base) não monitoram efetivamente.
Solução Metodológica: O Framework Delta SAE é proposto como uma ferramenta necessária para auditoria no nível de recursos de modelos ajustados, permitindo o isolamento e análise de contribuições específicas do adaptador.

O estudo conclui que, embora os adaptadores LoRA aumentem a capacidade representacional (densidade) com rangos mais altos, eles operam fundamentalmente em um subespaço geométrico distinto, necessitando de novas abordagens de interpretabilidade para modelos ajustados.

Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models