Reforming the Mechanism: Editing Reasoning Patterns in LLMs with Circuit Reshaping

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs), como o ChatGPT ou o Qwen, são como cérebros digitais gigantes que aprenderam a falar e a raciocinar lendo quase tudo o que existe na internet. Eles são incríveis, mas às vezes cometem erros de lógica básicos, como um aluno que sabe a tabuada de cor, mas confunde o sinal de menos com o de mais em uma equação simples.

O problema é que, até agora, tentar corrigir esses erros era como tentar consertar um carro quebrado trocando o motor inteiro. Os pesquisadores tentavam "reeducar" o modelo inteiro, o que é caro, demorado e, muitas vezes, faz o modelo esquecer coisas que ele já sabia fazer bem.

Este artigo, apresentado na conferência ICLR 2026, apresenta uma solução inteligente chamada REdit. Vamos explicar como funciona usando uma analogia simples: O "Cirurgião de Circuitos".

1. O Problema: O Dilema do "Tudo ou Nada"

Imagine que o raciocínio do modelo é uma cidade com muitas estradas (circuitos neurais).

Generalidade: Se você conserta uma estrada para ir ao hospital, ela deve funcionar para todos que precisam ir ao hospital (não apenas para o Sr. João).
Localidade: Ao consertar essa estrada, você não pode destruir a estrada que leva à escola ou ao parque.

O grande desafio é: quando você tenta consertar uma estrada específica (corrigir um erro de lógica), você acaba bloqueando ou estragando as outras estradas. É o "dilema": quanto mais você tenta consertar um erro, mais você estraga o resto.

2. A Descoberta: A "Lei da Interferência"

Os pesquisadores descobriram algo fascinante, que chamaram de Lei da Interferência de Circuitos.
Eles perceberam que os erros de raciocínio acontecem porque as "estradas" de diferentes tipos de lógica estão muito misturadas no cérebro do modelo.

Analogia: Imagine que a estrada para "Lógica Matemática" e a estrada para "Lógica Médica" estão tão entrelaçadas que, se você tentar alinhar a matemática, você acaba torcendo a medicina sem querer.
A Lei: Quanto mais as estradas (circuitos) se sobrepõem, maior a chance de um conserto em uma área estragar a outra.

3. A Solução: O REdit (Reformando o Mecanismo)

Em vez de apenas tentar colar o erro (o que causa o caos), o REdit faz algo mais profundo: ele remodela a cidade antes de fazer o conserto.

O REdit funciona em três etapas principais, como um arquiteto inteligente:

A. O "Desentrelaçamento" (Contrastive Circuit Reshaping)

Imagine que você tem dois fios de lã, um vermelho (lógica correta) e um azul (lógica errada), que estão torcidos juntos.
O Redit primeiro separa os fios. Ele usa uma técnica especial para "esticar" os circuitos neurais, garantindo que a lógica que o modelo já faz bem fique longe da lógica que ele erra. Isso cria espaço para trabalhar sem estragar o resto.

B. O "Treinamento de Mestre" (Meta-Contrastive Learning)

Depois de separar os fios, o modelo aprende a usar essa nova estrutura. É como se o modelo praticasse em um simulador, aprendendo a aplicar a lógica correta não apenas para um caso específico, mas para qualquer situação que use aquele mesmo padrão de raciocínio. Isso garante que a correção funcione em qualquer lugar (Generalidade).

C. O "Cinto de Segurança" (Dual-Level Protection)

Enquanto o modelo está sendo remodelado, o Redit coloca um "cinto de segurança" duplo:

Proteção de Previsão: Garante que o modelo continue dando as mesmas respostas corretas que dava antes para as coisas que ele já sabia.
Proteção de Direção: Garante que as mudanças nos pesos do modelo não desviem para caminhos que estraguem outras habilidades.
É como ter um freio de mão que impede o carro de sair da pista enquanto você faz a curva.

4. O Resultado: Um Modelo Mais Inteligente e Preciso

Depois de remodelar a "cidade" (os circuitos), eles aplicam um pequeno ajuste fino (como um LoRA, que é uma ferramenta leve de edição).

O que aconteceu? O modelo corrigiu seus erros de lógica (como inferências falsas em medicina ou matemática) sem esquecer o que sabia antes.
A prova: Eles testaram em modelos como o Qwen-2.5 e viram que o REdit foi muito melhor do que os métodos antigos. Ele conseguiu consertar o erro específico sem "quebrar" o resto do cérebro do modelo.

Resumo em uma frase

O REdit é como um cirurgião que, em vez de amputar um membro do cérebro do robô para corrigir um erro, primeiro reorganiza a anatomia para separar as áreas de risco, permitindo um conserto preciso que não afeta a memória ou outras habilidades do robô.

Isso é um grande passo para tornar a Inteligência Artificial mais confiável, especialmente em áreas críticas como medicina e direito, onde um erro de lógica pode ter consequências reais e graves.

Reforming the Mechanism: Editing Reasoning Patterns in LLMs with Circuit Reshaping

1. O Problema: O Dilema do "Tudo ou Nada"

2. A Descoberta: A "Lei da Interferência"

3. A Solução: O REdit (Reformando o Mecanismo)

A. O "Desentrelaçamento" (Contrastive Circuit Reshaping)

B. O "Treinamento de Mestre" (Meta-Contrastive Learning)

C. O "Cinto de Segurança" (Dual-Level Protection)

4. O Resultado: Um Modelo Mais Inteligente e Preciso

Resumo em uma frase

Resumo Técnico: Reformatando o Mecanismo – Edição de Padrões de Raciocínio em LLMs com Reconfiguração de Circuitos

1. O Problema: A Falha no Raciocínio e a Limitação das Abordagens Atuais

2. Descoberta Fundamental: A Lei de Interferência de Circuitos

3. Metodologia: O Framework REdit

4. Resultados Experimentais

5. Contribuições e Significado

Reforming the Mechanism: Editing Reasoning Patterns in LLMs with Circuit Reshaping

1. O Problema: O Dilema do "Tudo ou Nada"

2. A Descoberta: A "Lei da Interferência"

3. A Solução: O REdit (Reformando o Mecanismo)

A. O "Desentrelaçamento" (Contrastive Circuit Reshaping)

B. O "Treinamento de Mestre" (Meta-Contrastive Learning)

C. O "Cinto de Segurança" (Dual-Level Protection)

4. O Resultado: Um Modelo Mais Inteligente e Preciso

Resumo em uma frase

Resumo Técnico: Reformatando o Mecanismo – Edição de Padrões de Raciocínio em LLMs com Reconfiguração de Circuitos

1. O Problema: A Falha no Raciocínio e a Limitação das Abordagens Atuais

2. Descoberta Fundamental: A Lei de Interferência de Circuitos

3. Metodologia: O Framework REdit

4. Resultados Experimentais

5. Contribuições e Significado

Mais como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance