Coupling Local Context and Global Semantic Prototypes via a Hierarchical Architecture for Rhetorical Roles Labeling

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está lendo um livro de direito muito longo e complicado, como uma decisão da Suprema Corte dos EUA. Para um computador, esse texto é apenas uma sequência de palavras. Mas para um advogado ou um juiz, cada frase tem um propósito específico: algumas estão apenas apresentando o caso, outras estão citando uma lei antiga, outras estão analisando os fatos e, por fim, algumas dão a decisão final.

O trabalho de Rótulos de Papel Retórico (RRL) é ensinar o computador a entender essa "dança" das frases: saber se uma frase é uma "citação", uma "análise" ou uma "decisão".

O problema é que os computadores atuais são ótimos em ler uma frase e olhar para a frase anterior e a posterior (o contexto local), mas eles têm dificuldade em entender o padrão geral de todo o documento (o contexto global). É como tentar entender a trama de um filme olhando apenas para um quadro por vez, sem lembrar do que aconteceu no início.

Aqui está a explicação simples do que os autores fizeram, usando analogias do dia a dia:

1. O Problema: O Detetive que Esquece o Caso

Os modelos antigos funcionam como um detetive que investiga cada suspeito (frase) isoladamente. Ele olha para o suspeito e pergunta: "O que você está fazendo agora?". Mas ele esquece que, no início do caso, já havia um padrão: "Geralmente, antes da decisão final, sempre vem uma análise". Sem essa memória global, o detetive confunde frases parecidas (ex: uma frase que "cita" uma lei com uma que "analisa" a lei).

2. A Solução: O "Guia de Bolso" (Protótipos)

Os autores criaram uma solução baseada em Protótipos. Pense em um protótipo como um "Guia de Bolso" ou um "Exemplo Perfeito" de cada tipo de frase.

Existe um "Exemplo Perfeito" de uma frase que cita uma lei.
Existe um "Exemplo Perfeito" de uma frase que decide o caso.

O computador usa esses exemplos perfeitos como uma bússola. Se uma frase nova parece muito com o "Exemplo Perfeito de Citação", o computador sabe que ela é uma citação, mesmo que o contexto local esteja confuso.

3. As Duas Técnicas Criadas

Os autores propuseram duas maneiras de usar esse "Guia de Bolso":

Técnica A: O Treinamento com Espelho (Regularização Baseada em Protótipos - PBR)
Imagine que você está aprendendo a dançar. O computador tenta se mover (criar representações de frases) e, ao mesmo tempo, olha para um espelho (o protótipo). Se ele se afastar muito do movimento correto, o "espelho" o puxa de volta.
- Na prática: O modelo é forçado a organizar suas ideias no espaço mental para que frases semelhantes fiquem agrupadas perto do seu "Exemplo Perfeito". Isso limpa a bagunça mental do computador.
Técnica B: O Injetor de Sabedoria (Modulação Condicionada por Protótipos - PCM)
Aqui, é como se o computador tivesse um consultor experiente ao lado. Antes de analisar uma frase, o consultor olha para o "Guia de Bolso" e diz: "Ei, lembre-se que neste tipo de documento, frases assim geralmente significam X".
- Na prática: O computador injeta essa sabedoria global diretamente no processo de leitura, ajustando a interpretação da frase em tempo real.

4. O Novo Tesouro: O Dataset SCOTUS-LAW

Para testar isso, os autores não usaram apenas dados antigos. Eles criaram um novo tesouro: o SCOTUS-LAW.

O que é: A primeira coleção de decisões da Suprema Corte dos EUA anotada por humanos especialistas.
A Diferença: Eles não apenas rotularam as frases de forma simples. Eles criaram uma hierarquia de 3 níveis (como uma árvore genealógica):
1. Categoria: O grande bloco (ex: "Análise").
2. Função: O papel específico (ex: "Citar uma lei").
3. Passo: Detalhes finos (ex: "Citar uma lei específica do caso X").
- Analogia: É como classificar um animal. Primeiro você diz "Mamífero" (Categoria), depois "Cão" (Função) e por fim "Pastor Alemão" (Passo). Isso ajuda o computador a entender nuances muito finas.

5. Os Resultados: Por que isso importa?

Melhora nos Casos Difíceis: O modelo ficou muito melhor em distinguir frases que parecem iguais, mas têm funções diferentes (como confundir "lembrar de um fato" com "dar a opinião do juiz").
Eficiência: Eles compararam seus métodos com os gigantes atuais (Inteligência Artificial de grande porte, como o GPT). O resultado? O método deles é muito mais leve e rápido (usa menos energia e memória) e, em muitos casos, é mais preciso para essa tarefa específica.
Conclusão: Em vez de usar um "súper-computador" gigante para ler um documento, eles ensinaram um computador menor a usar um "Guia de Bolso" inteligente.

Resumo Final

Os autores ensinaram computadores a ler documentos jurídicos complexos não apenas olhando para o que está ao redor de uma frase, mas também consultando um "Guia de Bolso" de exemplos perfeitos de todo o documento. Isso permite que a máquina entenda a estrutura global do texto, resolvendo confusões que antes pareciam impossíveis, tudo isso de forma mais barata e eficiente do que os modelos gigantes atuais.

Each language version is independently generated for its own context, not a direct translation.

1. Definição do Problema

O Rótulo de Papel Retórico (RRL - Rhetorical Role Labeling) é a tarefa de classificar cada frase de um documento de acordo com sua função semântica dentro do discurso (ex: em textos jurídicos, identificar se uma frase é uma "Análise", "Citação" ou "Resolução").

Limitação Atual: Modelos hierárquicos de última geração (SOTA) capturam bem as dependências locais (contexto entre frases vizinhas), mas falham em modelar recursos globais compartilhados entre documentos. Isso dificulta a resolução de ambiguidades entre papéis retóricos semanticamente próximos (ex: diferenciar "Recitar" de "Expor o raciocínio do Tribunal").
Desafio de Recursos: Existe uma escassez de conjuntos de dados anotados para RRL, especialmente para decisões do Supremo Tribunal dos EUA (US Supreme Court), limitando o treinamento e a avaliação de modelos.

2. Metodologia Proposta

Os autores propõem uma arquitetura hierárquica que integra o contexto local com protótipos semânticos globais (representações médias de classes aprendidas a partir do corpus). Eles introduzem duas abordagens principais:

A. Arquitetura Base (Backbone)

Utilizam uma Rede de Rotulagem Sequencial Hierárquica (HSLN):

Codificação de Frases: Cada frase é codificada via BERT, seguida por uma Bi-LSTM e um mecanismo de attention pooling para obter vetores de frase.
Contextualização Documental: Uma segunda Bi-LSTM contextualiza os vetores de frase com as frases vizinhas.
Decodificação: Uma camada CRF (Conditional Random Field) prevê a sequência ótima de rótulos.

B. Métodos Baseados em Protótipos

Para injetar informações globais, propõem dois métodos:

Regularização Baseada em Protótipos (PBR - Prototype-Based Regularization):
- Aprende protótipos "soft" (vetores treináveis) que compartilham o espaço de embedding com as frases.
- Adiciona uma função de perda auxiliar composta por:
  - Perda de Proximidade ( $L_{prox}$ ): Puxa os embeddings das frases para o protótipo mais próximo de sua classe.
  - Perda de Diversidade ( $L_{div}$ ): Empurra os protótipos uns dos outros para evitar redundância no espaço latente.
- Vantagem: Atua como um regularizador leve sem alterar a arquitetura principal.
Modulação Condicionada a Protótipos (PCM - Prototype-Conditioned Modulation):
- Constrói protótipos a priori a partir do corpus de treinamento (média dos embeddings das frases de cada classe).
- Injeção Dinâmica: Durante o treinamento e inferência, os protótipos são injetados na arquitetura hierárquica através de módulos de modulação.
- Estratégias de Amostragem: Avaliam se os protótipos devem vir de todo o corpus ou de subconjuntos semânticos (amostragem supervisionada via clustering).
- Mecanismo: Os protótipos modulam as representações das frases, agindo como "âncoras" semânticas globais.

3. Principais Contribuições

Novos Métodos de RRL: Introdução do PBR e PCM, demonstrando que a integração de representações globais (protótipos) com contexto local melhora a distinção entre papéis retóricos ambíguos.
Novo Dataset (SCOTUS-LAW): Lançamento do primeiro corpus anotado manualmente de decisões do Supremo Tribunal dos EUA.
- Granularidade: Anotação em três níveis: Categoria (5 níveis), Função Retórica (13 níveis) e Passo (Step - 35 níveis, combinando função e atributos).
- Estatísticas: 180 decisões, ~26.300 frases, cobrindo o período de 1945-2020.
Avaliação Abrangente: Testes em benchmarks legais (LEGALEVAL, DEEPRHOLE), médicos (PUBMED) e científicos (CS-ABSTRACTS).
Análise com LLMs: Comparação de métodos baseados em protótipos com modelos de Linguagem de Grande Escala (LLMs) ajustados (QLoRA), analisando a relação custo-eficiência.

4. Resultados Experimentais

Desempenho Geral: Ambos os métodos (PBR e PCM) superaram consistentemente os baselines hierárquicos em todos os domínios.
- Ganhos: Melhorias de ~4 pontos no Macro-F1 para papéis de baixa frequência (long-tail).
- PCM: Obteve os melhores resultados em 4 de 7 tarefas, especialmente no dataset SCOTUS-LAW (nível de "Step"), onde a granularidade é alta.
Resolução de Ambiguidades:
- A análise qualitativa e avaliação de especialistas mostraram que os protótipos reduzem significativamente erros entre pares de classes confusas (ex: "Recitar" vs. "Expor o raciocínio do Tribunal").
- O PBR demonstrou ser robusto para regularização estrutural, enquanto o PCM mostrou alto potencial, mas dependente da qualidade da recuperação do protótipo.
Eficiência vs. LLMs:
- Embora LLMs ajustados (como Mistral-7B) tenham melhorado em relação a avaliações anteriores, os métodos baseados em protótipos (com apenas 110M parâmetros treináveis) superaram o Mistral-7B em precisão e exigiram **70x menos parâmetros**, oferecendo um melhor equilíbrio entre acurácia e eficiência computacional.

5. Significado e Conclusão

Validação da Abordagem: O trabalho demonstra que a modelagem de regularidades globais através de protótipos é essencial para tarefas de classificação de discurso, especialmente em domínios estruturados como o jurídico.
Impacto no NLP Jurídico: O dataset SCOTUS-LAW preenche uma lacuna crítica, permitindo pesquisas mais granulares sobre a estrutura argumentativa de decisões judiciais dos EUA.
Futuro: Os autores sugerem que, na era dos LLMs, métodos especializados e eficientes (como os propostos) continuam sendo superiores para tarefas de classificação estruturada quando os dados de treinamento são suficientes, oferecendo uma alternativa viável e econômica aos grandes modelos generativos.

Em resumo, o artigo avança o estado da arte no RRL ao provar que a combinação de contexto local (via arquiteturas hierárquicas) e contexto global (via protótipos semânticos) resolve ambiguidades críticas, ao mesmo tempo que fornece um novo recurso de dados fundamental para a comunidade de NLP jurídico.