Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando entender o que alguém está dizendo, mas a pessoa só sussurra frases muito curtas, como "Fui ao hospital" ou "Troquei a bateria". Em português, isso já é difícil, mas em coreano, é ainda mais complicado!

Por que? Porque o coreano é uma língua "aglutinante". Pense em uma palavra em coreano como um trilho de trem onde várias peças (significados, tempos verbais, quem fez a ação) estão grudadas umas nas outras. Se você tirar uma peça (o que acontece muito em mensagens curtas, onde as pessoas pulam palavras), o trem descarrila e o significado fica confuso.

É aqui que entra o LIGRAM, o "herói" deste artigo. Vamos entender como ele funciona usando analogias simples:

1. O Problema: O Quebra-Cabeça Incompleto

Os computadores tradicionais tentam classificar essas frases curtas olhando apenas para as palavras soltas. É como tentar adivinhar a história de um filme vendo apenas 3 fotos aleatórias. Em coreano, como as palavras mudam de forma dependendo de como são usadas e como a ordem delas pode ser flexível, os computadores antigos frequentemente erram feio.

2. A Solução: O LIGRAM (O Detetive Multinível)

Os autores criaram um modelo chamado LIGRAM. Em vez de olhar apenas para a frase inteira, o LIGRAM decide investigar a frase em três níveis diferentes, como se tivesse três lentes de aumento:

Lente 1: As Peças do Trem (Morfemas)
O coreano é feito de pedacinhos de significado. O LIGRAM quebra a palavra em seus menores componentes (como separar "bateria" de "trocar" e "a"). Ele cria um mapa mostrando como esses pedacinhos se conectam. É como se ele dissesse: "Ah, mesmo que a frase esteja curta, eu vejo que a peça 'trocar' está ligada à peça 'bateria'".
Lente 2: A Gramática Invisível (Partes da Fala)
Em frases curtas, as pessoas pulam as "partículas" (aquelas palavrinhas que dizem quem fez o quê para quem). O LIGRAM cria um mapa especial para essas regras gramaticais. É como se ele tivesse um radar que detecta: "Ei, essa frase parece uma ordem, não uma declaração, mesmo que não tenha o ponto final!"
Lente 3: Os Nomes Próprios (Entidades)
Se a frase diz "Apple", o LIGRAM sabe que pode ser a fruta ou a empresa de tecnologia. Ele cria um mapa de conexões entre nomes de lugares, pessoas e marcas para ajudar a decidir o contexto. É como usar o nome de um personagem para saber em qual filme você está.

O Pulo do Gato: O LIGRAM não usa essas lentes separadamente. Ele mistura todas as informações em uma única "ponte" gigante. Ele pega o significado das peças, a estrutura da gramática e os nomes próprios e os une para entender a frase completa, mesmo que ela seja curta e confusa.

3. O Treinamento: O Jogo dos Gêmeos Semânticos (SemCon)

Aqui entra a segunda grande inovação: o SemCon.

Imagine que você tem uma pilha de cartas de baralho misturadas. Algumas cartas são de "Ação", outras de "Romance". O problema é que algumas cartas de "Ação" parecem muito com cartas de "Romance" (talvez ambas tenham a palavra "correr").

O LIGRAM usa uma técnica de aprendizado chamada Aprendizado Contrastivo Semântico.

Ele pega duas frases que parecem diferentes na superfície, mas que na verdade falam sobre o mesmo tema (ex: "O filme foi ótimo" e "Adorei o cinema").
Ele diz ao computador: "Ei, vocês dois são gêmeos em significado! Fiquem perto um do outro no espaço mental."
E para frases que parecem parecidas mas têm significados opostos, ele diz: "Vocês são inimigos! Afastem-se!"

Isso cria "fronteiras" muito claras entre os temas, ajudando o computador a não se confundir quando as frases são curtas e ambíguas.

4. O Resultado: Quem Ganhou?

Os pesquisadores testaram esse sistema em quatro tipos de textos curtos coreanos (notícias, críticas de filmes, trechos de busca e reviews de compras).

O Veredito: O LIGRAM venceu todos os concorrentes, incluindo modelos tradicionais e até alguns modelos de Inteligência Artificial gigantes (LLMs) em tarefas complexas.
Por que? Porque, ao contrário dos gigantes que tentam "adivinhar" tudo com base em bilhões de dados, o LIGRAM entende a estrutura específica do coreano. Ele sabe que, em coreano, a gramática e as pequenas peças da palavra são a chave para o significado.

Resumo em Uma Frase

O LIGRAM é como um detetive que, ao invés de apenas ler a frase curta, desmonta o coreano em suas peças menores, analisa a gramática oculta e usa nomes próprios para montar o quebra-cabeça, garantindo que o computador entenda exatamente o que você quis dizer, mesmo que você tenha dito muito pouco.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A classificação de texto curto (STC - Short Text Classification) é uma tarefa desafiadora na Processamento de Linguagem Natural (NLP) devido à escassez de informações contextuais e à falta de dados rotulados. Embora existam muitas abordagens para o inglês, os métodos existentes frequentemente falham ao lidar com o coreano, uma língua aglutinante com as seguintes características específicas:

Morfologia Complexa: O significado é construído no nível do morfema (sufixos, partículas), não apenas na palavra.
Ordem de Palavras Flexível: A sintaxe é menos rígida que em línguas de ordem fixa.
Omissões Frequentes: Em textos curtos (como títulos de notícias ou tweets), partículas e terminações gramaticais são frequentemente omitidas, gerando ambiguidade semântica.
Limitação dos Modelos Atuais: A maioria dos modelos baseados em grafos ou redes neurais foi projetada para o inglês e ignora essas nuances estruturais, resultando em perda de contexto e interpretações distorcidas.

2. Metodologia: O Modelo LIGRAM

Os autores propõem o LIGRAM (Linguistically Informed Graph Model), uma arquitetura de rede neural de grafos heterogêneos hierárquica, combinada com Aprendizado Contrastivo Semântico (SemCon).

A. Construção de Grafos Heterogêneos Hierárquicos

O modelo não trata o texto apenas como uma sequência de palavras, mas constrói três subgrafos distintos que capturam diferentes níveis linguísticos do coreano:

Grafo de Morfemas ( $G_w$ ):
- Decompõe as frases em morfemas usando o analisador morfológico Kiwi.
- Resolve o problema da tokenização baseada em espaços em branco, que é inadequada para línguas aglutinantes.
- As arestas são definidas por Pointwise Mutual Information (PMI) entre morfemas co-ocorrentes.
Grafo de Partes de Fala - POS ( $G_p$ ):
- Representa tags gramaticais (partículas, terminações) como nós.
- Crucial para o coreano, pois modela relações gramaticais que compensam a omissão frequente de partículas em textos curtos.
- As conexões são baseadas na co-ocorrência de tags POS dentro do mesmo documento.
Grafo de Entidades Nomeadas ( $G_e$ ):
- Extrai entidades (pessoas, locais, organizações) usando o modelo KPF-BERT-NER.
- Serve como "âncoras" semânticas para desambiguação quando o contexto é limitado.
- As conexões são baseadas na similaridade cosseno entre vetores de entidades.

Integração Hierárquica:
Cada subgrafo é processado independentemente por uma Rede Neural de Grafos (GCN) de duas camadas. As representações dos nós são então agrupadas (pooling) usando atenção (baseada em TF-IDF para morfemas/POS e presença binária para entidades) para gerar embeddings de documento parciais. Esses embeddings são concatenados para formar uma representação final do documento.

B. Aprendizado Contrastivo Semântico (SemCon)

Para superar a ambiguidade de limites de classe em textos curtos, o modelo aplica uma estratégia de aprendizado contrastivo baseada em distribuições de tópicos pseudo:

O embedding do documento é transformado em uma distribuição de probabilidade sobre as classes (pseudo-tópico) via uma camada Softmax.
Pares Positivos: Documentos com a mesma distribuição de pseudo-tópico são tratados como similares.
Pares Negativos: Documentos com distribuições diferentes são tratados como dissimilares.
Isso força o modelo a aprender representações alinhadas com a estrutura semântica real, criando fronteiras de decisão mais claras, mesmo sem depender exclusivamente de rótulos "ouro" (gold labels) durante o estágio de contraste.

C. Função de Perda Unificada

O treinamento otimiza uma função de perda combinada:
$L = L_{ce} + \lambda L_{con}$
Onde $L_{ce}$ é a perda de entropia cruzada (classificação supervisionada) e $L_{con}$ é a perda contrastiva semântica, equilibrada pelo hiperparâmetro $\lambda$ .

3. Principais Contribuições

LIGRAM: Um modelo de grafo heterogêneo hierárquico que integra explicitamente unidades linguísticas específicas do coreano (morfemas, POS e entidades) para capturar dependências gramaticais e semânticas que modelos gerais ignoram.
SemCon: Uma abordagem de aprendizado contrastivo que utiliza distribuições de pseudo-tópicos para alinhar documentos semanticamente similares, mitigando a ambiguidade inerente a textos curtos.
Validação Empírica: Demonstração de que a integração de representações de grafos informadas linguisticamente com aprendizado contrastivo supera significativamente os modelos baseados em English e LLMs em tarefas de STC coreano com recursos limitados.

4. Resultados Experimentais

O modelo foi avaliado em quatro conjuntos de dados coreanos: KLUE YNAT (notícias), Movie Reviews (sentimento), Snippets (resumos de busca) e Shopping (revisões de produtos).

Desempenho Geral: O LIGRAM superou consistentemente todas as linhas de base, incluindo modelos tradicionais (SVM, LDA), modelos baseados em BERT (KLUE-BERT), grafos existentes (TextGCN, SHINE) e até alguns Grandes Modelos de Linguagem (LLMs) em cenários de múltiplas classes.
Métricas Chave:
- No conjunto KLUE YNAT, alcançou 84,03% de Acurácia e 82,69% de F1-Macro, superando o segundo melhor modelo (HyperGAT) em mais de 21 pontos percentuais no F1.
- No conjunto Snippets, obteve 80,49% de Acurácia, superando o GIFT em 8,4%.
Estudo de Ablação:
- A remoção de qualquer um dos subgrafos (especialmente o de morfemas) degradou o desempenho, confirmando a necessidade da modelagem multilíngue.
- A remoção do módulo SemCon resultou em uma queda média de 9,8% no F1, provando que o aprendizado contrastivo é vital para a separação de classes.
Comparação com LLMs: Embora LLMs de grande escala (como GPT-5.2) tenham performado bem em tarefas binárias de sentimento (onde o vocabulário superficial é suficiente), o LIGRAM superou-os em tarefas de classificação de tópicos com múltiplas classes e recursos limitados, demonstrando maior eficiência e adaptabilidade a estruturas linguísticas específicas.

5. Significado e Conclusão

O trabalho demonstra que, para línguas aglutinantes como o coreano, a simples aplicação de modelos genéricos de NLP é insuficiente. A chave para o sucesso na classificação de texto curto reside na reconstrução explícita do contexto perdido através da modelagem de estruturas linguísticas profundas (morfemas e gramática) e no refinamento do espaço de representação via aprendizado contrastivo semântico.

O LIGRAM oferece uma solução escalável e eficiente para cenários de baixa recursos (poucos dados rotulados), validando que a incorporação de conhecimento linguístico específico na arquitetura do modelo é fundamental para superar as limitações de contexto inerentes aos textos curtos.