SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante cheia de teses e dissertações escritas em eslovaco. O problema é que, para encontrar o que você procura, você precisa de "etiquetas" (palavras-chave) que resumam o conteúdo de cada trabalho.

O artigo que você leu conta a história de como os pesquisadores criaram um mapa gigante para essa biblioteca e testaram diferentes "robôs" para ver quem consegue criar as melhores etiquetas.

Aqui está a explicação, passo a passo, usando analogias do dia a dia:

1. O Grande Desafio: A "Camuflagem" das Palavras

Em línguas como o inglês, uma palavra é mais ou menos a mesma coisa, não importa onde ela esteja na frase. Mas em eslovaco (e em muitas línguas eslavas), as palavras são como camaleões.

A Analogia: Imagine que a palavra "Cachorro" é o conceito. Em inglês, você sempre escreve "Dog". Em eslovaco, dependendo de quem está falando, para quem está falando ou o que está acontecendo, a palavra muda de forma: cães, do cachorro, para o cachorro, com o cachorro, etc.
O Problema: Os autores das teses escrevem as etiquetas oficiais no começo do documento usando a forma "padrão" (como "Cachorro"). Mas, dentro do texto da tese, eles usam as formas "camaleão" (como "do cachorro").
A Dificuldade: Os robôs antigos (métodos estatísticos) são muito literais. Eles olham para o texto, veem "do cachorro" e dizem: "Ah, a etiqueta é 'Cachorro', então isso não bate!". Eles perdem pontos apenas porque a palavra mudou de roupa, mesmo que o significado seja o mesmo.

2. A Solução: O "SlovKE" (O Mapa Gigante)

Os pesquisadores perceberam que não tinham um mapa grande o suficiente para treinar esses robôs. Eles pegaram o registro oficial de todas as teses da Eslováquia e fizeram uma faxina monumental.

O que fizeram: Eles limparam quase 800.000 documentos, tiraram o lixo (nomes de autores repetidos, erros de formatação) e ficaram com 227.432 teses limpas.
A Comparação: Antes, eles tinham um "pote de areia" (apenas 9.000 documentos). Agora, têm um "deserto inteiro" (227.000). É 25 vezes maior do que qualquer coisa que já existiu para essa língua. É como passar de ter um único mapa de bairro para ter um mapa de todo o continente.

3. A Corrida dos Robôs: Quem faz o melhor trabalho?

Eles testaram três tipos de robôs para criar as etiquetas:

Os Robôs Velhos (YAKE, TextRank, KeyBERT): Eles funcionam como pintores que só copiam. Eles olham para o texto e colam exatamente as palavras que veem.
- Resultado: Eles tiveram muita dificuldade. Como o texto tem as palavras "camaleão" e a etiqueta pede a forma "padrão", eles erraram muito. A pontuação deles foi baixa (cerca de 11,6% de acerto exato).
- O Pulo do Gato: Quando os pesquisadores permitiram que o robô aceitasse "parecidos" (parcial), a nota subiu muito (51,5%). Isso provou que o robô sabia o assunto, mas falhou na gramática.
O Robô Inteligente (KeyLLM - Um LLM como o GPT): Este é um robô que entende e reescreve, não apenas copia. Ele lê o texto, entende que "do cachorro" é a mesma coisa que "Cachorro" e escreve a etiqueta na forma correta.
- Resultado: Ele foi muito melhor! A pontuação subiu para cerca de 15,2%. Ele conseguiu "traduzir" as formas camaleão para a forma padrão, fechando a lacuna entre o que o texto diz e o que a etiqueta pede.

4. A Prova Real: O Exame Humano

Os pesquisadores não confiaram apenas nas notas automáticas. Eles pegaram 100 teses e pediram para humanos (falantes nativos de eslovaco) avaliarem.

O Veredito: O robô inteligente (KeyLLM) foi elogiado por entender o contexto. Ele não só corrigiu a gramática, mas também achou ideias importantes que os autores esqueceram de colocar nas etiquetas oficiais.
O Erro do Robô Inteligente: Às vezes, ele ficava "criativo demais" e puxava adjetivos soltos (como "interessante" ou "importante") sem um substantivo, o que não faz muito sentido como etiqueta.
O Erro dos Robôs Velhos: Eles ficavam presos nas formas gramaticais erradas e repetiam a mesma ideia de várias formas diferentes (ex: "cachorro", "do cachorro", "com o cachorro" como se fossem três coisas diferentes).

5. Por que isso importa para todos?

Este trabalho é importante por dois motivos principais:

Para a Eslováquia: Agora eles têm um recurso gigantesco para ensinar computadores a entender sua língua, o que ajuda a organizar a ciência e o conhecimento do país.
Para o Mundo: Eles descobriram que o problema não é só da Eslováquia. Qualquer língua rica em gramática (como polonês, tcheco, finlandês ou turco) sofre desse mesmo problema de "camaleão". O estudo mostra que Inteligência Artificial Generativa (como o GPT) é muito melhor para lidar com essas línguas do que os métodos antigos, porque ela entende o significado, não apenas a forma da palavra.

Em resumo: Os pesquisadores construíram a maior biblioteca de teses eslovacas já feita, provaram que os robôs antigos perdem pontos por serem "rígidos demais" com a gramática, e mostraram que os novos robôs inteligentes conseguem entender a "alma" do texto, ignorando as mudanças de forma das palavras. É um passo gigante para que a tecnologia funcione bem em línguas complexas.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A extração de frases-chave (keyphrase extraction) para línguas de recursos limitados e morfologicamente ricas, como o eslovaco, permanece subestudida devido à escassez de conjuntos de dados de avaliação adequados. O principal desafio identificado é a mismatch morfológica: em línguas eslavas, um único lema pode aparecer em dezenas de formas flexionadas (casos, números, gêneros) no texto, enquanto as frases-chave atribuídas pelos autores geralmente estão na forma canônica (nominativo).
Isso cria uma lacuna fundamental entre as formas de superfície extraídas pelos modelos (que copiam o texto) e as formas canônicas esperadas na avaliação, levando a métricas de desempenho artificialmente baixas quando se utiliza correspondência exata (exact match).

2. Metodologia e Contribuições Principais

A. Construção do Dataset SlovKE

Os autores criaram o SlovKE, um dataset massivo e rigorosamente limpo, preenchendo uma lacuna crítica:

Fonte: Registro Central de Teses e Dissertações da Eslováquia.
Escala: 227.432 resumos científicos eslovacos com frases-chave atribuídas pelos autores. Isso representa um aumento de 25 vezes em relação ao recurso anterior mais amplo (Zelinka, 2023) e aproxima-se da escala de benchmarks em inglês como o KP20K.
Pipeline de Limpeza: Um processo complexo de 6 etapas incluiu: remoção de duplicatas, recuperação de frases-chave anexadas ao texto (quando campos dedicados faltavam), remoção de metadados ruidosos, verificação de idioma (removendo 20% de resumos rotulados erroneamente como eslovaco que eram em inglês), normalização de frases-chave (usando o Stanza para separar listas e limitar a 4 palavras) e filtragem por comprimento.
Divisão: O dataset foi dividido em treino (80%), validação (10%) e teste (10%), com estatísticas comparáveis a benchmarks em inglês (ex: taxa de frases-chave ausentes de 37%).

B. Avaliação de Modelos

O estudo avaliou três abordagens de baselines não supervisionadas e um método baseado em Grandes Modelos de Linguagem (LLM):

YAKE: Método estatístico não supervisionado.
TextRank: Abordagem baseada em grafos.
KeyBERT: Método baseado em embeddings (utilizando o modelo SlovakBERT fine-tuned).
KeyLLM: Abordagem generativa utilizando o GPT-3.5-turbo para gerar frases-chave diretamente, em vez de apenas extrair tokens do texto.

C. Métricas de Avaliação

Devido à complexidade morfológica, os autores utilizaram duas métricas de correspondência:

Correspondência Exata (Exact Match): Requer que a forma extraída seja idêntica à do autor.
Correspondência Parcial (Partial Match): Conta como acerto se houver sobreposição de fragmentos.
Análise de Discrepância: A diferença entre os scores de F1 exato e parcial é usada como um indicador diagnóstico da dificuldade morfológica.

3. Resultados

Desempenho dos Baselines (Métodos Extrativos)

Os modelos tradicionais (YAKE, TextRank, KeyBERT) sofreram significativamente com a flexão morfológica.
O melhor desempenho em correspondência exata foi do YAKE com F1@6 de 11,6%.
No entanto, em correspondência parcial, o desempenho saltou para 51,5% (TextRank).
Conclusão: Existe uma lacuna de ~40 pontos entre as métricas, indicando que os modelos identificam os conceitos corretos, mas falham em normalizar a forma morfológica para corresponder à "verdade fundamental" (gold standard).

Desempenho do KeyLLM (Método Generativo)

O KeyLLM demonstrou superioridade ao reduzir significativamente a lacuna entre correspondência exata e parcial.
Alcançou um F1@6 exato de ~15,2%, superando os baselines extrativos.
A lacuna exato-parcial para o KeyLLM foi de ~34 pontos (menor que a dos extrativos), pois o modelo generativo consegue produzir a forma canônica (lema) da frase-chave, ignorando as variações flexionadas presentes no texto original.
A avaliação manual (em 100 documentos, com concordância $\kappa = 0.61$ ) confirmou que o KeyLLM captura conceitos relevantes e entidades nomeadas que as métricas automáticas subestimam devido a falhas de correspondência exata.

Análise de Falhas

Falha Principal dos Modelos Extrativos: Mismatch morfológico (ex: extrair "rozvojového potenciálu" em vez de "Rozvojový potenciál").
Falha Principal do KeyLLM: Extração de adjetivos sem motivação (adjetivos soltos sem substantivos), o que reduz a precisão em listas longas.

4. Significado e Impacto

Infraestrutura para NLP Eslovaco: O SlovKE é o maior conjunto de dados público de texto científico eslovaco, servindo como base fundamental para o desenvolvimento de modelos supervisionados, classificação de documentos e transferência de aprendizado para línguas eslavas tipologicamente similares (tcheco, polonês).
Validação de LLMs em Línguas Ricas Morfologicamente: O estudo fornece evidências empíricas de que modelos generativos (LLMs) são mais robustos do que métodos extrativos tradicionais para línguas com alta flexão, pois podem normalizar a morfologia durante a geração.
Reavaliação de Métricas: O artigo argumenta que a métrica de exact match F1 subestima sistematicamente o desempenho em línguas morfologicamente ricas. A lacuna entre exact e partial match deve ser considerada uma métrica diagnóstica crucial.
Disponibilidade: O dataset e o código de avaliação estão publicamente disponíveis no Hugging Face e no GitHub, incentivando a comunidade a desenvolver protocolos de avaliação conscientes da morfologia.

Em resumo, o trabalho não apenas fornece um recurso de dados de escala sem precedentes para a Eslováquia, mas também demonstra que a transição de métodos extrativos para generativos (LLMs) é um caminho promissor para superar os desafios impostos pela complexidade morfológica na extração de frases-chave.