NERdME: a Named Entity Recognition Dataset for Indexing Research Artifacts in Code Repositories

O artigo apresenta o NERdME, um novo conjunto de dados com 200 arquivos README anotados manualmente para facilitar a extração de informações sobre artefatos de implementação em repositórios de código, preenchendo uma lacuna nas atuais bases de dados de extração de informações acadêmicas que se concentram apenas em artigos científicos.

Genet Asefa Gesese, Zongxiong Chen, Shufan Jiang, Mary Ann Tan, Zhaotai Liu, Sonja Schimmler, Harald Sack

Publicado 2026-03-09
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que o mundo da ciência é como uma enorme biblioteca. Até hoje, os "bibliotecários inteligentes" (os programas de computador que organizam informações) eram ótimos em ler os livros (os artigos científicos), entendendo quem escreveu, sobre o que era e quais métodos usaram.

Mas havia um problema: eles ignoravam completamente a caixa de ferramentas que vinha junto com o livro.

O Problema: A Caixa de Ferramentas Esquecida

Quando um cientista cria um novo software ou um conjunto de dados, ele coloca tudo em um repositório online (como o GitHub). Lá, existe um arquivo chamado README. Pense no README como a "etiqueta da caixa" ou o "manual de instruções" colado na porta da fábrica.

Nessa etiqueta, os cientistas escrevem coisas muito importantes, mas de forma livre, como se estivessem conversando:

  • "Usei a linguagem Python."
  • "Baseado no conjunto de dados X."
  • "Licença aberta."
  • "Apresentado na conferência Y."

O problema é que essa etiqueta é escrita em "Markdown" (um formato de texto simples), sem uma estrutura rígida. Para um computador, é como tentar entender uma receita de bolo escrita em um rabisco no guardanapo: é difícil para a máquina saber onde termina o nome do ingrediente e onde começa a quantidade.

A Solução: O NERdME (O "Tradutor" de Etiquetas)

Os autores deste trabalho criaram algo chamado NERdME.

Pense no NERdME como um treinador de inteligência artificial que aprendeu a ler essas "etiquetas de caixa" (READMEs) e transformá-las em informações organizadas.

  1. O Que eles fizeram?
    Eles pegaram 200 dessas etiquetas de caixas reais e, com muito trabalho manual (como se fossem três pessoas revisando cada linha), marcaram exatamente onde estão os nomes importantes. Eles criaram um "dicionário" com 10 tipos de coisas diferentes: desde coisas de "livro" (como o nome da conferência) até coisas de "ferramenta" (como o nome do software ou a licença).

  2. Por que é especial?
    Antes, os computadores só sabiam ler o livro (o artigo) ou tentavam adivinhar a ferramenta. O NERdME ensina o computador a ler ambos ao mesmo tempo. É como ensinar um bibliotecário a entender não só o título do livro, mas também a lista de ingredientes e o fabricante da panela que estão na capa.

O Que Eles Descobriram?

Eles testaram esse novo "treinador" com duas abordagens:

  • Adivinhando (Modelos Grandes de IA): Quando pediram para uma IA gigante (como o ChatGPT) ler as etiquetas sem treino, ela acertou algumas coisas óbvias, mas se confundiu muito com detalhes específicos. Era como tentar adivinhar o conteúdo de uma caixa fechada apenas olhando para ela.
  • Aprendendo (Modelos Treinados): Quando eles ensinaram o computador especificamente com o NERdME, a performance explodiu. O computador aprendeu a identificar com precisão: "Ah, isso aqui é o nome do software", "Isso é a licença", "Isso é o dataset".

Uma descoberta curiosa:
Eles notaram que os nomes de "livros" (artigos) tendem a ser longos e poéticos, enquanto os nomes de "ferramentas" (softwares) são curtos e técnicos. O computador precisa de uma "orelha" diferente para ouvir cada um desses sons.

Para que serve isso no dia a dia?

A parte mais legal é o que acontece depois. Eles usaram o NERdME para fazer uma conexão mágica.

Imagine que você está procurando um conjunto de dados específico. O computador, usando o NERdME, consegue ler a etiqueta da caixa, pegar o nome do dataset escrito lá e ligar automaticamente o registro oficial desse dataset em um banco de dados global (o Zenodo).

Isso significa que, no futuro:

  • Você poderá encontrar o software exato usado em um artigo com um clique.
  • Os pesquisadores não precisarão perder tempo procurando manualmente onde baixar os dados.
  • A "teia" da ciência ficará mais conectada, ligando o artigo ao código, e o código aos dados.

Resumo em uma Analogia

Se a ciência fosse uma cidade:

  • Os Artigos são os prédios bonitos e decorados.
  • Os READMEs são os mapas de construção e as placas de endereço que explicam como o prédio foi feito e quais materiais foram usados.
  • O NERdME é o novo sistema de GPS que finalmente aprendeu a ler essas placas de endereço confusas, permitindo que qualquer pessoa (ou robô) encontre exatamente onde estão os materiais e como construir algo novo a partir deles.

Em suma, o NERdME é uma ferramenta fundamental para tornar a ciência mais transparente, reprodutível e fácil de navegar, transformando rabiscos em mapas precisos.