SQUiD: Synthesizing Relational Databases from Unstructured Text

O artigo apresenta o SQUiD, um novo framework neurosimbólico que utiliza modelos de linguagem grandes para sintetizar automaticamente esquemas e dados de bancos de dados relacionais a partir de textos não estruturados, superando consistentemente as abordagens existentes.

Mushtari Sadia, Zhenning Yang, Yunming Xiao, Ang Chen, Amrita Roy Chowdhury

Publicado 2026-03-03
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma pilha enorme de diários de viagem, cartas antigas e relatos de aventuras escritos à mão. Essas histórias são cheias de informações valiosas: nomes de pessoas, datas, lugares visitados, preços de hotéis e detalhes sobre quem foi com quem.

O problema é que computadores são como bibliotecários muito rígidos: eles não conseguem "ler" essas histórias de forma organizada. Eles precisam que os dados estejam em tabelas (como planilhas do Excel), com linhas e colunas bem definidas, para poderem fazer perguntas como "Quantas pessoas foram para Roma em junho?" ou "Quem gastou mais dinheiro?".

Aqui entra o SQUiD (o nome do sistema apresentado no artigo). Pense no SQUiD como um arquiteto de dados mágico que consegue pegar essa bagunça de textos e transformá-la em um banco de dados relacional perfeito e pronto para uso.

Aqui está como ele funciona, usando uma analogia de construção de uma cidade:

1. O Desafio (A Cidade sem Mapa)

Antes do SQUiD, tentar transformar texto em banco de dados era como tentar construir uma cidade inteira apenas olhando para um monte de fotos soltas. Se você pedisse para um robô (uma Inteligência Artificial comum) fazer isso, ele provavelmente:

  • Inventaria endereços que não existem (alucinações).
  • Esqueceria de colocar o nome de algumas casas (valores faltando).
  • Criaria ruas que não se conectam (erros de sintaxe SQL).
  • Não saberia que a "Rua A" e a "Avenida B" são a mesma coisa.

2. A Solução SQUiD (O Arquiteto Neurosimbólico)

O SQUiD não tenta adivinhar tudo de uma vez. Ele é um "arquiteto neurosimbólico", o que significa que ele combina a criatividade de uma IA (que entende linguagem humana) com a rigorosa lógica de um matemático (que segue regras estritas de banco de dados).

Ele divide a construção da cidade em 4 etapas claras:

Etapa 1: Desenhar o Mapa (Geração do Esquema)

Antes de colocar os tijolos, o SQUiD olha para os textos e desenha o mapa da cidade.

  • Ele decide: "Preciso de um bairro para 'Viajantes', um para 'Destinos' e outro para 'Viagens'".
  • Ele define as regras: "Cada viajante precisa de um ID único" (Chave Primária) e "A viagem deve estar ligada ao ID do viajante" (Chave Estrangeira).
  • Analogia: É como definir onde ficam as escolas, hospitais e casas antes de começar a construir, garantindo que tudo tenha um lugar lógico.

Etapa 2: Caça ao Tesouro (Identificação de Valores)

Agora que temos o mapa, o SQUiD vai ler os textos para encontrar os "tesouros" (os dados).

  • Ele usa duas ferramentas: uma que lê o texto palavra por palavra (ferramentas simbólicas) e outra que entende o contexto (a IA).
  • Ele cria "triplas" (pequenos pacotes de informação): (Quem? -> Sophia), (Onde? -> Roma), (Quando? -> 10 de Junho).
  • Ele é muito cuidadoso para não repetir informações e para garantir que "Sophia" na primeira história seja a mesma "Sophia" na segunda.

Etapa 3: Encher as Casas (Povoamento das Tabelas)

Com os dados em mãos, ele começa a preencher as tabelas (as casas da cidade).

  • Ele pega os pacotes de informação e os coloca nas caixas corretas do mapa.
  • O Truque Mágico: Em vez de pedir para a IA escrever tudo de uma vez (o que causa erros), ele usa um "assistente" que escreve uma linha de cada vez, garantindo que a formatação esteja perfeita. É como se ele montasse um quebra-cabeça peça por peça, verificando se cada peça encaixa antes de colocar a próxima.

Etapa 4: A Chave de Ligação (Materialização do Banco de Dados)

Finalmente, o SQUiD transforma tudo isso em código SQL (a linguagem que os bancos de dados entendem).

  • Ele não pede para a IA "inventar" o código SQL, o que é arriscado. Em vez disso, ele pega os dados organizados e os traduz automaticamente para comandos de criação de tabelas e inserção de dados.
  • O resultado é um banco de dados real, que você pode abrir e fazer perguntas complexas.

Por que isso é revolucionário?

O artigo mostra que o SQUiD é muito melhor do que tentar pedir para uma IA fazer tudo de uma vez ("Aqui está o texto, faça um banco de dados").

  • Precisão: Ele erra muito menos.
  • Conexão: Ele entende que "Roma" em uma frase é a mesma cidade em outra, e conecta os dados corretamente.
  • Versatilidade: Funciona bem com textos sobre turismo, finanças, saúde ou qualquer outro assunto.

Resumo em uma frase

O SQUiD é como um tradutor super-inteligente que pega histórias bagunçadas escritas à mão e as transforma em uma biblioteca organizada, onde cada livro tem seu lugar exato e você pode encontrar qualquer informação em segundos, sem precisar ler tudo de novo.

O código e os dados desse projeto estão disponíveis publicamente, permitindo que qualquer pessoa use essa tecnologia para organizar seus próprios textos em bancos de dados úteis.