HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Este artigo apresenta o HSSBench, um novo benchmark multilíngue com mais de 13.000 amostras e um pipeline de geração de dados colaborativo, projetado especificamente para avaliar e superar as limitações dos Modelos de Linguagem Grandes Multimodais (MLLMs) em tarefas de Humanidades e Ciências Sociais que exigem raciocínio interdisciplinar horizontal.

Zhaolu Kang, Junhao Gong, Jiaxu Yan, Wanke Xia, Yian Wang, Ziwen Wang, Huaxuan Ding, Zhuo Cheng, Wenhao Cao, Zhiyuan Feng, Siqi He, Shannan Yan, Junzhe Chen, Xiaomin He, Chaoya Jiang, Wei Ye, Kaidong Yu, Xuelong Li

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um estudante muito inteligente, chamado "Robô-Professor", que leu quase todos os livros do mundo e consegue ver fotos, mapas e gráficos. Ele é ótimo em matemática, ciências exatas e programação. Se você perguntar a ele quanto é 2+2 ou como funciona um motor, ele responde na hora.

Mas, e se você perguntar a ele sobre a história, a cultura, a arte ou a economia de um país específico, olhando para uma foto antiga ou um quadro? É aqui que o Robô-Professor começa a tropeçar. Ele sabe os fatos, mas não consegue "sentir" o contexto, entender a ironia de uma charge política ou perceber o significado simbólico de um traje antigo.

Foi exatamente para testar essa "inteligência cultural" que os pesquisadores criaram o HSSBench.

Aqui está uma explicação simples do que é esse trabalho, usando analogias do dia a dia:

1. O Que é o HSSBench? (O "Exame de Humanidades")

Pense no HSSBench como um novo vestibular (prova de admissão universitária) feito especificamente para as Ciências Humanas e Sociais.

  • O Problema: Até agora, os testes para Inteligência Artificial (IA) focavam muito em "exatas" (Matemática, Física, Código). Era como se só testássemos a capacidade do Robô-Professor de resolver equações, ignorando se ele entendia a literatura, a história ou a psicologia humana.
  • A Solução: Os criadores do HSSBench montaram um "banco de provas" gigante com mais de 13.000 perguntas. Essas perguntas não são apenas texto; elas misturam imagens, gráficos, mapas e textos em 6 línguas diferentes (as línguas oficiais da ONU: inglês, chinês, francês, russo, espanhol e árabe).

2. Como eles criaram esse "Exame"? (A Cozinha de Receitas)

Criar perguntas de humanidades é difícil porque não existe uma única resposta "certa" como em matemática. É preciso contexto. Para isso, eles usaram uma cozinha colaborativa:

  • Os Chefs (Especialistas Humanos): Eles trouxeram especialistas reais (historiadores, geógrafos, economistas) para escolher as imagens e criar as perguntas. Eles garantiram que a "receita" fosse autêntica.
  • Os Auxiliares (Agentes de IA): Eles usaram robôs inteligentes para ajudar a organizar, traduzir e gerar milhares de variações dessas perguntas, acelerando o processo.
  • O Degustador (Validação): Antes de o teste ser aplicado, especialistas e robôs verificaram se a pergunta fazia sentido, se a imagem estava relacionada à resposta e se não havia "pegadinhas" ou viés cultural.

3. As 6 Matérias do Exame

O HSSBench cobre seis grandes áreas, como se fossem disciplinas de uma faculdade:

  1. Geografia: Entender mapas, clima e relevo.
  2. Economia: Analisar gráficos de lucro, custos e mercados.
  3. Cultura: Reconhecer costumes, rituais e tradições em fotos.
  4. História: Entender o contexto de eventos passados através de imagens e textos.
  5. Sociologia/Psicologia: Analisar comportamentos humanos e interações sociais.
  6. Arte: Identificar estilos, simbolismos e técnicas em pinturas e esculturas.

4. O Resultado: O Robô-Professor Está "Reprovado"

Quando eles colocaram mais de 20 modelos de IA (incluindo os mais famosos e poderosos do mundo) para fazer esse teste, a surpresa foi grande:

  • A Dificuldade: Mesmo os robôs mais avançados tiveram dificuldade. A maioria acertou menos de 60% das perguntas.
  • O "Pulo do Gato": Quando os robôs tentavam "pensar passo a passo" (explicar o raciocínio antes de dar a resposta), às vezes eles pioravam! Eles começavam a alucinar (inventar fatos) ou se perder em detalhes, mostrando que ainda não entendem a "alma" da questão.
  • A Lição: Isso prova que, embora as IAs sejam ótimas em lógica fria (STEM), elas ainda são "cegas" para a complexidade da experiência humana, da cultura e da história.

5. Por que isso importa? (O Futuro)

Imagine que você quer usar um robô para ajudar um museu a explicar quadros para turistas, ou para analisar notícias políticas em diferentes países. Se o robô não entende o contexto cultural, ele pode cometer erros graves ou ofensivos.

O HSSBench é como um espelho que mostra para a comunidade de tecnologia onde estão as falhas. O objetivo não é apenas criticar, mas inspirar novos robôs que sejam não apenas "calculadoras", mas verdadeiros "humanistas" capazes de entender o mundo com profundidade, empatia e contexto.

Em resumo: Os pesquisadores criaram um teste difícil e diversificado para ver se as IAs conseguem entender a "parte humana" do conhecimento. E a resposta foi: "Elas sabem muito, mas ainda precisam aprender a ser mais humanas."