HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Cet article présente HSSBench, un benchmark multilingue de plus de 13 000 échantillons conçu pour évaluer et stimuler les capacités de raisonnement interdisciplinaire des modèles de langage multimodaux dans le domaine des sciences humaines et sociales, comblant ainsi une lacune majeure des évaluations actuelles axées sur les STEM.

Zhaolu Kang, Junhao Gong, Jiaxu Yan, Wanke Xia, Yian Wang, Ziwen Wang, Huaxuan Ding, Zhuo Cheng, Wenhao Cao, Zhiyuan Feng, Siqi He, Shannan Yan, Junzhe Chen, Xiaomin He, Chaoya Jiang, Wei Ye, Kaidong Yu, Xuelong Li

Publié 2026-03-04
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🌍 HSSBench : Le Grand Défi des "Sciences Humaines" pour les Robots

Imaginez que vous avez un super-robot (un modèle d'intelligence artificielle) qui est un génie en mathématiques. Il peut résoudre des équations complexes, calculer la trajectoire d'une fusée ou écrire du code informatique sans se tromper. C'est impressionnant, n'est-ce pas ?

Mais posez-lui une question différente : "Regarde cette vieille photo de danseurs africains. Que signifient leurs costumes ?" ou "En regardant cette carte géologique, pourquoi la terre est-elle fissurée ici ?".

Soudain, le robot devient perdu. Il ne sait pas faire le lien entre l'image et l'histoire, la culture ou la société. C'est exactement ce que les auteurs de cet article ont voulu dire : nos intelligences artificielles sont des champions des sciences dures (STEM), mais elles sont encore des débutants en sciences humaines et sociales.

1. Le Problème : La Différence entre "Vertical" et "Horizontal"

Pour comprendre le défi, faisons une petite analogie :

  • Les sciences dures (Maths, Physique) sont comme un toboggan. Il y a un point de départ, une seule voie droite, et un point d'arrivée précis. Si vous suivez les règles logiques, vous arrivez à la bonne réponse. C'est ce qu'on appelle le "raisonnement vertical".
  • Les sciences humaines (Histoire, Art, Économie) sont comme une grande toile d'araignée ou un labyrinthe. Pour trouver la réponse, il faut tisser des liens entre l'image, le contexte historique, la culture, la psychologie et l'économie. Il n'y a pas toujours une seule réponse "mathématique", mais plusieurs interprétations possibles. C'est le "raisonnement horizontal".

Les robots actuels sont excellents pour glisser sur le toboggan, mais ils se perdent dans le labyrinthe car ils ne savent pas connecter les points entre eux.

2. La Solution : HSSBench, le Nouveau Terrain de Jeu

Les chercheurs ont créé HSSBench (Humanities and Social Sciences Benchmark). Imaginez-le comme un nouveau stade olympique spécialement construit pour tester les robots sur des sujets humains.

  • Ce n'est pas juste un quiz : Ce n'est pas seulement lire du texte. Le robot doit regarder une image (une carte, une peinture, un graphique économique) et répondre à une question sur ce qu'il voit.
  • La diversité : Le test couvre 6 grands mondes : la Géographie, l'Art, la Culture, les Sciences Sociales, l'Histoire et l'Économie.
  • Le multilingue : Le test est disponible dans les 6 langues officielles de l'ONU (anglais, chinois, français, russe, espagnol, arabe). C'est comme si le robot devait passer l'examen dans différentes cultures du monde.

3. Comment ont-ils construit ce test ? (La Recette de Cuisine)

Créer ce test n'était pas facile. Ils ne pouvaient pas juste demander à un robot de générer des questions, car il aurait pu inventer des fausses réponses.

Ils ont utilisé une cuisine collaborative :

  1. Les Chefs (Les Experts Humains) : Des professeurs d'université et des spécialistes ont apporté les ingrédients de base (des livres, des photos, des cartes).
  2. Les Apprentis Robots (Agents IA) : Des intelligences artificielles ont aidé à préparer les plats en créant des questions à partir de ces ingrédients.
  3. Le Dégustateur (La Validation) : À la fin, les experts humains ont goûté chaque plat pour s'assurer qu'il était bon, qu'il n'y avait pas d'erreur, et qu'il ne pouvait pas être résolu sans regarder l'image.

Au total, ils ont créé plus de 13 000 questions ultra-précises.

4. Les Résultats : Les Robots Trébuchent !

Quand ils ont mis les robots à l'épreuve, le résultat a été sans appel :

  • Les humains (les experts) ont eu une moyenne de 94 %. Ils comprennent le contexte, l'humour, l'histoire et les symboles.
  • Les meilleurs robots (comme GPT-4 ou les modèles Qwen) ont eu des scores bien plus bas, souvent autour de 40 à 50 %.

C'est comme si un élève de terminale prenait un examen de philosophie et ne comprenait pas les sous-entendus culturels. Même les robots les plus intelligents ont du mal à dire : "Ah, ce costume dans la peinture signifie le pouvoir royal, pas juste un joli vêtement."

5. Pourquoi c'est important ?

Si nous voulons que l'intelligence artificielle nous aide vraiment dans la vie réelle, elle ne doit pas seulement savoir calculer des impôts ou prédire la météo. Elle doit aussi comprendre :

  • L'histoire des peuples.
  • Les nuances culturelles.
  • Les enjeux éthiques.
  • L'art et la beauté.

HSSBench est donc une boussole. Il montre aux chercheurs : "Hé, vos robots sont forts en maths, mais ils sont un peu aveugles à la richesse de l'expérience humaine. Il faut travailler là-dessus !".

En résumé

Imaginez que l'IA est un étudiant brillant qui a lu tous les livres de mathématiques du monde, mais qui n'a jamais voyagé, jamais visité un musée et jamais discuté avec des gens de différentes cultures. HSSBench est le voyage scolaire obligatoire pour l'obliger à ouvrir les yeux sur le monde humain, à comprendre les couleurs, les histoires et les sentiments, et non plus seulement les chiffres.