HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🌍 HSSBench: De "Menselijke Wijsheid"-Test voor AI

Stel je voor dat je een super slimme robot bouwt die alles kan zien en lezen. Tot nu toe hebben we deze robots vooral getest op hun vermogen om wiskundepuzzels op te lossen, chemische formules te ontcijferen of code te schrijven. Dit noemen we STEM (Wiskunde, Techniek, Wetenschap, Wiskunde). Het is alsof we de robot alleen laten zien hoe goed hij een ladder kan beklimmen: stap voor stap, logisch, met één duidelijk doel.

Maar wat gebeurt er als we de robot vragen om een schilderij te begrijpen, een historisch verhaal te analyseren, of te snappen waarom mensen in een economische crisis bepaalde keuzes maken? Dit is het domein van de Geestes- en Maatschappijwetenschappen (HSS). Hier is het antwoord niet altijd een getal of een formule. Het gaat om nuance, cultuur, geschiedenis en het verbinden van losse puzzelstukjes.

De auteurs van dit paper zeggen: "Onze robots zijn geweldig in het beklimmen van ladders, maar ze struikelen over de brug naar de menselijke wereld."

Om dit probleem op te lossen, hebben ze HSSBench bedacht.

🛠️ Wat is HSSBench precies?

HSSBench is een enorme testbank (een benchmark) met meer dan 13.000 vragen. Het is geen gewone quiz; het is een uitgebreide examenreeks die de robot moet maken.

De 6 Wereldwijken: De test bestaat uit zes grote categorieën:
1. Geografie: Kaarten lezen en landschappen begrijpen.
2. Kunst: Schilderijen en beelden analyseren.
3. Cultuur: Gewoontes, kleding en tradities begrijpen.
4. Sociale Wetenschappen: Psychologie, recht en sociologie.
5. Geschiedenis: Verleden begrijpen en verbinden met het heden.
6. Economie: Grafieken en markten analyseren.
Talen: De test is gemaakt in 6 talen (de officiële talen van de VN: Engels, Frans, Spaans, Russisch, Chinees en Arabisch). Het is alsof je de robot in zes verschillende culturen laat opgroeien om te zien of hij echt begrijpt wat er gebeurt, of dat hij alleen woorden uit zijn hoofd leert.

🏗️ Hoe hebben ze deze test gemaakt? (De "Bouwploeg")

Het maken van deze test was geen klus voor één persoon. Het was een samenwerking tussen mensen en robots.

De Experts (De Bouwmeesters): Echte specialisten (historici, economen, kunstcritici) hebben de basis gelegd. Zij hebben foto's en teksten geselecteerd en vragen bedacht.
De AI-Agenten (De Hulpkrachten): Vervolgens hebben slimme computerprogramma's (AI) geholpen om duizenden nieuwe vragen te genereren op basis van wat de experts hadden gedaan.
De Kwaliteitscontrole (De Keurmeesters): Alles is dubbel gecheckt. Als een vraag te makkelijk was, of als de robot het antwoord kon raden zonder naar de foto te kijken, werd de vraag weggegooid. Het doel was: de robot moet kijken én denken.

Je kunt het vergelijken met het maken van een groot museum: eerst bouwen de experts de zalen, dan vullen robots de muren met kunst, en tot slot lopen keurmeesters rond om te controleren of alles klopt.

🤖 Wat zeggen de resultaten? (De "Zwemwedstrijd")

Toen ze de beste robots van vandaag de dag (zoals GPT-4 en Qwen) deze test lieten doen, was het resultaat... niet geweldig.

De Score: Zelfs de slimste robots haalden vaak niet meer dan 60% goed. Soms zelfs veel lager.
De Vergelijking:
- In Wiskunde (STEM) zwemmen de robots als haaien.
- In Geografie doen ze het redelijk goed (kaarten zijn vaak logisch).
- In Economie en Cultuur verdrinken ze bijna. Ze begrijpen de context niet.

Een leuk voorbeeld uit het paper:
Stel je ziet een oude foto van een handgeschreven brief. Een mens ziet direct: "Ah, dit is Spencerian Script, een oude stijl van schrijven."
De robot kijkt naar de foto, ziet de letters, en denkt: "Dit is gewoon tekst." Als je hem vraagt: "Wat voor schrift is dit?", raakt hij in de war. Hij kan de tekst wel lezen, maar hij begrijpt niet wat het schrift betekent in de geschiedenis. Het is alsof hij de woorden kent, maar de ziel van de taal mist.

🚧 Waarom is dit belangrijk?

De auteurs zeggen: "Een robot die alleen goed is in wiskunde, maar niet begrijpt wat rechtvaardigheid, cultuur of geschiedenis is, is geen echte intelligente assistent."

Als we AI willen gebruiken in de echte wereld (bijvoorbeeld in het onderwijs, in het rechtssysteem of in de musea), moeten we ze leren om horizontaal te denken.

Verticaal denken (STEM): Stap 1, Stap 2, Stap 3 -> Antwoord.
Horizontaal denken (HSS): Verbind dit schilderij met die geschiedenis, en dat met die economische situatie -> Nuance en inzicht.

🎯 Conclusie

HSSBench is een noodkreet en een uitnodiging tegelijk.

Noodkreet: "Onze huidige robots zijn te eenzijdig. Ze zijn briljante rekenmachines, maar slechte menselijke gesprekpartners."
Uitnodiging: "Laten we samenwerken om AI te leren begrijpen wat het betekent om mens te zijn, met al onze cultuur, geschiedenis en complexe gevoelens."

Het paper is als een spiegel die we voor de AI houden. In de spiegel zien we dat de robot nog veel moet leren voordat hij echt "slim" is in de menselijke wereld.

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

🌍 HSSBench: De "Menselijke Wijsheid"-Test voor AI

🛠️ Wat is HSSBench precies?

🏗️ Hoe hebben ze deze test gemaakt? (De "Bouwploeg")

🤖 Wat zeggen de resultaten? (De "Zwemwedstrijd")

🚧 Waarom is dit belangrijk?

🎯 Conclusie

Titel: HSSBench: Benchmarken van de vaardigheden van Multimodale Grootte Taalmodellen (MLLM's) op het gebied van Geestes- en Maatschappijwetenschappen

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

🌍 HSSBench: De "Menselijke Wijsheid"-Test voor AI

🛠️ Wat is HSSBench precies?

🏗️ Hoe hebben ze deze test gemaakt? (De "Bouwploeg")

🤖 Wat zeggen de resultaten? (De "Zwemwedstrijd")

🚧 Waarom is dit belangrijk?

🎯 Conclusie

Titel: HSSBench: Benchmarken van de vaardigheden van Multimodale Grootte Taalmodellen (MLLM's) op het gebied van Geestes- en Maatschappijwetenschappen

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

Meer zoals dit

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer

Conditional Distribution Learning for Graph Classification