Mimosa Framework: Toward Evolving Multi-Agent Systems for Scientific Research

Dit paper introduceert Mimosa, een open-source raamwerk voor evoluerende multi-agent systemen dat dynamische workflows synthetiseert en verfijnt via experimentele feedback om autonome wetenschappelijk onderzoek te automatiseren en zo de prestaties op ScienceAgentBench aanzienlijk verbetert.

Martin Legrand, Tao Jiang, Matthieu Feraud, Benjamin Navet, Yousouf Taghzouti, Fabien Gandon, Elise Dumont, Louis-Félix Nothias

Gepubliceerd 2026-04-01
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Wat is Mimosa?

Stel je voor dat je een enorm complexe puzzel moet oplossen, zoals het vinden van een nieuw medicijn of het analyseren van klimaatdata. Vroeger deden wetenschappers dit zelf, stap voor stap. Vandaag de dag proberen we dit te automatiseren met kunstmatige intelligentie (AI).

Maar de huidige AI-systemen voor wetenschap zijn vaak als een stijve robot die een vast script volgt. Als de robot ergens vastloopt of als er een nieuw gereedschap beschikbaar komt, kan hij niet improviseren. Hij blijft proberen wat in zijn script staat, zelfs als het niet werkt.

Mimosa is een nieuw systeem dat dit probleem oplost. Het is geen enkele robot, maar een dynamisch team van AI-assistenten dat zichzelf kan herschrijven terwijl het werkt. Het is als een jazz-band die niet alleen de bladmuziek volgt, maar ook luistert naar wat de andere muzikanten spelen en direct hun partituur aanpast om de beste muziek te maken.


Hoe werkt het? (De 5 lagen van Mimosa)

Het paper beschrijft Mimosa als een gebouw met vijf verdiepingen. Laten we dat als een gigantisch, slim bouwbedrijf zien:

  1. De Planningsverdieping (Optioneel):

    • Vergelijking: De hoofdingenieur.
    • Als je een heel groot doel hebt (bijv. "Ontwerp een nieuwe batterij"), splitst deze laag het probleem op in kleinere, haalbare klusjes. Soms slaan we deze over en geven we direct een specifieke klus op.
  2. De Gereedschapsverdieping:

    • Vergelijking: De magazijnmanager.
    • Mimosa kijkt niet naar een vaste lijst van gereedschappen. Het scant het hele magazijn (de computer) om te zien wat er nu beschikbaar is. Misschien is er gisteren een nieuwe software voor chemie bijgekomen? Mimosa ziet het direct en pakt het mee. Dit heet "Model Context Protocol" (MCP), wat zorgt voor een soepele verbinding tussen de AI en de tools.
  3. De Orkestratie-verdieping (Het Brein):

    • Vergelijking: De regisseur die het script schrijft.
    • Dit is het hart van Mimosa. In plaats van één vaste workflow, bedenkt deze laag een nieuw team van AI-agenten voor elke taak.
    • De Magie: Als het team faalt, kijkt de regisseur naar de fouten en schrijft het script ter plekke om. Misschien moet er een extra expert bij? Of moet de volgorde van de taken anders? Het systeem probeert, kijkt wat er misging, en past de workflow aan. Dit noemen ze "iteratief leren".
  4. De Uitvoeringsverdieping:

    • Vergelijking: De vakmensen op de werf.
    • Dit zijn de AI-agenten die daadwerkelijk de code schrijven en de gereedschappen gebruiken. Ze zijn slim genoeg om Python-code te schrijven om complexe berekeningen te doen, net als een echte wetenschapper die zijn eigen rekenmachine programmeert.
  5. De Beoordelingsverdieping (De Jury):

    • Vergelijking: De kritische redacteur.
    • Na elke poging kijkt een andere AI (de "judge") naar het resultaat. Hij zegt niet alleen "goed" of "fout", maar geeft feedback: "Jullie hebben de data verkeerd geanalyseerd" of "Deze agent had meer hulp nodig". Deze feedback stuurt de regisseur (laag 3) aan om het script voor de volgende ronde te verbeteren.

Wat hebben ze ontdekt? (De resultaten)

Het team heeft Mimosa getest op ScienceAgentBench, een soort "examen" met 102 verschillende wetenschappelijke taken (van biologie tot psychologie).

  • Het resultaat: Met het model DeepSeek-V3.2 slaagde Mimosa in 43,1% van de taken. Dat is veel beter dan eerdere systemen.
  • De verrassing: Niet elke AI werkt even goed in een team.
    • Sommige AI's (zoals GPT-4o) werden beter in een team omdat ze hulp nodig hadden bij het splitsen van taken.
    • Andere AI's (zoals DeepSeek) waren al heel goed alleen, maar werden nog beter door het team en de feedbackcyclus.
    • Een paar modellen werden zelfs iets minder goed in een team, wat betekent dat "meer agenten" niet altijd "beter" is. Het hangt af van het type AI dat je gebruikt.

Waarom is dit belangrijk?

  1. Het is niet statisch: Oude systemen zijn als een trein die op een vast spoor rijdt. Als het spoor geblokkeerd is, stopt de trein. Mimosa is als een off-road voertuig dat een nieuwe route kan vinden als er een obstakel is.
  2. Het is transparant: Elk stapje dat Mimosa zet, wordt opgeschreven. Je kunt later precies zien hoe het tot een conclusie kwam. Dit lost het probleem op van "zwarte doos" AI, waarbij niemand weet hoe het tot een antwoord kwam.
  3. Het is open: De code is gratis beschikbaar. Wetenschappers over de hele wereld kunnen het gebruiken en verbeteren.

De conclusie in één zin

Mimosa is een slim, zelflerend team van AI-assistenten dat niet vastzit aan een script, maar continu zijn eigen werkwijze aanpast op basis van wat er werkt en wat niet, waardoor het een krachtig hulpmiddel wordt voor de toekomstige wetenschappelijke doorbraken.

Het is alsof we de wetenschap niet langer laten doen door een robot die een lijstje afvinkt, maar door een flexibele, lerende onderzoeksgroep die nooit stopt met verbeteren.