Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een digitale tweeling van een veld met bonenplanten wilt maken. Een digitale tweeling is als een perfecte, virtuele kopie van de echte wereld, waar je kunt spelen met "wat als"-scenario's. Bijvoorbeeld: "Wat gebeurt er met de oogst als het volgende maand drie weken droog is?" of "Hoe groeien de planten als we ze iets anders bemesten?"

Om deze virtuele velden te bouwen, hebben boeren en wetenschappers een heel gedetailleerd recept nodig. Dit recept is een computerbestand (in dit geval een JSON-bestand) dat precies vertelt aan de computer: "Plant hier 14 bonen, op deze specifieke plekken, met deze bladeren en onder deze zon."

Het probleem is dat het schrijven van dit recept voor elke nieuwe foto van een veld heel veel tijd kost. Mensen moeten handmatig tellen, meten en typen.

Wat hebben deze onderzoekers gedaan?
Ze hebben geprobeerd om een slimme AI-assistent (een zogenaamd Vision Language Model) te leren om dit recept automatisch te schrijven, puur door naar een foto van het veld te kijken. Het is alsof je een foto van een taart laat zien aan een kok en die AI moet de exacte ingrediëntenlijst en het bakrecept voor die taart uitspugen.

Hier is hoe ze dat hebben aangepakt, vertaald in begrijpelijke termen:

1. De Oefenboerderij (Synthetische Data)

Omdat het lastig is om direct op echte velden te testen, hebben ze eerst een virtuele boerderij gecreëerd. Ze hebben een computerprogramma gebruikt om duizenden perfecte foto's van bonenvelden te maken. Voor elke foto wisten ze precies wat het antwoord was (het "recept").

De analogie: Het is als een video-game waar je eerst oefent op een trainingslevel voordat je de echte wereld in gaat.

2. De Slimme Assistenten (De AI-modellen)

Ze hebben twee soorten slimme AI-assistenten getest (genaamd Gemma en Qwen). Deze modellen zijn getraind om beelden te begrijpen en tekst te schrijven. Ze wilden zien of deze modellen konden:

Het aantal planten tellen.
De grootte en vorm van de planten inschatten.
De stand van de zon op de foto bepalen.
Alles omzetten in het juiste computerrecept.

3. De Leren Methode (In-Context Learning)

Ze hebben de AI niet opnieuw getraind (wat veel tijd kost), maar ze hebben haar leermethodes getest. Ze gaven de AI steeds meer hints:

Methode A: Gewoon zeggen: "Kijk naar de foto en schrijf het recept."
Methode B: "Hier is een voorbeeld van een recept, schrijf er eentje zoals dit."
Methode C: "Hier zijn drie voorbeelden van foto's én hun recepten, leer van deze patronen."
Methode D: "Hier is de foto, maar ik help je ook even met de antwoorden op de makkelijke vragen (zoals het aantal planten), nu schrijf jij de rest."

Wat bleek eruit? (De Resultaten)

Het is moeilijk, maar het werkt deels: De AI kon goed het aantal planten tellen en de stand van de zon schatten. Het was alsof de AI een goede schatting kon maken.
De "Gokker"-valkuil: Soms keek de AI niet eens goed naar de foto. Als de foto wazig was of de AI twijfelde, gokte ze op basis van wat ze eerder had gezien. Ze dacht: "Oh, meestal zijn er 15 planten, dus ik schrijf 15." Dit noemen ze contextuele bias. De AI vertrouwde meer op haar "geheugen" dan op wat ze echt zag.
Hulp werkt: Als ze de AI een beetje hielpen met de makkelijke feiten (zoals "er zijn 14 planten"), werd het eindresultaat veel beter. De AI kon zich dan concentreren op de lastigere details.
Echte foto's zijn lastiger: Toen ze de AI een foto van een echt veld gaven (in plaats van een virtuele), ging het minder goed. De echte wereld is chaotischer dan de virtuele wereld. De AI maakte meer fouten in het recept, maar het was nog steeds een begin.

De Conclusie in het Kort

Dit onderzoek is de eerste keer dat iemand probeert om een AI te gebruiken om direct van een foto naar een compleet 3D-simulatierecept te gaan.

Het is nog niet perfect. De AI is nu als een leerling-kok die de basisrecepten kent, maar soms de ingrediënten verkeerd afleest als de foto niet scherp is. Ze gissen dan nogal wat. Maar het is een enorme stap voorwaarts. In de toekomst, als we de AI nog meer voorbeelden geven en haar beter trainen, kunnen we misschien binnenkort gewoon een foto van ons veld maken en direct een volledig virtueel model hebben om mee te experimenteren. Dat zou boeren enorm helpen om hun gewassen slimmer te beheren!

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

1. De Oefenboerderij (Synthetische Data)

2. De Slimme Assistenten (De AI-modellen)

3. De Leren Methode (In-Context Learning)

Wat bleek eruit? (De Resultaten)

De Conclusie in het Kort

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Significantie en Toekomstperspectief

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

1. De Oefenboerderij (Synthetische Data)

2. De Slimme Assistenten (De AI-modellen)

3. De Leren Methode (In-Context Learning)

Wat bleek eruit? (De Resultaten)

De Conclusie in het Kort

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Significantie en Toekomstperspectief

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem