Decoding the Hook: A Multimodal LLM Framework for Analyzing the Hooking Period of Video Ads

Deze studie introduceert een multimodaal framework op basis van Large Language Models dat de eerste drie seconden van video-advertenties analyseert door visuele, auditieve en tekstuele elementen te integreren, waarmee het correlaties tussen deze 'hooking'-periode en prestatie-indicatoren zoals conversie per investering blootlegt voor het optimaliseren van advertentiestrategieën.

Kunpeng Zhang, Poppy Zhang, Shawndra Hill, Amel Awadelkarim

Gepubliceerd 2026-02-27
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je door je sociale media-app scrollt. Je ziet een video-advertentie voorbij komen. Wat gebeurt er in de eerste drie seconden?

Als je niet direct geboeid bent, vingers je de video weg. Als je wel blijft kijken, heb je een "haakje" (in het Engels: hook) te pakken. Deze drie seconden zijn cruciaal: ze bepalen of iemand verder kijkt, op de knop klikt of het product koopt.

Dit artikel beschrijft een slimme nieuwe manier om te begrijpen waarom die eerste drie seconden soms werken en soms falen. Hier is de uitleg in simpele taal, met wat creatieve vergelijkingen.

1. Het Probleem: De "Black Box" van Video's

Vroeger keken marketeers naar video's als een "black box". Ze wisten dat een video werkte, maar ze wisten niet precies waarom. Was het de muziek? Was het de kleur? Was het de tekst?
Traditionele computersoftware kon dit niet goed analyseren omdat video's een mix zijn van beelden, geluid en tekst. Het is als proberen een complex gerecht te proeven, maar je mag alleen kijken naar de ingrediënten op de lijst, niet naar hoe ze samensmelten in de pan.

2. De Oplossing: Een Super-Slimme "Cinema-Detective"

De auteurs van dit artikel hebben een nieuw systeem gebouwd, genaamd MLLM-VAU. Je kunt dit zien als een super-slimme detective (een AI) die gespecialiseerd is in het analyseren van de eerste drie seconden van een video.

Deze detective doet drie dingen:

  • De Beelden (De Visuele Scan): De AI kijkt niet naar elke seconde, maar pakt slimme momenten uit de video. Het is alsof je een film bekijkt en alleen de belangrijkste frames uitknipt om te zien wat er gebeurt. Ze gebruiken twee methodes:
    1. Willekeurig: Net alsof je blindelings foto's uit een album plukt (goed voor een algemeen beeld).
    2. Sleutelmomenten: De AI zoekt naar momenten waar er iets verandert (een nieuwe scène, een gezicht dat lacht, een plotse beweging). Dit is alsof je alleen de spannendste momenten van een film bekijkt.
  • De Geluiden (De Audio-Scan): De AI luistert ook. Het meet of de muziek snel of langzaam is, of de stem zacht of luid is, en of er pieken in het geluid zitten (bijvoorbeeld een dramatisch geluidseffect). Dit is als een geluidstechnicus die luistert naar de "sfeer" van de video.
  • De Vertaling (De "Verteller"): Dit is het meest interessante deel. De AI kijkt naar de beelden en het geluid en schrijft een verhaal over wat er gebeurt. In plaats van alleen cijfers, zegt de AI: "Deze video gebruikt humor om de kijker te verrassen" of "Deze video toont een beroemdheid om vertrouwen te wekken."

3. Het Samenvatten: De "Thema-Organisator"

De AI schrijft duizenden van deze verhalen. Dat is veel te veel om te lezen. Daarom gebruiken ze een slim hulpmiddel (BERTopic) dat al die verhalen sorteert in thema's.
Stel je voor dat je een berg brieven hebt. In plaats van ze één voor één te lezen, telt de AI: "Ah, 500 brieven gaan over 'humor', 300 over 'verrassing' en 200 over 'beroemdheden'." Zo krijgen ze een helder overzicht van welke strategieën populair zijn.

4. De Resultaten: Wat Werkt?

De onderzoekers hebben dit systeem getest op echte advertenties van verschillende bedrijven (zoals auto's, voeding en entertainment). Ze hebben gekeken welke thema's en geluiden leidden tot meer verkopen (de "Conversion Per Investment").

Hier zijn de belangrijkste bevindingen, vertaald naar alledaagse taal:

  • Interactie is koning: Voor online winkels werkt het beste als je de kijker direct uitdaagt of interactie biedt in de eerste drie seconden.
  • Demo's werken in de zorg: Voor gezondheidsproducten werkt het het beste als je direct het product laat zien en uitlegt hoe het werkt.
  • Geluid telt mee: Een plotseling luider geluid (een "piek") of een bepaalde toonhoogte kan de aandacht vasthouden, maar het moet wel passen bij de sfeer. Te hard kan afstoten, te zacht kan vergeten worden.

5. Waarom is dit belangrijk?

Vroeger moesten marketeers gissen naar wat werkte. Nu hebben ze een GPS-systeem.
Stel je voor dat je een auto bouwt. Vroeger bouwde je een auto en hoopte je dat hij snel zou rijden. Nu kun je de motor, de wielen en het brandstofverbruik precies meten en optimaliseren voordat je de auto de weg op stuurt.

Met dit systeem kunnen bedrijven hun video-advertenties zo maken dat ze precies de juiste "haak" hebben voor de juiste doelgroep. Ze weten dan: "Als we in de eerste drie seconden een glimlachend gezicht tonen met een snelle beat, verkopen we meer."

Conclusie

Dit onderzoek laat zien dat kunstmatige intelligentie (AI) niet alleen cijfers kan tellen, maar ook kunst en creativiteit kan begrijpen. Het helpt bedrijven om hun advertenties niet langer als een gok te zien, maar als een wetenschappelijk onderbouwde strategie die de eerste drie seconden van een video perfect laat werken.

Kortom: Het is de sleutel om de aandacht van de kijker te winnen voordat die zelfs maar heeft kunnen beslissen om weg te scrollen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →