RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme luchtfoto bekijkt van een drukke stad of een zeehaven. Je ziet auto's, schepen, vliegtuigen en gebouwen. Maar hier is het probleem: in een gewone foto staan auto's meestal recht vooruit. In een luchtfoto kunnen ze in elke richting staan: schuin, diagonaal, of zelfs haaks op elkaar.

Het is alsof je probeert een doosje te pakken dat overal op de vloer ligt, maar het doosje kan in elke hoek staan. Als je een computer wilt leren om deze objecten te vinden, moet je het niet alleen laten zien waar ze zijn, maar ook precies hoe ze gedraaid zijn.

Dit papier introduceert een nieuwe slimme computerprogramma genaamd RMK RetinaNet. Het is als een super-observator die speciaal getraind is om deze "gedraaide" objecten op luchtfoto's te vinden. Hier is hoe het werkt, vertaald in simpele termen:

1. Het Probleem: De "Vaste" Lijm

Oude methoden hadden een paar grote problemen:

Te star: Ze keken naar objecten alsof ze allemaal even groot waren. Een groot vliegtuig en een kleine auto kregen hetzelfde "kijkveld". Dat werkt niet goed.
Verkeerde hoek: Als een object net op de grens van een hoek zit (bijvoorbeeld 359 graden of 1 graden), raakte de computer in de war. Het was alsof de computer dacht dat 359 graden en 1 graden heel ver uit elkaar liggen, terwijl ze eigenlijk bijna op elkaar zitten.
Verlies van details: Bij het kleiner maken van de foto's (om de computer sneller te laten werken) verdwenen de fijne details van kleine objecten.

2. De Oplossing: De "RMK RetinaNet" Superkrachten

De auteurs hebben vier nieuwe trucjes bedacht om dit op te lossen:

A. De "Meerdere Brillen" (Multi-Scale Kernel)

Stel je voor dat je een oude man bent die een klein insect en een groot vliegtuig tegelijkertijd moet zien. Je hebt één bril niet genoeg; je hebt een loep nodig voor het insect en een verrekijker voor het vliegtuig.

Hoe het werkt: In plaats van één soort lens te gebruiken, heeft dit systeem vier verschillende lenzen tegelijk. Sommige kijken heel dichtbij (voor kleine details), andere kijken heel ver weg (voor grote context). Ze werken samen om zowel de kleine auto als het grote vliegtuig perfect te zien, zonder dat de computer verward raakt.

B. De "Richting-Sensor" (MDCAA)

Objecten op luchtfoto's hebben vaak een duidelijke richting (een schip vaart in een lijn, een vliegtuig staat in een rij).

Hoe het werkt: Normale computers kijken vaak alleen horizontaal en verticaal (links-rechts, boven-onder). Dit systeem heeft extra "oren" die ook diagonaal kunnen luisteren. Het is alsof je niet alleen naar de weg kijkt, maar ook naar de sporen in het gras die diagonaal lopen. Zo kan de computer beter begrijpen hoe een object in de ruimte ligt en welke kant het op gaat, zelfs als de achtergrond erg rommelig is.

C. De "Terug naar de Basis" Lijn (Bottom-up Path)

Wanneer computers een foto analyseren, maken ze de foto steeds kleiner. Hierdoor gaan de scherpe randen van kleine objecten vaak verloren, alsof je een foto steeds kleiner kopieert tot het wazig wordt.

Hoe het werkt: Dit systeem bouwt een speciale lift die de scherpe, fijne details van de kleine objecten (zoals een klein autootje) rechtstreeks naar de bovenste verdiepingen van het systeem brengt. Zo vergeten ze nooit de kleine details, zelfs niet als ze bezig zijn met het analyseren van de grote lijnen.

D. De "Ronde Schaal" voor Hoeken (Euler Angle Encoding)

Dit is misschien wel de slimste truc.

Het probleem: Als je een hoek meet van 0 tot 360 graden, is 359 graden heel dicht bij 1 graden. Maar voor een computer zijn dat twee heel verschillende getallen. Het is alsof je een klok hebt waarbij 11:59 en 12:01 heel ver uit elkaar liggen.
Hoe het werkt: In plaats van een rechte lijn van 0 tot 360 te gebruiken, verandert dit systeem de hoek in een ronde cirkel (een eenheidscirkel). Op een cirkel is 359 graden en 1 graden gewoon naast elkaar. Hierdoor kan de computer soepel draaien zonder te struikelen over de grens. Het maakt het leren van hoeken veel rustiger en nauwkeuriger.

3. Het Resultaat

De auteurs hebben hun nieuwe systeem getest op drie grote datasets met luchtfoto's (van steden, havens en vliegvelden).

Wat deden ze? Ze vergeleken hun systeem met de beste andere systemen die er al waren.
Wat was de uitkomst? Hun systeem deed het net zo goed, en vaak zelfs beter, vooral bij moeilijke situaties met veel objecten, verschillende groottes en willekeurige hoeken.

Samenvatting

Kortom, RMK RetinaNet is als een super-detective voor luchtfoto's. Hij draagt meerdere brillen om zowel groot als klein te zien, heeft oren voor diagonale richtingen, houdt de scherpe details vast via een speciale lift, en gebruikt een ronde schaal om hoeken perfect te begrijpen. Hierdoor kan hij objecten vinden waar andere systemen vaak de mist in gaan.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

De detectie van geroteerde objecten in remote sensing-beelden (satelliet- en dronebeelden) wordt geconfronteerd met drie fundamentele uitdagingen die de prestaties van bestaande modellen beperken:

Niet-adaptief gebruik van het receptieve veld: Bestaande methoden gebruiken vaak vaste receptieve velden. Dit is suboptimaal voor remote sensing-scènes waar objecten extreme schaalvariaties vertonen (van grote gebouwen tot kleine voertuigen) en willekeurige oriëntaties hebben. Een vast veld biedt onvoldoende context voor grote objecten of mist fijne details bij kleine objecten.
Onvoldoende lang-reikende multi-schaal kenmerkenfusie: Bestaande Feature Pyramid Networks (FPN) voegen kenmerken voornamelijk toe tussen aangrenzende niveaus. Dit beperkt de interactie tussen diepe semantische kenmerken en ondiepe, hoog-resolutie details, wat essentieel is voor het detecteren van zowel grote als kleine objecten in dezelfde scène.
Discontinuïteit in hoekregressie: Bij het voorspellen van rotatiehoeken (θ) treden vaak discontinuïteiten op bij de grenzen van de parameterisatie (bijv. de overgang van 0° naar 360°). Dit veroorzaakt sprongen in de verliesfunctie, wat leidt tot instabiele gradiënten en een minder robuuste training, vooral in dichte scènes.

2. Methodologie: RMK RetinaNet

De auteurs stellen RMK RetinaNet (Rotated Multi-Kernel RetinaNet) voor, een architectuur die is gebaseerd op Rotation RetinaNet maar wordt uitgebreid met vier kerncomponenten om de bovengenoemde problemen aan te pakken.

A. Multi-Scale Kernel (MSK) Block

Om het probleem van vaste receptieve velden op te lossen, introduceert de MSK Block een parallelle perceptiestrategie.

Structuur: De block bestaat uit vier MSK-modules. In plaats van standaard 2D-convoluties, worden deze ontbonden in parallelle takken met verschillende kernelgroottes ( $m \in \{5, 7, 9, 11\}$ ).
Techniek: Om de parameter-efficiëntie te behouden, worden de grote kernels vervangen door gescheiden 1D-convoluties ( $1 \times m$ en $m \times 1$ ).
Fusie: In plaats van elementsgewijze optelling (wat details kan vervagen), worden de outputkenmerken van de verschillende schalen geconcateneerd langs de kanaal-dimensie. Dit behoudt de unieke discriminatieve informatie van elke schaal.

B. Multi-Directional Contextual Anchor Attention (MDCAA) Module

Deze module is ontworpen om de oriëntatiegevoeligheid te verbeteren in rommelige achtergronden.

Werking: Het module gebruikt globale semantiek als ankers en integreert strip-convoluties in vier richtingen: horizontaal, verticaal, hoofd-diagonaal en anti-diagonaal.
Rotatie: Diagonale patronen worden omgezet in axiale patronen door rotatie van de feature maps, waarna standaard convoluties worden toegepast.
Doel: Het module weegt object-gerelateerde kenmerken dynamisch af en onderdrukt achtergrondruis, wat cruciaal is voor langwerpige en geroteerde objecten zoals schepen en vliegtuigen.

C. Bottom-up Path Module

Om het verlies van fijne ruimtelijke details tijdens downsampling te compenseren, wordt een Bottom-up Path toegevoegd aan de Feature Pyramid.

Mechanisme: Deze pad start bij de laagste laag (M1, hoogste resolutie) en transporteert positie-informatie naar hogere lagen via convoluties met een stapgrootte van 2.
Fusie: De output van dit pad wordt gefuseerd met de semantische informatie van de Feature Pyramid. Dit verbetert de lokalisatieprecisie, vooral voor kleine objecten.

D. Euler Angle Encoding Module (EAEM)

Om de discontinuïteit in hoekregressie op te lossen, wordt de hoek $\theta$ niet direct voorspeld, maar gemapped naar een continu, differentieerbaar systeem.

Principe: De hoek wordt gecodeerd als een punt op de eenheidscirkel in het complexe vlak: $z = \cos(\omega\theta) + j\sin(\omega\theta)$ .
Voordeel: Dit elimineert de periodieke sprongen (bijv. tussen 0 en $2\pi$ ) en zorgt voor een gladde overgang in de verliesfunctie. De encodering is omkeerbaar, waardoor de hoek uniek en nauwkeurig kan worden hersteld uit de 2D-vectoroutput.

3. Belangrijkste Bijdragen

MSK Block: Een nieuwe architectuur voor adaptieve multi-schaal kenmerkextractie die gebruikmaakt van gescheiden convoluties om parameter-efficiëntie te combineren met een groot receptief veld.
MDCAA Mechanisme: Een innovatieve attention-mechanisme dat contextuele afhankelijkheden in meerdere richtingen (inclusief diagonaal) modelleert, specifiek ontworpen voor de oriëntatievariatie in remote sensing.
Bottom-up Path: Een strategie om fijne ruimtelijke details te behouden en te integreren in hogere semantische lagen, wat de lokalisatie van kleine objecten verbetert.
EAEM: Een continue en omkeerbare hoekcodering die de stabiliteit van het trainingsproces en de nauwkeurigheid van de hoekregressie significant verbetert door periodieke discontinuïteiten te elimineren.

4. Resultaten

De methode is geëvalueerd op drie standaard datasets: DOTA-v1.0, HRSC2016 en UCAS-AOD.

DOTA-v1.0: RMK RetinaNet bereikte een mAP van 70,38%, wat een verbetering is van 1,89% ten opzichte van de baseline Rotation RetinaNet (68,49%). Het presteerde beter dan of vergelijkbaar met state-of-the-art methoden zoals R-FCN, RoI-Transformer en CADNet, zonder gebruik te maken van test-tijd data-augmentatie.
HRSC2016: De methode toonde een verbetering van 1,52% ten opzichte van de baseline, zelfs wanneer de dataset subcategorieën voor schepen samenvoegde tot één categorie.
UCAS-AOD: De beste prestatie werd behaald met een mAP van 91,735%, wat de hoogste score is onder de vergeleken methoden (o.a. YOLOv2, R-DFPN).
Ablatiestudies: Experimenten bevestigden dat elke component (MSK, MDCAA, Bottom-up Path, EAEM) een positieve bijdrage levert aan de totale prestatie, waarbij de volledige combinatie de beste resultaten oplevert.

5. Betekenis en Impact

De RMK RetinaNet biedt een robuuste oplossing voor de specifieke uitdagingen van objectdetectie in remote sensing-beelden. Door de beperkingen van vaste receptieve velden, de inefficiëntie van bestaande feature pyramides en de instabiliteit van hoekregressie aan te pakken, biedt dit model:

Hogere nauwkeurigheid voor objecten met willekeurige oriëntaties en extreme schaalvariaties.
Betere stabiliteit tijdens het trainingsproces dankzij de Euler-angle codering.
Efficiëntie: Ondanks de toegevoegde complexiteit, blijft het model parameter-efficiënt door het gebruik van gescheiden convoluties en is het geschikt voor praktische toepassingen in milieu-monitoring, stedelijke planning en militaire verkenning.

De studie onderstreept het belang van het integreren van domeinspecifieke kennis (zoals de aard van remote sensing-beelden) in de architectuur van deep learning-modellen om de prestaties aanzienlijk te verbeteren.