Multi-View In-Cabin Monitoring System for Public Transport Vehicles

Dit artikel introduceert een multi-view in-cabin monitoring dataset voor openbaar vervoer voertuigen, bestaande uit gesynchroniseerde RGB- en dieptebeelden met 3D-annotaties, samen met een kalibratiepipeline en benchmarkingtools voor het evalueren van multi-view 3D detectiemodellen.

Oorspronkelijke auteurs: Evgeny Gorelik, Kenny Dean Karrow, Fikret Sivrikaya, Sahin Albayrak, Christian Baumann

Gepubliceerd 2026-06-11✓ Author reviewed
📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Evgeny Gorelik, Kenny Dean Karrow, Fikret Sivrikaya, Sahin Albayrak, Christian Baumann

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je een drukke stadsbus voor als een volle, bewegende woonkamer. Normaal gesproken, als je precies wilde weten waar iedereen zit, staat of beweegt in die kamer, zou je een team mensen met klembord nodig hebben die vanuit elke hoek toezicht houden. Maar in de wereld van zelfrijdende bussen moeten computers dit werk automatisch doen.

Dit artikel introduceert een nieuwe "trainingsschool" voor die computerbreinen. Hier is de uitsplitsing van wat de onderzoekers hebben gebouwd en hoe ze dat hebben gedaan, met eenvoudige vergelijkingen:

1. Het Probleem: De Bus met de "Blinde Vlek"

De meeste zelfrijdende technologie is als een auto met ogen die naar buiten kijken door het raam om de weg te zien. Maar hoe zit het met wat er ín de bus gebeurt?

  • De Uitdaging: In een bus blokkeren mensen elkaar (occlusie), stoelen zijn reflecterend en camera's zien vaak slechts een klein deel van de ruimte. Als je slechts één camera hebt, is het alsof je probeert een hele film te begrijpen door slechts één frame vanuit één specifieke stoel te bekijken. Je mist de helft van de actie.
  • Het Gat: Er was geen goede "leerboek" (dataset) met genoeg voorbeelden van mensen binnenin een bus, gezien vanuit meerdere hoeken, om computers te leren hoe ze helder kunnen zien.

2. De Oplossing: Een "Slimme Bus" met Supervisie

Het team heeft een speciale, gedigitaliseerde stadsbus gebouwd in Duitsland, uitgerust met een "super-visie" systeem.

  • De Ogen: Ze hebben vier camera's geïnstalleerd die naar binnen gericht zijn (als beveiligers die in de hoeken van de kamer staan) en een draaiende laserscanner (LiDAR) die werkt als een vleermuis die echolocatie gebruikt om de kamer in 3D in kaart te brengen.
  • De Data: Ze hebben meer dan 9.000 gesynchroniseerde momenten opgenomen waarbij deze sensoren samenwerkten. Het is alsof je een 4D-film hebt waarbij je de kamer tegelijkertijd vanuit vier hoeken kunt zien, plus een 3D-dieptekaart.

3. De Magische Truk: De Computer Leren "Zien" Zonder een Leraar

Normaal gesproken, om een computer te leren een persoon te herkennen, moeten mensen duizenden foto's handmatig omkaderen met boxen. Dat duurt eeuwig.

  • De Pipeline: In plaats van elke box handmatig te tekenen, creëerden de onderzoekers een "robotassistent"-pipeline:
    1. De Detective: Ze gebruikten een AI om mensen in de video te vinden.
    2. De 3D-Beeldhouwer: Ze gebruikten een andere AI om de 3D-vorm van het lichaam van de persoon te raden op basis van alleen de 2D-camerabeelden.
    3. De Scheidsrechter: Omdat vier camera's dezelfde persoon op vier licht verschillende manieren kunnen zien, bouwden ze een systeem dat als scheidsrechter fungeert. Het neemt de vier verschillende schattingen, vergelijkt ze en kiest de meest nauwkeurige "gemiddelde" 3D-positie.
    4. Het Resultaat: Ze kwamen uit op een dataset waarbij elke persoon een precieze 3D-"skelet" en een 3D-box heeft, allemaal automatisch gegenereerd met zeer weinig menselijke hulp.

4. De Test: Kunnen de Computers Leren?

De onderzoekers hebben niet alleen de data gemaakt; ze hebben getest of bestaande computerbreinen ervan kunnen leren.

  • Het Examen: Ze namen beroemde AI-modellen (zoals "Lift-Splat-Shoot" en "BEVFusion") en probeerden deze te leren om mensen in deze bus te spotten met behulp van de nieuwe data.
  • De Score: De modellen deden een redelijk werk, vooral wanneer ze een kleine foutmarge kregen toegestaan. De test liet echter ook zien dat kijken vanuit slechts één camerabeeld riskant is (het missen van ongeveer 19% tot 60% van de mensen, afhankelijk van de hoek), wat bewijst dat je echt meerdere camera's nodig hebt om een volledig beeld te krijgen.

5. Wat Zit Er in de Doos?

De onderzoekers geven dit hele pakket gratis weg aan andere wetenschappers. Het bevat:

  • De video- en laserdata.
  • De "robotassistent"-tools om 3D-labels te genereren.
  • Een formaat dat past in standaard zelfrijdende software (nuScenes-formaat).

Samenvatting

Beschouw dit artikel als de constructie van een high-tech trainingsgym voor zelfrijdende bussen. Voorheen probeerden de bussen te leren hoe ze binnen in de cabine moesten zien met slechts één wazig oog. Nu hebben ze een gym met vier high-definition camera's, een 3D-laserscanner en een reeks "perfect beoordeelde" oefentoetsen (de dataset) om te leren hoe ze passagiers kunnen volgen, zelfs wanneer ze achter stoelen verborgen zijn of dicht op elkaar staan.

Wat ze expliciet NIET hebben gedaan:
Het artikel richt zich strikt op het detecteren waar mensen zijn en wat ze doen (zitten, staan, lopen). Ze hebben dit systeem niet getest op echte rijdende bussen in het verkeer, noch hebben ze beweerd dat het medische noodgevallen kan oplossen of menselijke bestuurders kan vervangen. Het is een fundamenteel hulpmiddel voor toekomstig onderzoek.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →