De afgelopen jaren zijn er veel successen geboekt door neurale netwerken (deep learning) toe te passen op beeldherkenning. De gezondheidszorg gebruikt neurale netwerken bijvoorbeeld voor het voorspellen van medische diagnoses en de industrie spoort er defecten mee op. Echter wordt beeld vrijwel altijd afgeplat en geprojecteerd in 2D, waardoor er veel diepte in de ruimte verloren gaat. Gelukkig kan dankzij een LiDAR-sensor 3D-data toegankelijk worden gemaakt. Het gebruik van LiDAR neemt dan ook enorm toe. Een recente studie van GLOBE NEWSWIRE voorspelde dat de LiDAR-markt tegen 2026 met 22,7% zal stijgen.

De uitdagingen van Point Cloud bij Deep Learning
Een LiDAR-sensor maakt aan de hand van laserpulsen honderdduizenden uiterst nauwkeurige metingen per seconde. Elke meting wordt vervolgens omgezet naar een pixel met een X-,Y-,Z coördinaat. Al deze pixels tezamen vormen de Point Cloud. Met behulp van een camera worden de pixels vervolgens ingekleurd om kleur toe te voegen aan de Point Cloud, zodat 3-dimensionale visuele taken uitgevoerd kunnen worden. Echter brengt een Point Cloud voor Deep Learning de nodige uitdagingen met zich mee, omdat het andere eigenschappen heeft dan gewone 2D-beelden.

Dit komt met name omdat een Point Cloud niets anders is dan een verzameling van 3D-datapunten, die ongestructureerd, onregelmatig en ongeordend zijn. Data moet gestructureerd zijn om Deep Learning modellen voorspellingen te laten maken. Alleen op deze manier kan de architectuur met de Point Cloud en ongeordende 3D datasets omgaan. We zeggen dat een neuraal netwerk permutatie-invariant moet zijn om voorspellingen mogelijk te maken.

Om deze uitdagingen op het gebied van classificatie en segmentatie op te lossen werd in 2017 PointNet uitgebracht. Deze technologie biedt een uniforme architectuur, die de datasets van de Point Clouds direct kan verwerken en daarbinnen kan leren classificeren. Het is bovendien mogelijk om alle inputdata in één keer te verwerken of per puntsegment te bepalen wat je invoert. Hierdoor wordt de architectuur onveranderlijk voor permutatie. Bovendien garandeert het robuustheid ten aanzien van dataveranderingen zoals rotatie. Tenslotte dient de technologie ook als ruggengraat, die informatie van elk punt verzamelt en de invoer in een hoger dimensionale vector zet. Dankzij PointNet kunnen nu systemen worden ontwikkeld die in staat zijn om informatie uit 3D beelden te halen en deze te herkennen, begrijpen en inhoudelijk te interpreteren.

Beeld zegt meer dan 1000 woorden

Computer Vision heeft dankzij PointNet binnen de AI-community een enorme vlucht genomen. Steeds vaker zien we nieuwe AI-oplossingen opduiken op basis van 3D data. Met name bouwbedrijven hebben gekozen voor Point Cloud-technologie. 3D-technologieën worden bijvoorbeeld gebruikt voor dronescans, waardoor er geen mensen ter plaatse meer nodig zijn om metingen te verrichten. Daarnaast kan 3D ook worden ingezet voor andere visuele inspecties. Denk hierbij aan geautomatiseerde kwaliteitscontrole door digitale inspecteurs, zodat onderhoudsmedewerkers minder inspectierondes hoeven uit te voeren. Bijvoorbeeld een oplossing die beschadigingen aan wegen automatisch kan detecteren aan de hand van camerabeelden. Dankzij nieuwe technologie krijgen onderhoudsbedrijven automatisch te horen welke assets, zoals verlichting, tegelvloeren, rookdetectors en bewakingscamera’s, onderhoud nodig hebben. Hierdoor kunnen onderhoudsdiensten assets efficiënter beheren, kosten besparen en risico’s beter in kaart brengen.

Geen wonder dat er een groeiende vraag is naar 3D-analyses. Point Clouds zijn de toekomst op het gebied van Computer Vision. Op AI gebaseerde oplossingen kunnen leren om 3D waarnemingen te interpreteren, zodat apparaten zelfstandig beslissingen kunnen nemen. Het zal dan ook niet lang meer duren voordat meer visuele taken van de mens straks worden uitgevoerd door intelligente digitale inspecteurs. Het is nu belangrijk om na te denken over de impact van Computer Vision op onze sociale en economische structuren. Als we dit goed doen, zijn de voordelen en mogelijkheden eindeloos. Beeld zegt immers meer dan 1000 woorden!

Maarten Stol, Principal Scientific Adviser bij BrainCreators & Ghailen Ben Achour researcher bij BrainCreators