De drie ingrediënten van data science

Hoewel big data al niet meer het hypewoord is dat het twee jaar geleden was (hallo, smart blockchain) bestaat er nog steeds veel onduidelijkheid over wat een data scientist doet. Om een beeld te schetsen van wat mijn werk inhoudt, zal ik hier de drie belangrijkste elementen noemen en toelichten met voorbeelden uit mijn werk.

Eerst iets over mijn werk. Op het moment werk ik via Ordina bij het Havenbedrijf Rotterdam. Ik help daar met het digitaliseren van de havenwereld, wat momenteel één van de belangrijkste strategische doelen van het Havenbedrijf is.

Verbinding met business

Data science moet altijd in relatie met de business worden bekeken en uitgevoerd. Om echt waarde toe te voegen, moet een data scientist vooraf weten wat het doel van zijn analyses is en op welke manier zijn resultaten gebruikt zullen worden.

Zo ben ik bijvoorbeeld bezig met het voorspellen van vertrektijden van schepen. Waarom? Met die voorspellingen weet de loods (die het schip de haven uitvaart) wanneer hij bij het schip aanwezig moet zijn. Dit betekent dat ik aan een loods kan vragen wat voor hem belangrijk is in zo’n voorspelling, en wanneer die ‘goed genoeg’ is om mee te werken.

Wiskunde en statistiek

Hoewel de traditionele data science-talen R en Python soms vrij complex kunnen zijn, komt er nu steeds meer software op de markt die data science toegankelijker maakt dan ooit. Zoek bijvoorbeeld eens op ‘dataiku’. De term citizen data scientist wordt gebruikt voor de professional die steeds eenvoudiger zijn eigen analyses kan uitvoeren. Maar wees waakzaam: kennis en kunde van statistiek en wiskunde is nodig om de zin van de onzin te onderscheiden.

Een goed voorbeeld hiervan is de generaliseerbaarheid van een model. Als ik een model ontwerp voor alle soorten schepen in de haven, dan moet ik ook data hebben van al die soorten schepen. Ik kan niet alleen data gebruiken van bijvoorbeeld containerschepen en verwachten dat mijn model betrouwbare voorspellingen levert voor andere scheepstypen.

Experimentele mindset

Een data scientist heeft vaak geen idee wat het resultaat van zijn werk zal zijn voordat hij eraan begint, in tegenstelling tot de meeste reguliere programmeurs. Data science is meer ontdekken dan realiseren. Dat vereist creativiteit van de data scientist, maar betekent ook dat de organisatie hier rekening mee moet houden in de verwachtingen die het van data science heeft.

Soms moet je daarom concluderen dat iets gewoon niet werkt. Deze week merkte ik dat nog: ik verwachtte dat een nieuwe databron mijn vertrektijdmodel zou verbeteren, maar dat viel enorm tegen. Dit proces van proberen en evalueren komt steeds terug in mijn werk.

Meer weten?

Ik kan de podcast DataFramed aanraden – leuke, begrijpelijke interviews met echte experts in het vakgebied.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *