Wat ik geleerd heb uit mijn gesprekken met data science sollicitanten

De laatste tijd ben ik geregeld gevraagd om voor Ordina sollicitanten te spreken die willen komen werken als Data Scientist. De eerste keren vond ik dat allemaal best spannend – wie ben ik nou, om met mijn 24 lentes een oordeel te vellen over de carrière van een ander? Uiteindelijk bedacht ik me dat er in feite niet veel anders gebeurt dan een uur koffie drinken met een onbekende, waarna ik de vraag probeer te beantwoorden of ik diegene als collega zou willen. Dat moet ik toch wel kunnen, dacht ik, en inmiddels ben ik een flink aantal sollicitanten verder en vond ik het tijd om iets op te schrijven over wat ik daarbij geleerd heb.

Het veld van data science heeft een zeer specifiek probleem als het aankomt op de arbeidsmarkt, en dat is hoe jong het veld is. Dit merk je op twee manieren: ten eerste is voor veel mensen nog onduidelijk wat het precies betekent om jezelf data scientist te noemen, en ten tweede is er een gebrek aan mensen met ervaring.

Eenhoorns

Toen ik drie jaar geleden begon als data scientist had iedereen het over de mysterieuze eenhoorns waar elk bedrijf naar op zoek zou zijn. Eenhoorns omdat de ideale data scientist super goed zou moeten zijn in zo ongeveer alles: programmeren, statistiek, visualisatie, presentatie, en dan het liefst met nog een flinke dosis domeinkennis. Hoewel er nog steeds veel wordt gepraat over zulke eenhoorns heb ik het gevoel dat de meeste bedrijven inmiddels een gezonder beeld hebben van waar ze precies naar op zoek zijn. Niet langer is het ideaalbeeld iemand die super geavanceerde modellen traint en dan ook nog de Hadoop clusters aanlegt waar ze in opgeslagen zullen worden; in plaats daarvan realiseren bedrijven zich dat dit taken zijn die je beter aan twee onderscheiden specialisten kan overlaten.

De belangrijkste manier waarop ik nog wel eens het eenhoorn-denken tegenkom is als ik gevraagd wordt naar mijn mening over iets wat ik een data engineering onderwerp vind. Zo krijg ik bijvoorbeeld nog wel eens inhoudelijke vragen over het onderscheid tussen AWS en Azure. Persoonlijk vind ik dat een onderwerp waar ik slechts oppervlakkig iets van af hoef te weten en laat ik het inhoudelijk specialisme met liefde over aan een collega in data engineering. Overigens is “big data” in mijn mening ook een data engineering term in plaats van een data science term, maar gezien hoe vaak “big data” en “data science” jarenlang in dezelfde zin zijn gebruikt kan ik het mensen nog snel vergeven dat ze mij willen zien als big data expert.

Wat betekent dit voor sollicitatiegesprekken? Het betekent dat je als bedrijf goed moet weten waar je naar op zoek bent. Ik zie nog vaak vacatures langskomen die niet alleen vragen naar ervaring met Python en R, maar ook met Pig, Hive, Cassandra, Redshift, en S3. Als bedrijf snijd je jezelf hiermee in de vingers, want je verkleint nodeloos de groep met geschikte potentiële sollicitanten. Niet iedereen hoeft alles te kunnen, en je zult merken dat een data scientist pas echt meerwaarde gaat leveren als je hem of haar ondersteunt met een goed data engineering team.

Dit betekent ook voor (potentiële) data scientists dat je bij vacatures goed moet opletten of het bedrijf lijkt te weten wat ze zoeken. De kans dat je gelukkig wordt in een data science baan is veel groter als je werkt voor een bedrijf dat weet wat ze van je verwachten. Het beste recept voor een mislukking (en helaas heb ik dit vaak genoeg gezien) is te werken voor een bedrijf dat niet weet waar ze aan beginnen en waar het onmogelijke van je wordt verwacht.

Gebrek aan ervaring

De tweede eigenschap van de jonge markt is degene waar we op het moment bij Ordina veel meer van merken. Data science is namelijk niet alleen jong, maar ook nog eens heel hip. Er is daardoor absoluut geen gebrek aan enthousiasme van mensen die hartstikke benieuwd zijn of een carrière als data scientist iets voor hen zou kunnen zijn. Vaak zijn dit afstudeerders uit een richting vanuit de sociale of exacte wetenschappen die tijdens hun studie wat ervaring hebben opgedaan met SPSS of Matlab en nu hopen dat deel van hun opleiding toe te passen in een baan. Soms zijn het PhD’ers die net klaar zijn met hun promotie-onderzoek, en die graag door willen gaan met het doen van onderzoek maar dan niet in een academische omgeving. En soms zijn het mensen die al een tijd in de IT of als business analist werken en zich nu graag willen laten omscholen tot data scientist. Met een aantal Coursera-certificaten op zak kloppen veel van hen vervolgens aan bij Ordina. We bieden veel van hen een baan aan als junior of Young Professional bij Ordina TalentPower.

De groep die ondervertegenwoordigd is, zijn de mensen met een paar jaar werkervaring. Dit zijn de sollicitanten die niet alleen weten hoe je de aannames van een regressiemodel controleert, maar die ook aanvoelen dat de eerste analysevraag die je krijgt bijna nooit de vraag is die je uiteindelijk echt moet beantwoorden. Het zijn mensen die niet alleen kunnen uitleggen wat het verschil is tussen supervised en unsupervised modeling, maar die ook uit ervaring weten hoe belangrijk het is om code te schrijven die je collega’s ook kunnen lezen en begrijpen. Kortom, die de vaardigheden bezitten waardoor ze zelfstandig en efficiënt aan de slag kunnen in een nieuwe omgeving – iets wat voor een detacheerder als Ordina erg belangrijk is.

Dit betekent dat wij goed hebben moeten nadenken wat we precies verwachten van een data scientist op elk niveau: junior, medior, en senior. Welke vaardigheden moet je hebben als je komt solliciteren, en welke vaardigheden kun je nog wel leren als je eenmaal begonnen bent? Sommige bedrijven zullen zeggen dat het vooral belangrijk is dat je analytisch en creatief bent, maar daar ben ik het niet helemaal mee eens. Als een sollicitant geen gedegen kennis van statistiek heeft is dat voor mij wel degelijk een groot probleem, want ik geloof niet dat je iemand in korte tijd genoeg kan uitleggen om een halve bacheloropleiding in te halen. Het betekent wel dat we werkervaring veel belangrijker vinden dan theoretische kennis – leuk dat je een bepaalde techniek begrijpt, maar als je het in een realistische omgeving ook hebt toegepast geloof ik pas echt dat je begrijpt hoe het werkt.

Als sollicitant ligt hier ook een kans om je te onderscheiden van de concurrentie. Je kunt dat heel eenvoudig doen door je kennis toe te passen in hobbyprojectjes, waarmee je in één klap meer hebt gedaan dan 95% van de andere sollicitanten. Heb je een cursus gedaan op DataCamp of op Coursera over regressiemodellen? Super! Download nu een openbaar beschikbare dataset en pas je geleerde kennis eens toe, en schrijf bijvoorbeeld een blogpost over je resultaten. Het wordt nog beter als je een toepassing kan verzinnen die ook direct meerwaarde heeft voor jezelf of een ander – zo ken ik iemand die een webscraper had gebouwd om de prijs van een treinreis bij te houden, zodat hij kon bepalen op welk moment hij het goedkoopst kon boeken, of iemand die een algoritme had geschreven dat de ingescande antwoorden van meerkeuze opgaven automatisch kon herkennen.

Vervolg

Ik wil nog meer schrijven over dit onderwerp, maar dit artikel wordt al veel te lang. Binnenkort zal ik een deel twee schrijven, waarin ik vooral in wil gaan op hoe je dan een sollicitant beoordeelt – is een gesprek voldoende, of wil je ook een test afnemen, en waar test je dan voor? Al die vragen hoop ik in mijn tweede post te beantwoorden.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *