Het CBS ziet overal big data, hoe klein de dataset ook is

kdnuggets-largest-dataset-2016

De afgelopen week zijn er twee verschillende onderzoeken gepresenteerd over het werk dat wordt gedaan met Big Data. De eerste bestaat uit de resultaten van een online poll op de data science-website kdnuggets.com, die elk jaar aan bezoekers vraagt “Wat is de grootste dataset die je hebt geanalyseerd?”. De tweede is een onderzoek van het CBS, waarvan ik de belangrijkste conclusie minstens drie keer op mijn LinkedIn-feed heb zien verschijnen: “Een op vijf bedrijven voert analyses op big data uit”.

1 op de 5 bedrijven?

Laten we beginnen met het onderzoek van het CBS, wat hier beschikbaar is. Het onderzoek is gebaseerd op een enquête die is verstuurd naar 11.000 ‘bedrijfseenheden’, hoewel helaas nergens wordt gemeld hoe veel bedrijven daadwerkelijk hebben gereageerd. Op zich is dat probleem nog wel te overzien, omdat de steekproef groot genoeg is. Problematischer is de definitie die het CBS geeft van ‘big data’:

Met ‘big data’ wordt hier bedoeld informatie die wordt gegenereerd uit elektronische activiteiten van gebruikers, en uit onderlinge communicatie tussen apparaten (machine-to-machine).  Het gaat bijvoorbeeld om gegevens die voortkomen uit het gebruik van sociale media, en uit productieprocessen in een bedrijf.

Data wordt voor het CBS dus ‘big data’ op basis van de bron, niet de omvang, snelheid, of varieteit. Dat is niet een definitie van big data die ik ooit eerder ben tegengekomen, en het is wat mij betreft een schoolvoorbeeld van de manier waarop de term ‘big data’ onderhevig is aan hype en inflatie. Als het CBS het onderzoek als kop “Een op de vijf bedrijven past data-analyse toe” had gegeven, had de soundbyte daadwerkelijk de inhoud van het onderzoek gedekt. Nu zou zelfs de meest eenvoudige analyse op een heel klein beetje data – zolang die maar voortkomt uit elektronische activiteiten van gebruikers of machine-to-machine communicatie – al onder de noemer ‘big data analyse’ vallen.

Overigens vraag ik me af hoe iemand de zin “van de bedrijven met 10 tot 20 werkzame personen analyseert 15 procent big data” kan uitschrijven zonder zich eens flink achter de oren te krabben.

Mijn grootste dataset

Het onderzoek van kdnuggets.com focust juist op de omvang van de data waarmee analisten werken, dus laten we daarnaar kijken. Deze website wordt gerund door Gregory Piatetsky, een meneer die een indrukwekkend CV heeft op het gebied van data science. De website bestaat ook al sinds 1994, en daarmee langer dan de term ‘data science’.

Ten aanzien van het onderzoek moeten we ten eerste opmerken dat het niets anders is dan een simpele poll die een tijdje op de website heeft gestaan. We hebben dus geen controle over wie de vraag heeft beantwoord en geen manier om de waarheid van de gegeven antwoorden te controleren. De poll is ruim 1200 keer ingevuld, wat al veel vaker is dan voorgaande jaren, maar nog steeds geen groot aantal. Daarnaast is de manier waarop de resultaten gepresenteerd worden werkelijk afgrijselijk (zie het plaatje boven het artikel).

De belangrijkste conclusie van de poll is dat de overgrote meerderheid van de analisten werkt met datasets met een grootte in de Gigabytes. Dat is een dataset die prima op een laptopje past, en de “modale data scientist” kan zijn allergrootste datasets nog volledig in zijn RAM-geheugen laden. De verdeling is zelfs iets opgeschoven richting de kleinere datasets in vergelijking met voorgaande jaren. Piatetsky verklaart dit door middel van een aanwas van ‘junior data scientists’: er zijn veel nieuwe, onervaren mensen bijgekomen dit jaar, die nog niet met bijzonder grote datasets hebben gewerkt.

De “modale data scientist” kan zijn allergrootste datasets nog volledig in zijn RAM-geheugen laden.

Verder valt het op dat er bijna geen antwoorden zijn tussen de 1 en 100 PB, maar wel een significante groep die met datasets groter dan 100 PB heeft gewerkt – een formaat waarop zelfs ik zonder twijfel het label ‘big data’ zou plakken. Piatetsky noemt dit ‘internet-scale data-stores’. Wat voor databases hebben zo’n omvang? Laten we de usual suspects eens langsgaan: Facebook had in 2014 een opslagcapaciteit van meer dan 300 PB; eBay beweerde in 2011 meer dan 100 PB per dag te verwerken; de Chinese zoekmachine Baidu had in 2014 al meer dan 2.000 PB in opslag; en een schatting van Google’s databases in 2013 komt uit op 15.000 PB totaal. Er zijn hier dus twee mogelijke verklaringen: het kan zijn dat 25 data scientists van bedrijven als Facebook en Google de poll op kdnuggets.com hebben ingevuld, maar het kan ook zijn dat 25 respondenten dachten ‘ik heb een keer een query op de API van Twitter gedaan, dus ik kan wel het grootste label aanklikken’.

Conclusie

We hebben nog geen definitie van big data besproken, dus de vraag waar de mysterieuze Big Data Analyses precies gevonden kunnen worden ga ik niet precies beantwoorden. Twee dingen kan ik wel zeggen. Ten eerste: Facebook, eBay, Baidu, en Google zitten zonder enige twijfel in de zone ‘sowieso big data’. De bronvermeldingen die ik gebruik voor de eerste drie bevatten ook informatie over de manieren die deze bedrijven gebruiken om deze hoeveelheden data te kunnen verwerken. De tweede conclusie: veel minder dan “één op de vijf bedrijven in Nederland” doet aan big data analyse. De soundbyte van het CBS had andersom moeten zijn: vier op de vijf bedrijven doet blijkbaar niks met data.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *