Big Data, het moderne Enigma (1): Big Data komt uit een pen

In januari 2015 ging de film The Imitation Game in de Nederlandse bioscopen in première. Topacteur Benedict Cumberbatch speelt de hoofdrol. Het is een film over het leven van Alan Turing, de beroemde Britse wiskundige en pionier in de computerwetenschappen. Turing leidde het Britse team van experts dat verantwoordelijk was voor de ontcijfering van de Enigma (codeer- en decodeermachine dat de nazi’s gebruikten voor hun geheime communicatie) waardoor de geallieerden ongemerkt cruciale kennis verkregen over de strategie van de nazi’s. Dit wordt beschouwd als een belangrijk keerpunt in het verloop van de Tweede Wereldoorlog. Turing legde daarnaast de basis voor de computer zoals we die vandaag de dag kennen.Ter ere van de gelegenheid van de première van deze film verschijnt op GuidOnline een reeks artikelen over Big Data. Big Data is wellicht het enigma van deze tijd dat ontcijferd dient te worden of op zijn minst om opheldering vraagt. In dit eerste artikel uit de reeks “Big Data, het moderne Enigma” een antwoord op de vraag: waar komt de term Big Data vandaan?


De expert zal op een slimme manier informatie uit de grote hoeveelheden gegevens halen Alan Turing en zijn mensen maakten gebruik van pen en papier om de codes te ontcijferen. Tegenwoordig zullen data experts op de juiste manier gebruik moeten maken van de rekenkracht van computers om op slimme manieren informatie uit de grote hoeveelheden gegevens te kunnen halen.

De expert zal op een slimme manier informatie uit de grote hoeveelheden gegevens halen Alan Turing en zijn mensen maakten gebruik van pen en papier om de codes te ontcijferen. Tegenwoordig zullen data experts op de juiste manier gebruik moeten maken van de rekenkracht van computers om op slimme manieren informatie uit de grote hoeveelheden gegevens te kunnen halen.

In een artikel in de New York Times legt journalist Steve Lohr uit hoe hij de ontstaansgeschiedenis van de term Big Data heeft achterhaald. Zijn conclusie is dat in een publicatie getiteld Big Data … and the Next Wave of InfraStress uit 1998 van dr. John R. Mashey (een Amerikaanse computer wetenschapper en ondernemer) voor de eerste keer deze term wordt gebruikt. Mashey doelde op de snelheid waarmee de data opslagcapaciteit toeneemt, de prijzen van data opslag zullen dalen en de mogelijkheden die dit zal creëren voor mensen om die capaciteit ook daadwerkelijk te gaan benutten.

Big Data: de term en het fenomeen

Het Wikipedia artikel over Big Data begint met de zin: Big data is an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process them using traditional data processing applications. Dit is een technische uitleg van de term Big Data. Op basis van deze uitleg is Big Data een zeer relatief begrip. Het heeft betrekking op de disbalans tussen enerzijds de beschikbare mogelijkheden om data adequaat te verwerken en anderzijds de omvang en de complexiteit van data. Afhankelijk van het tempo waarmee beide aspecten zich ontwikkelen, speelt het vraagstuk van Big Data in meer of mindere mate. Indien de data explosie een hoger groeitempo heeft dan de ontwikkeling van adequate verwerkingsmethoden wordt het een steeds grotere uitdaging om betekenisvolle informatie te vekrijgen. Wanneer adequate verwerkingsoplossingen sneller beschikbaar zijn dan de groei van meer en complexere data dan krijgt men er dus steeds meer grip op. Het zal dus van situatie tot situatie verschillen.

MapReduce

Het schoolvoorbeeld van een Big Data technologie, MapReduce, werd al in 2004 door Google in een wetenschappelijke publicatie aan de wereld gepresenteerd. Google had in die tijd als één van de weinige bedrijven écht veel data te verwerken. MapReduce is een programmeer framework om data gedistribueerd op te slaan en te raadplegen.  MapReduce was belangrijk omdat het Google in staat stelde om de verwerkingstijden en kosten van de alsmaar groter wordende data sets onder controle te houden met behoud van de kwaliteit van de output (relevante aanbevelingen voor gebruikers van de zoekmachine). Voor Google had deze oplossing dus direct toegevoegde waarde binnen hun business model. Hadoop is de open-source variant van dit framework. Hadoop is een populaire en centrale bouwsteen in veel van de hedendaagse Big Data oplossingen. Hoewel MapReduce dateert uit de begin jaren van deze eeuw is het pas jaren later als Big Data technologie aangemerkt. Hoe komt dit?

Wanneer we verder kijken naar het Wikipedia artikel dan zien we dat de overgrote meerderheid van de referenties die zijn gebruikt dateren van na 2010. Dit komt wellicht doordat in het voorjaar van 2011 het gerenommeerde bureau McKinsey het rapport “Big data: The next frontier for innovation, competition, and productivity” uitbracht. Hiermee werd een technisch en abstract iets (data uit computernetwerken) in één klap salonfähig gemaakt. De term Big Data is met het verschijnen van de publicatie van McKinsey mainstream geworden in veel directiekamers. Het Big Data fenomeen was geboren en kwam uit de pen. Sindsdien duikt de term overal op in online publicaties, journaals, tijdschriften, kranten enzovoort. De term vertegenwoordigd ook concrete financiële waarde. De Big Data technologie markt werd in 2014 op $16,1 miljard geraamd. Naar verwachting zal deze markt zeer sterk groeien in de komende jaren.

Voor ieder wat wils

De term Big Data dateert dus van eind jaren negentig. De term duidt op de relatieve disbalans die er bestaat tussen de enorme hoeveelheid en complexiteit van data en het gebrek aan adequate verwerkingsmethoden om nuttige informatie uit deze data te kunnen halen. Het fenomeen Big Data zoals we dat vandaag de dag en overal om ons heen zien opduiken komt uit een pen. Het is een onderwerp dat niet alleen is voorbehouden aan computerexperts en trendwatchers. Big Data mag ook besproken worden in directiekamers, door journalisten en zelfs in het politieke debat (al was het maar vanwege de onthullingen over de praktijken van inlichtingendiensten).

In de volgende bijdrage zal ik verder ingaan op de risico’s die spelen bij het verkeerd aanpakken van een Big Data project.


GuidOnline levert u de juiste architectuur voor uw Big Data projecten

Wilt u weten hoe u op de juiste manier met Big Data aan de slag gaat? U leest hier hoe GuidOnline u kan helpen om uw vragen op het gebied van Big Data te vertalen naar concrete oplossingen die waarde hebben voor uw organisatie.