Big data en Hadoop – wat je beslist moet weten

Waardeer deze post - klik op de sterren (11 votes, average: 2,91 out of 5)

Laden...

Door Sander Lenselink over Big-data

Door Sander Lenselink

Wat is big data? Volgens Wikipedia en de GartnerGroup gaat het om
(1) de hoeveelheid data,
(2) de diversiteit en
(3) de snelheid waarmee de data wordt opgevraagd.

Een voorbeeld . . . denk aan de zoekresultaten bij Google. Je kunt je voorstellen dat de hoeveelheid data bij Google immens is. En ben je soms ook niet verbaasd dat als je iets zoekt je direct de zoekresultaten krijgt? En die zoekresultaten bevatten links naar andere webpagina’s, artikelen in PDF en afbeeldingen. Als je daar over nadenkt dan is het een wonder. En zie je snel in dat daar een hele architectuur achter zit.

Google en Yahoo zijn dan de voortrekkers over big data. Is marketing (net zoals bij mij) je achtergrond, dan weet je dat alle zoekvragen en clicks bij Google ons veel vertellen over de bezoekers. Als je dat combineert met de email van iemand bij Gmail en zijn/haar accountgegevens, dan kleur je een persoonsprofiel nog verder in. Ook Facebook en LinkedIn hebben erg veel data over ons als bezoekers. En ook banken, retailers en supermarkten weten het nodige van jou en mij.

En zie daar . . . er wordt volop gepraat en geschreven over welke kansen big data voor marketeers biedt. Stel: jij bent marketeer bij een groot bedrijf met veel data, dan gaat het vroeg of laat kriebelen dat je iets met die data wilt gaan doen. Dat is makkelijker gezegd dan gedaan. Want waar moet je je vraag neerleggen? Bij de ICT-divisie of de afdeling Marktonderzoek of bij een CRM-collega? De kans is groot dat je vastloopt. Wat je wilt moeilijker is dan gedacht als je de wereld van big data en data-anlytics kent.

Eerder dit jaar bezocht ik een bijeenkomst over big data van KPN/Cmotions. Hoewel ik het nodige van ICT, internet en databases weet, ging er toch een hele wereld voor me open. Eén begrip stond nogal centraal: Hadoop. In mijn aantekening lees ik terug dat het werd beschreven als “een centrale server die data uit verschillende kleine servers haalt”. Alternatieven zijn Mahout, Weka en Revolution analytics. Iedereen klapperde met zijn oren. Waren we wel op het goede seminar? Ja, wel degelijk en het geeft aan dat je je horizon als marketeer flink moet verbreden als je iets met big data wilt doen.

Big-data en Hadoop

Ik ben me in de materie van big data en Hadoop gaan verdiepen en dan is de essentie minder complex dan gedacht. In ieder geval wat je er als marketeer van moet weten.

Laten we terug gaan naar het eerdere voorbeeld van de hoeveelheid en de diversiteit van data bij de zoekmachine van Google. Zou Google in de VS een supercomputer hebben staan waarin alle zoekresultaten zijn opgeslagen en alles wordt bijgehouden? In de begintijd was dat misschien zo. Feitelijk heeft Google haar data verspreid over honderden en misschien zelfs duizenden computers over de gehele wereld. Deels heeft dat een kostenmotief omdat door standaardisatie kleinere ICT-systemen veel goedkoper zijn dan één of enkele supercomputers. Ook zou een supercomputer snel dichtslibben en traag worden. En is het je ook nooit opgevallen dat Google altijd beschikbaar is? Dat alles kun je alleen met een gedecentraliseerd computernetwerk bereiken. ECHTER . . . hoe beheer je zo’n netwerk waar zulke hoge eisen aan worden gesteld? Het antwoord is met MapReduce, zie dat als het besturingssysteem van dat gedecentraliseerde computernetwerk. Google heeft MapReduce voornamelijk zelf ontwikkeld. Je kunt je voorstellen dat MapReduce een heel erg technisch systeem is waar alleen zeer gespecialiseerde softeware engineers bij Google mee werken. Er zijn maar weinig bedrijven en organisaties die dat ook kunnen. Omdat MapReduce ook als open source systeem beschikbaar was is dat door Yahoo, Facebook, Linkedin, Netflix e.a. geschikt gemaakt voor een brede inzetbaarheid en omgezet naar een Apache- en Java-omgeving. En binnen die omgeving heet het systeem Hadoop.

Leuk om te weten is waar de naam Hadoop vandaan komt. Een van de ontwikkelaars die het systeem geschikt gemaakt heeft voor Apache/Jave is Doug Cutting. Zijn zoontje had een speelgoed olifant en die heette Hadoop.

Hoe werkt Hadoop?

Big data is onlosmakelijk verbonden met Hadoop. Daar moeten we dan wat meer van weten. Hadoop bestaat uit een drietal zngd. nodes:

master node(s)
Er is/zijn in het hele netwerk één of hooguit een paar master nodes. Dit zijn de grote verkeersregelaars voor de data nodes en worker nodes. Omwille van een grote betrouwbaarheid zijn er vaak meerdere master nodes die elkaar synchroniseren.
data nodes
Hier wordt zowel gestructueerde (bijvoorbeeld tabellen) en ongestructureerde data zoals tekstberichten en afbeeldingen opgeslagen. Die data wordt op een speciale manier opgeslagen (HDFS: Hadoop Distributed File System). Immers er moet goed worden bijgehouden waar welke data wordt bewaard.
worker nodes
Hiervan zijn er vaak honderden tot duizenden en zij analyseren de data. Worker nodes krijgen hun opdrachten van een master node.

Met het voorgaande in ons achterhoofd weten we als marketeers voldoende als je collega’s het over nodes, Hadoop en MapReduce hebben.

Oeps . . . dwalen we nu niet af want we wilden vanuit marketing toch iets met big data gaan doen? Ik denk dat het goed is om de essentie van Hadoop te begrijpen. En dat is dat het primair bedoelt is als netwerkbeheersysteem. En zoals Google zoekresultaten weergeeft zo kun je met Hadoop ook data-output genereren. Hadoop is echter geen analyse tool. Daarvoor ben je aangewezen op tools zoals SPSS, SAS en Rapidminer. Voor het genereren van data-output is Hadoop een onhandig command-line systeem. Daarom wordt vaak Radoop geïmplementeerd, een grafische interface voor big data op Hadoop. En het andere mooie: een koppeling met Rapidminer. En daarmee komen we meer op het bekende terrein van analyse en marketing.

Een van de gebruikersvoordelen van Hadoop is dat alle data niet gedownload hoeft te worden naar het systeem waarop je de analyses uitvoert. Hadoop kan gedecentraliseerd data analyseren. Bij big data is dat een enorm voordeel om het meestal om grote hoeveelheden data gaat. Die decentrale verwerking is eigenlijk heel logisch omdat Hadoop een netwerkbeheersysteem is en werkt met distributed servers.

Radoop

Big data wordt anno 2014 veel omgeven door mystiek, complexiteit en veel fantasie. Voor een groot deel is dat ook terecht maar door de techniek achter big data te begrijpen wordt de mystiek al een heel stuk minder. De complexiteit wordt ook minder omdat je nu weet dat data-infrastructuur wordt opgevangen door systemen zoals Hadoop. Ontegenzeglijk blijft het complex ook met geavanceerde tools zoals Radoop, Rapidminer of SPSS om analyses uit te voeren en inzicht te verschaffen. Maar goed opgeleide marketeers hebben voldoende bagage om dit te doorgronden.

Het is overigens soms de vraag of je wel van grote datasets zoals bij big data gebruik moet maken. Bijvoorbeeld bij text-mining of fraude-detection bevatten de meeste cases/examples geen relevante informatie. Fraude is eerder uitzondering dan regel en bij text-mining zijn de meeste cellen leeg, omdat berichten veel verschillende tekst bevatten. Het heeft dan geen zin om complexe infrastructuren te bouwen met Hadoop e.d.

Blijft over de fantasie. Ook bij big data moet je een idee hebben wat en waarom je iets wilt uitzoeken. Je vermoedt bepaalde verbanden, of denkt dat een bepaalde clustering je meer inzicht geeft of klanten in bepaalde groepen indelen (classification) bijvoorbeeld om te voorspellen of een klant een potentiële afhaker of opzegger is. Het is maar zelden dat willekeurig iets onderzoeken tot zinvolle resultaten leidt. Het verband tussen bier en luiers of tuinmeubelen en wonen in een flat zijn vaak genoemde ontdekkingen. Een eigen ervaring is dat in een theater kinder- en jeugdvoorstellingen vaak door ouderen worden geboekt (grootouders die met kleinkinderen naar theater gaan). Maar daar kwam geen big data aan te pas en bleek uit een aantal frequentieoverzichten. Vervolgens zoom je dan wel in om het zeker te weten. De fantasie blijft maar wel in de zin van scherp analyseren.

Heeft big data toekomst? Ik denk absoluut van wel:

data-explosie;
alles wat vastgelegd kan worden wordt geregistreerd
snelheid;
we willen alles NU weten
emancipatie van de consument;
voor leveranciers worden klanten transparant, begrijpbaar en gelijk
kosten;
prijzen van hardware, software en systemen dalen
kansen;
haal je nog moeilijk uit het ‘grote idee’ maar veelmeer uit het optimaliseren van kleine stapjes
relevant zijn;
cusotmer-experience begint bij relevante informatie

Een heel verhaal. Big data is ook erg groot. Er is nog veel te ontdekken. Marketing en marketeers zijn nu aan zet.

Interessante links:

http://rapidminer.com/resources/hadoop-rapidminer-big-data-action/

http://www.radoop.eu/

Waardeer deze post - klik op de sterren (11 votes, average: 2,91 out of 5)

Laden...

Big data, Hadoop

Navigatie