Big Data – beste analyse tools

1 Wist ik al2 Leuk om te weten3 Kan ik echt wat mee4 Interessant voor vakgenoten5 Heeft mij inzicht gegeven Waardeer deze post - klik op de sterren
Loading...

Door Sander Lenselink

De afgelopen tijd heb ik me grondig verdiept in Big Data en de bijbehorende analyse tools. Een course die ingaat op het (bijna) hele big data ecosysteem is “Hadoop and Big Data Technologies” van Eduonix. Ik heb me er behoorlijk op verkeken hoeveel tijd me het kostte om de hele course te doorlopen. De lessen volgen valt nog wel mee maar om een eigen Hadoop-omgeving en tools te configureren is geen sinecure. Ik denk dat het me een kleine 200 uur heeft gekost maar is zeker de investering waard. Zeker achteraf want als ik weer eens tegen problemen aanliep omdat er inmiddels weer updates waren en de user interface heel anders was, verzuchtte ik regelmatig “… waar ben ik aan begonnen”.

Juist omdat het me veel tijd heeft gekost, deel ik graag mijn leermomenten en ervaringen. Voor één blog is dat veel te veel. Daarom in deze post de focus op de analyse tools.

Het is goed om even terug te gaan naar de kern: wat is big data? Voor mij is big data (1) veel data, (2) data die op honderden of duizenden servers staat en (3) een mix van gestructureerde, semi-gestructureerde en ongestructureerde data. De combinatie van deze drie aspecten maakt big data complex en noodzaakt een dedicated software infrastructuur. En dat is Hadoop.2LVW - big data / mapreduce

Zwart/wit gesproken heb je als big data analyst niets met Hadoop van doen. Als je met SPSS, SAS of R werkt dan hoef je je ook niet om Windows of Linux te bekommeren. En toch is dat bij big data en Hadoop niet helemaal zo. Je moet veel meer weten hoe je data is gestructureerd cq hoe je je data moet prepareren om te kunnen analyseren.

Het probleem met Hadoop is dat het zeer complex is en werkt via scripting en de command line. Maar gelukkig zijn er shells zoals Coudera en Hortonworks die het leven eenvoudiger maken. Vergelijk het met een grafische interface bij Linux of Windows. Het mooie van Cloudera en Horton is dat er automatisch tools worden bijgeleverd die je anders zelf zou moeten installeren.

Analyse tools

Bij big data kan de data gestructureerd, semi- of ongestructureerd zijn. Simpel gezegd is gestructureerde data een tabel met rijen en kolommen zoals een Excel-bestand. Ongestructureerde data zijn bijvoorbeeld tweets of een email. Maar het kunnen ook foto’s zijn of voicemailberichten zijn die al dan niet naar tekst zijn omgezet. Dus niet simpel in rijen en kolommen i2LVW - big data Hiven te delen. Bij semi-gestructureerde data is er enige structuur maar de indeling is bijvoorbeeld “rommelig” omdat er geen strikte scheiding tussen de velden is. Kortom, met de bekende analyse tools zoals SQL of SPSS kun je alleen iets met gestructureerde data.

Je kunt je voorstellen dat als je big data verspreidt staat over honderden of duizenden servers, ook al is alles mooi gestructureerd, je toch nog een aantal slagen moet maken voor dat je kunt gaan analyseren. Dat komt omdat het file system van Hadoop heel anders is dan op je PC of laptop. Maar ook hier brengen Cloudera of Hortonworks uitkomst. Je merkt daar niets van de verschillende file systemen.

Kort gezegd is HIVE de tool om gestructureerde big data te analyseren. De syntax lijkt heel veel op de query-taal SQL. En je zou er ook voor kunnen kiezen om je tabellen vanuit Cloudera in MySQL of MsAccess te importeren. De grootste uitdaging is om een consistente dataset te maken. Niet eenvoudig maar op dat punt is big data niets bijzonders.

MapReduce

Met MapReduce kun je alle typen data analyseren. De keerzijde is dat het heel basic is. Je kunt eigenlijk alleen met MapReduce uit de voeten als je de nodige (lees ve2LVW - big data Pigel) ervaring hebt met Java. Als je dat niet hebt . . . blijf er van uit de buurt. Een ander nadeel van MapReduce is dat er heel veel code-regels nodig zijn, zelfs om eenvoudige instructies uit te voeren. Dat komt omdat het zo basic is. Maar met MapReduce kun je wel weer ongestructureerde data analyseren.

Inmiddels is er een tool die de bezwaren van MapReduce tegemoet komt. En dat is “Pig”. De syntax van deze tool lijkt enigszins op SQL. Wat Pig feitelijk doet is MapReduce-code genereren. Voor een deel kun je dus de moeilijkheden van MapReduce ontlopen door Pig te gebruiken. Maar met Pig kan niet alles wat met MapReduce mogelijk is. Met Pig maak je betrekkelijk eenvoudig van semi-gestructureerde data gestructureerde data die je dan met Hive of MySQL verder kunt analyseren. Of met Pig zelf dat uitgebreide data-manipulatie en statistiek commando’s bevat.

Van Pig wordt wel gezegd dat het een “alles-eter” is. Net als een varken. Pig kan vele data formats aan (maar niet alle). Het is een heel krachtige tool.

Goudmijn onder de motorkap

2LVW - big data digitalBig data is onlosmakelijk verbonden met Hadoop. Het is de motor van big data. En net zoals bij een auto zijn de meeste mensen nauwelijks geïnteresseerd wat er onder de motorkap gebeurt. Om te kunnen autorijden heb je aan een stuur, rem en gaspedaal voldoende. En zo zou het ook moeten zijn met big data dat je aan tools zoals Hive of Pig voldoende hebt.

Echter, in mijn visie bevinden we ons met big data op hetzelfde nivo als in de absolute beginjaren van het computertijdperk. Met Hive of Pig ben je er lang niet. Om dieper in de data te duiken (data-mining) heb je gevavanceerde statische software nodig. 2LVW - big data goudmijnDie weer geïntegreerd zijn met databronsystemen. En wat te denken van IoT (Internet of Things) waarbij er een continue stroom van data is. En dat is bij elkaar genomen soms het frustrerende maar ook uitdagende dat er onder de motorkap heel wat gebeurt en dan is de output een klassieke tabel met rijen en kolommen die dan weer met SPSS of R moet worden geanalyseerd.

Als je je dat allemaal realiseert dan maken we als mensheid toch wel een stap. Want die vele bronnen van data leiden wel tot meer inzicht en betere voorspellingen. En dan is het niet meer zo raar dat in een theater ouderen vaak jeugdvoorstellingen bezoeken. Vooraf bedenk je dat verband niet. Achteraf een open deur van jewelste (opa/oma’s met kleinkinderen naar Kabouter Plop en Nijntje) maar wel een waarmee je het toekomst bezoek beter kunt inschatten. Kortom, big data biedt nieuwe inzichten en business opportunities.

Alles tools kort samengevat:

MapReduce Hive Pig
ongestructureerde data x
semi-gestructureerde data x x
gestructureerde data x x

Voor statistische software zoals SPSS, SAS, R of Rapidminer zijn er koppelingen om big data te verwerken en analyseren.

 

1 Wist ik al2 Leuk om te weten3 Kan ik echt wat mee4 Interessant voor vakgenoten5 Heeft mij inzicht gegeven Waardeer deze post - klik op de sterren
Loading...
Nog geen reacties.

Geef een reactie

2LVW online marketing & business analytics