Big data en Hadoop – management overview

1 Wist ik al2 Leuk om te weten3 Kan ik echt wat mee4 Interessant voor vakgenoten5 Heeft mij inzicht gegeven Waardeer deze post - klik op de sterren (2 votes, average: 5,00 out of 5)
Laden...
Print Friendly, PDF & Email

 

Door Sander Lenselink

Als er over big data en Hadoop wordt gesproken dan gaat het vaak over twee uitersten. Of het zijn algemene populaire verhalen. Of het gaat alleen over de techniek en ben je na twee regels al het spoor bijster. Deze post slaat een brug en wijst je als management op de mogelijkheden en keuzes die moeten worden gemaakt. Onlangs volgde ik webinar Taming the Beast: Extracting Value from Hadoop en werd hiervoor op het spoor gezet. Dat seminar was een positieve verassing. Voor mijn analysewerk gebruik ik vaak Rapidminer. De founder van deze tool (Ingo Wierswa) was een van de pannelleden en schetste als geen ander het hele big data Umfeld. De insteek is enigszins vanuit de data analyst maar zeker veel breder toepasbaar.

2LVW big data - Hadoop
Tijdens het webinar werden valkuilen en hobbels gesignaleerd en besproken waar je met big data tegenaan kunt lopen. Big data en Hadoop is geen plug & play. Anno 2015 staat het nog behoorlijk in de kinderschoenen en wordt slechts door een enkeling volledig doorgrond. Desondanks komen als management vragen op je af waarop je toch een antwoord moet geven. Omdat ik zelf bij opdrachten vaak een brugfunctie heb tussen de business en de techniek deel ik graag een aantal actuele thema’s die je als management moet weten.

Eerst even kort mijn persoonlijke achtergrond met big data . . .  De afgelopen tijd heb ik me er grondig verdiept en de bijbehorende analyse tools. Een course die ingaat op het (bijna) hele big data ecosysteem is “Hadoop and Big Data Technologies” van Eduonix. Ik heb me er behoorlijk op verkeken hoeveel tijd me het kostte om de hele course te doorlopen. De lessen volgen valt nog wel mee maar om een eigen Hadoop-omgeving en tools te configureren is geen sinecure. 2LVW - rapidminerRegelmatig liep ik tegen problemen aan omdat er inmiddels weer updates waren en de user interface heel anders was geworden. Diverse keren verzuchtte ik “… waar ben ik aan begonnen”. Ik denk dat me zeker een 200 uur kostte maar het was zeker de investering waard.

#1 Hadoop en Data Lakes

Kort gezegd is Hadoop het onderliggende systeem voor big data. De kenmerken van big data zijn dat er heel veel bronnen zijn waar de data van afkomstig is. En natuurlijk de immense hoeveelheid gegevens en de continue stroom van data (denk aan Internet of Things). Om structuur in al die data aan te brengen wordt sommige informatie in een Data Lake of anders gezegd een ‘verzamelbak’ opgeslagen. Niet alle data is immers even interessant.

2LVW - HadoopMen spreekt vaak over een Data Lake Architecture. In ieder geval aanbieders van software noemen het een architectuur. Vanuit technisch oogpunt is dat zo maar als je naar de data kijkt die in deze Data Lakes is opgeslagen dan is die vaak behoorlijk ‘messy’. In de praktijk groeien Data Lakes explosief; vaak onder het mom van ‘laten we de data maar bewaren want misschien hebben we het ooit nog eens nodig’. Niemand weet precies welke data is opgeslagen of begrijpt de datastructuur en hoe de relaties van de data zijn gedefinieerd.

Daarom is de kernvraag voor het management ‘Wat wil je met de data gaan doen?’. Dat hoef je niet uiterst gedetailleerd te weten maar heb wel het hoofddoel helder.

Een valkuil is de zgnd. ‘granularity‘. Een nogal moeilijk begrip wat ik vertaal met ‘gedetailleerdheid’. Met big data beschik je over veel meer detail-informatie dan voorheen. Had je vroeger een rapport met omzetgegevens per doelgroep, nu beschik je over de gegevens per klant, per transactie, per kanaal, per periode etc. Als je ondoordacht alles opslaat (het kost toch bijna niets om te bewaren) beschik je wel over veel data maar wat heb je er aan? Die granularity / gedetailleerdheid heeft veel effect op je analyse en business intelligence. Het voorbereiden voordat je kunt gaan analyseren is veel complexer. En ook zal de data analist je vragen welke informatie je nu precies verwacht.

Dus . . . het dumpen van data in Data Lakes met de hoop dat je het misschien ooit nog eens kunt gebruiken is niet de goede strategie. De data governance en data quality is dan ver te zoeken. De clou is hoe je ‘value’ realiseert met je data (online, mobile, social en internet-of-things) in je Data Lakes. En die managementvraag is van alle tijden.

#2 Obstakels bij implementeren

Hadoop is gratis maar verkijk je niet op de implementatie. Dat is werk van specialisten en duurt vaak veel langer dan gedacht. Gewenning aan de ‘ouderwetse’ gebruiktersinterface van Hadoop zullen data scientist en andere gebruikers direct opvallen. Maar dat is niets vergeleken met het ‘afbreken’ van de silo’s in de organisatie of het nu gaat om het vrijgeven van data of het samenwerken tussen afdelingen en divisies.

20150825_management_hadoop11Om big data en Hadoop te temmen heb je andere tools nodig dan die tot nog toe worden gebruikt. Je moet een behoorlijke programmeur zijn om data uit het Hadoopsysteem te krijgen. Scripts zijn complex en je command line werpt je terug in de tijd. Bovendien, analisten willen data analyseren en geen tijd verdoen met systeemtechnische zake n.

Wat betreft de gebruikersinterface . . . . iedereen is bekend met de gebruikersinterface van Windows. En velen denken dat elke computer op die manier werkt. Helaas. Om elementaire instructies aan je systeem te geven moet je vaak terug naar de command line. Ook in het geval van Windows (cmd of opdrachtpromt, zie afbeelding) en zeker als je met Linux werkt. En dat is allemaal heel onhandig. Zo langzamerhand zijn er wel grafische interfaces beschikbaar binnen het Hadoop ecosysteem (Hortonworks of Cloudera) maar deze zijn nog lang niet allesomvattend. Zo werkt Hadoop met een anderen bestandsstructuur dan Windows of Linux (dat moet ook wel omdat big data en Hadoop over vele andere systemen verspreid zijn). Om data van het ene naar het andere filesysteem te verplaatsen, is veel gedoe. Hortonworks neemt dat enigszins uit handen maar je moet goed weten wat je doet.

Verder moeten je je bewust zijn van de security van Hadoop. Alles loopt daarbij via het internet met alle risico’s van dien.

#3 Realtime verwerking

2LVW - big data en hadoopBij tweederde van de big data projecten is de snelheid van de verwerking kritisch. Daarbij gaat het bij de helft van die projecten om realtime verwerking en de andere helft om de data in ieder geval snel te verwerken. Realtime is bijvoorbeeld noodzakelijk bij beveiliging of in productieprocessen. Je hebt er dan niets aan om een dag of uur later te worden geinformeerd, je moet het gewoon nu weten.

Realtime verwerking stelt hoge eisen aan de systeemarchitectuur. De verwerking van grote hoeveelheden data vindt tegenwoordig vaak plaats ‘in memory’. Oftewel in het geheugen van de computer. Dat is omdat bewerkingen in het geheugen veel sneller gebeuren dan wanneer ze zoals vroeger op je harde schijf stonden en tijdens de verwerking continue van schijf naar het interne geheugen heen en weer worden getransporteerd. Analyse tools zoals SPSS, R, SAS of Rapidminer zijn dan ook geheugenvreters. Ook wanneer met bijvoorbeeld Oracle wordt gewerkt, zijn de systemen ook royaal voorzien van intern geheugen.

2LVW - big data en HDFSHet idee bij big data en Hadoop is dat alle data verspreid ligt over soms wel honderden servers. Als je die data wilt gaan analyseren dan kun je die data eerst naar je toe halen en ‘in memory’ verwerken. Ook al beschik je over snelle internetverbindingen, het kost heel veel tijd om al die data naar je toe te halen. Eén van de kenmerken van Hadoop is dat de data decentraal (in het Hadoop-cluster) kan worden verwerkt. Er is een grote regelaar die weet op welke server / computer de data ligt en een instructie geeft wat er gedaan moet worden. En als de data is verwerkt dan worden de resultaten centraal gepresenteerd. Voor die decentrale verwerking is een andere bestandsstructuur nodig en dat is HDFS (Hadoop Distributed File System). Met andere woorden, je moet bij het analyseren er op bedacht zijn dat de systeemtechnische infrastructuur heel anders is dan je gewend bent. Heb je daar als data analist dan mee te maken? Zeker, want er komt veel meer bij kijken dan het knippen en plakken van wat bestanden en je hebt een dataset om te analyseren.

Het is saillant dat nauwelijks bekend is dat je bij Hadoop de data decentraal kunt verwerken. Hadoop wordt meestal geassocieerd met gedistribueerde data-opslag.

Misschien heb je wel eens gehoord van MapReduce? Dat zorgt er voor dat alle data als ze decentraal zijn verwerkt overzichtelijk worden gepresenteerd. En ook het verwerken van de data gebeurt volgens de regels van MapReduce. En dan zit je vaak al ‘diep’ in Java als je met MapReduce werkt en zijn scripting en de command line (zie #1 Obstakels) onvermijdelijk.

#4 Succesvolle Big Data projecten

Wat verwachten we van Big Data projecten? Succesvolle projecten zijn vaak gerelateerd aan ‘top line revenue’ en meer specifiek up/cross-selling, market-basket-analysis en meer inzicht in hoe klanten bediend moeten worden. Successen zijn verder aanwezig bij projecten gericht op kostenreductie en margeverbetering. Projecten die netto resultaat opleveren krijgen de aandacht het “C-level”. Logisch want big data en Hadoop vergen grote investeringen.

2LVW - succesvolle big data projectenDe populaire succesverhalen betreffen grote strategische projecten zoals bijvoorbeeld het voorspellen hoe het verloop is en de geografische bewegingen zijn van een epidemie. Ook kun je denken aan fraude-detectie bij banken en de Belastingdienst of het sentiment hoe het publiek op Facebook of Twitter over een bepaald product, merk of bedrijf spreekt (text-mining).

Verwacht je van Big Data dergelijke grote strategische doorbraken? In de praktijk komen die zeker voor. Daarentegen blijkt het dat als je Hadoop op operationeel of micro-niveau inzet het veel meer kan opleveren. Dagelijks worden binnen bedrijven en organisaties duizenden kleine Ja/Nee beslissingen genomen, bijvoorbeeld in productieomgevingen. Of in ziekenhuizen om röntgenfoto’s te analyseren of in de marketing om te berekenen een bepaalde klant juist wel/niet korting te geven en in te schatten of een klant wegloopt. Daar ligt vooralsnog de grootste waarde van Big Data dat de onderliggende data snel kan worden geanalyseerd en afwijkingen (anomalies) worden geconstateerd.

Ergo, succevolle big data en Hadoop-projecten zien we zowel aan de omzet als ook de kosten/marge kant. Maar het moet wel onder de streep geld opleveren. Daarbij gaat de meeste focus uit naar verbetering op de dagelijkse gang van zaken.

#5 Valkuilen

Eerder noemde ik dat Hadoop nog volop in ontwikkeling is. Dat betekent dat er frequent nieuwe releases zijn, is het niet van Hadoop zelf dan wel van andere componenten binnen het framework en ecosysteem. De praktijkervaringen van experts zijn:

  • beperkt de installatie van nieuwe versies tot een minimum
  • heb je een werkend systeem laat het met rust en werk er vooral mee
  • bouw een systeem waar iedereen mee kan werken (een grafische interface en geen command line)
  • jaag niet elke nieuwe tool die uitkomt na. Gebruik wat je hebt
  • zet geen projecten op die vele maanden of jaren duren. Liever resultaten binnen een dag
  • en . . . werk vlgs agile/scrum

Kortom, ga voor het laaghangende fruit, zet kleine stappen vooruit en verdoe je tijd niet met het uitdokteren van nieuwe tools en hoe ze binnen je infrastructuur te implementeren. We hebben bij de grote (overheids)projecten gezien waar dat toe leidt: onbeheersbare projecten, kostenexplosies en projecten die nooit worden opgeleverd.

#6 Omgeving voor Big Data projecten2LVW - big data Hadoop cloud

Big Data projecten hebben meestal ‘cloud resource based’ infrastructuur. Dit in tegenstelling tot de ‘oude’ mainframe-omgeving van weleer die overigens nog volop bestaat. Het is logisch dat big data cloud-based is. Immers de big data ligt op honderden of duizenden servers. Tja, en dat is een echte cloud.

Maar toch . . . je ziet ook dat de verwerking heel traditioneel lokaal gebeurt. En waarom niet? Je hebt lokaal een database / Data Lake en waarom zou je dan ook niet de analyses lokaal uitvoeren? Al dan niet in-memory. En zeker als het om “kleine” bestanden gaat, moet je dat lokaal verwerken (omslagpunt zo’n 100 miljoen datapoints / regels met data). De achtergrond is dat de overhead bij Hadoop enorm is.

#7 Empowering van data

Op vacature-sites worden tegenwoordig nogal wat data scientists gevraagd. Specialisten die alles weten van data formats, SQL, datawarehouses, datalakes, Java, SAS etc etc. Zij weten hoe je al die big data kunt ontsluiten en analyseren. Deze professionals vervullen een wezenlijke rol. Maar nog belangrijker zijn de duizendpoten is een brug kunnen slaan tussen de data scientists en de eindgebruikers van de data. Zij zijn niet bang van techniek (en raken niet geïntimideerd door techneuten). En zij zijn in staat om interactief met de eindgebruiker om te gaan. Zij luisteren en begrijpen het business probleem en zijn als geen ander instaat dat door te vertalen naar de data scientist. Je hebt het dan eigenlijk over de empowering van de data. Een win-win situatie voor iedereen. De eindgebruiker krijgt wat hij nodig heeft en de waarde van data scientist wordt veel groter omdat zijn data er nu echt toe doet!2LVW - big data succesvolle projecten

#8 De waarde van inzicht (monetizing)

Zijn er nu echt succesvolle Big Data projecten? Zeker. In Engeland heeft de BBC samen met Rapidminer een project waarbij realtime wordt geanalyseerd naar welk BBC-programma mensen kijken (de BBC biedt 250 TV-kanalen). Het doel is om te voorkomen dat mensen afhaken en naar een concurrerend kanaal switchen en om persoonlijke reclame te kunnen zenden. Als iemand naar BBC 1 kijkt maar op BBC 2 is een programma dat hij interessanter zou vinden, krijgt de kijken een melding via een app. Daarbij heeft de zender 5 seconden om alle data te analyseren en kijktips te geven. En dat voor 3 miljoen mensen tegelijk. Dat is geen sinecure!

Tot slot . . .
Wat waren voor mij de lessons learned van het webinar Taming the Beast: Extracting Value from Hadoop? Even puntsgewijs op een rij:

2LVW - big data en Hadoop

. . . wij weten nu wel beter

  • weet goed waarom je bepaalde data wilt bewaren
  • het invoeren van big data en Hadoop is een serieus project
  • realtime verwerking biedt veel extra kansen
  • ga bij big data voor het ‘kleine’
  • voorkom hobbyisme om elke nieuwe tool te willen leren kennen
  • big data is cloude-based
  • draag medewerkers die de techniek en de business begrijpen op handen
  • big data leidt tot nieuwe business modellen

 

 

1 Wist ik al2 Leuk om te weten3 Kan ik echt wat mee4 Interessant voor vakgenoten5 Heeft mij inzicht gegeven Waardeer deze post - klik op de sterren (2 votes, average: 5,00 out of 5)
Laden...

, , , ,

2 reacties op Big data en Hadoop – management overview

  1. avatar
    Bob Dekker 25 januari 2017 om 08:36 #

    Leuke blog, goed geschreven.
    Vraagje, mijn oog viel op de course “Hadoop and Big Data Technologies” in de blog Big data en Hadoop – management overview. Kunt u mij vertellen of de inhoud nog actueel is. Heb zelf een hortonworks hadoop draaien, sluit dit enigszins aan?
    Hoor graag van u. Bob Dekker

    • avatar
      Sander Lenselink 25 januari 2017 om 08:47 #

      Dag Bob,
      ik heb de course “Hadoop and Big Data Technology” in de loop van 2015 gedaan. Toen had ik al regelmatig problemen dat versies niet meer op elkaar aansloten. Nu bijna twee jaar verder is dat nog meer zo. Onlangs installeerde ik bijvoorbeeld Hortonworks opnieuw en het was compleet anders. Vroeger was het erg handig dat je in Horton via een bestandsbeheerssysteem (zoals bij windows) files makkelijk kon verhuizen van het HDFS-bestandssysteem naar Ubuntu en vice versa. Dat is er niet meer.

      Ondanks de handicaps van nieuwe ontwikkelingen en verschillende versies heb ik van de course heel veel geleerd. Juist in de problemen zitten je echte leermomenten.

      Als ik het goed heb, hoef je Horton anno 2017 niet meer op Hadoop te implementeren. Dat doet Horton zelf. Heel handig als het werken je met Horton en bijv Pig / Hive je doel is. Maar wil je meer weten van de onderlinge techniek dan zul je toch de diepte moeten ingaan met een dergelijke course.
      TIP: kijk eens http://www.coursera.org, dat zijn prima betaalbare courses

      Als je een keer telefonisch wilt sparren, laat even weten

      -Sander

Geef een reactie

2LVW online marketing & business analytics