Insight #4: big data – tips uit de praktijk

1 Wist ik al2 Leuk om te weten3 Kan ik echt wat mee4 Interessant voor vakgenoten5 Heeft mij inzicht gegeven Waardeer deze post - klik op de sterren
Laden...

Door Sander Lenselink

Wat is de dagelijkse praktijk van Big Data? Hoe begin je en wat levert het op? In deze post gaan we daar op in.

Een van de grootste uitdagingen is hoe je Big Data op de agenda van de directie krijg. Natuurlijk is de board zich bewust van de ontwikkelingen. Big Data biedt kansen en niets doen zet de deur open voor de concurrentie. 20150917_bigdata_praktijk3Maar wat is nu de business case en welke waarde kunnen we verwachten? En dat is moeilijk beantwoorden. Want bij Big Data ben je opzoek naar het onbekende. Het gouden advies is hier: ‘start small’.

Zeker in corporate-organisaties zijn er projecten om de mogelijkheden en problemen bij de invoering van Big Data te leren onderkennen. Een van de eerste ideeen vanuit ICT is vaak een Hadoop-cluster te bouwen. Immers, daar praat de hele wereld over. Bestaande leveranciers zullen ongetwijfeld ook wijzen op de oplossingen die zij hebben maar mijn gevoel is dat daar niet primair door bedrijven naar wordt gekeken.

2LVW - Big Data OracleBij het opzetten van een Hadoop-cluster zijn er heel wat uitdagingen. Als organisatie moet je alles zelf configureren, hardware afstemmen, training en scholing van engineers. En als dat allemaal operationeel wordt dan worden aspecten zoals security en governance heel belangrijk. Met een open source omgeving zoals Hadoop moet je dat allemaal zelf organiseren. In de praktijk blijkt dat alles een kostbare zaak te worden. En dan kunnen commerciële oplossingen zoals Oracle Big Data Appliances of databases zoals van MarkLogic interessant worden. Leveranciers nemen je dan veel werk uit handen en bovendien met een veel lagere TCO (total cost of ownership).

Analytics

2LVW - MarkLogic NoSQL

Voor data analisten doet het er niet veel toe of zij werken met een Hadoop-stack, Oracle of MarkLogic. Hun opdracht is om uit te vinden waar de verborgen schatten in de data liggen. Een misvatting is dat analisten dan software engineers e.d. zijn. Niets is minder waar. Een goede data analist is een ‘business thinker’ met een gedegen ICT-achtergrond. En . . . vooral iemand met een business-orientatie.

Wat betreft de tools die data scientists gebruiken hoor je steeds vaker dat hiervoor de klassieke tools worden gebruikt cq dat dat de wens is. Oftewel SQL, SPSS, R, RapidMiner etc. De reden is dat men bekend is met deze tools, er op vertrouwd en interfaces hebben voor Big Data.

Value

Zoals gezegd ‘start small’ om groen licht van de board te krijgen. In de praktijk zie je  twee gebieden waar Big Data haar waarde kan bewijzen:

  • churn prediction
    Oftewel het voorspellen van het opzeggingen door klanten. Zo geeft de Persgroep *)  aan dat zij met een betrouwbaarheid van 92% kunnen voorspellen dat een klant wil afhaken. De voordelen van churn prediction werken niet alleen door op de omzet maar door meer klanten vast te houden worden (overhead)kosten beter gedeeld, de capaciteit van machines beter benut etc.
  • new products
    Bijvoorbeeld de Persgroep heeft hierbij ontdekt dat de behoeften aan informatie op de website verschilt of het morgen, middag of avond is. Met die wetenschap biedt de website aangepaste informatie. Een open deur en heb je daar Big Data voor nodig? Zeker, maar nog meer behoefte is er dan aan analytics. Want je kunt wel iets vermoeden maar zeker weten is heel wat anders. En zeker is het een uitdaging uit te vinden aan welke informatie dan behoefte is en om data operationeel voor elkaar te boksen.

Datawarehouse vs Hadoop20141016_bigdata0

Grote organisaties beschikken veelal over een Datawarehouse (DWH) of Datalakes. De vraag is hoe zich dat verhoudt tot Big Data en Hadoop. Een DWH is eenvoudig gezegd een speciale database met data die van allerlei systemen van het bedrijf afkomstig is. Enkele redenen waarom een DWH wordt gebouwd zijn dat de operationele processen niet mogen worden verstoord omdat bijvoorbeeld die traag worden bij analyses. In een DWH kunnen al die verschillende operationele systemen veel makkelijker met elkaar worden verbonden en de verwerking van data gaat veel sneller omdat het een dedicated database is.

De business implicatie van een DWH is dat een DWH data bevat voor de beantwoording van bestaande problemen en vragen. Bijvoorbeeld welke klanten een bepaald product hebben gekocht in een bepaalde tijdsperiode vergeleken met een jaar daarvoor. Een simpele vraag maar in de praktijk moeilijk te beantwoorden (bijvoorbeeld omdat afgelopen jaar het bedrijf een ander systeem in gebruik heeft genomen). Met Big Data en Hadoop ben je opzoek naar het onbekende. Denk eens aan ‘churn prediction’. Wat zijn gebeurtenissen waaruit je kunt opmaken dat klanten overwegen op te zeggen? Misschien zoeken zij op de website naar de algemene voorwaarden, bezoeken de website minder of juist vaker, hebben telefonisch klachten geuit etc etc. Op voorhand kun je daar weinig over zeggen. Daarom bouw je voorspelmodellen en kom je uiteindelijk tot een combinatie van factoren waarbij zeker bent dat klanten op het punt staan om af te haken

Het is dus niet de vraag DHW versus Hadoop. Het is beiden en dat beide systemen elkaar aanvullen.

Als je helemaal tot de kern terug gaat dan is het vasthouden van klanten en ontwikkelen van nieuwe producten van alle tijden. Met dat verschil dat we beter dan ooit in staat zijn om hiervoor oplossingen te ontwikkelen. Kortom, ‘old problems, new technology’.

*) volgens een Big Data webcast van Oracle (alleen voor klanten en relaties van Oracle toegankelijk)

1 Wist ik al2 Leuk om te weten3 Kan ik echt wat mee4 Interessant voor vakgenoten5 Heeft mij inzicht gegeven Waardeer deze post - klik op de sterren
Laden...

,

No comments yet.

Geef een reactie

2LVW online marketing & business analytics