marketing intelligence voor managers – data science proces

Marketing Intelligence voor Managers – Het Data Science Proces


Pg, 2

Deze blog is onderdeel van de themareeks ‘Management & BI’. De themareeks is bedoeld voor

managers die wat meer willen weten over Business Intelligence, maar dan alleen de essentie, in

begrijpelijke taal en zonder alle technische termen en hypes.

Wat voor activiteiten gaat de data scientist - zoals ik die vorige week heb beschreven - nu eigenlijk

uitvoeren? Welke proces wordt er typisch binnen data science uitgevoerd?

Deze blog gaat eens wat dieper in op het data science proces, zodat je daar een beeld van kunt

vormen.

Introductie

Data science is voor een groot deel een ‘trial and error’ proces, omdat je van tevoren gewoonweg

niet alles kunt voorzien. Het lukt misschien niet om meteen de juiste data te vinden en als je data

vindt kan het zijn dat deze bijna onbruikbaar is door vervuiling. Bij het zoeken naar verbanden of

structuren is het mogelijk dat je wel tientallen modellen moet onderzoeken om er uiteindelijk één te

vinden die het beste aansluit bij jouw data (en vraagstelling). Misschien blijkt het dat je


Pg, 3

algoritmes nodig hebt die nog niet bestaan. Die moet je dan eerst samenstellen uit allerlei

informatie die je bij Stack Overflow of Rbloggers inwint.

Ook al is het proces zo onvoorspelbaar en zullen er onvermijdelijk fouten gemaakt worden die

leervermogen en volharding vereisen, uiteindelijk zijn er wel een aantal distincte activiteiten te

onderkennen.

Stap 1. Van vraag naar onderzoeksmodel

De data scientist start altijd met het opzetten van een onderzoeksmodel. De gestelde vraag moet

worden vertaald naar een model waarin de gebruikte concepten en onderzoeksvragen goed zijn

gedefinieerd. Hieruit leid je door operationalisatie de afhankelijke en onafhankelijke variabelen en

hypotheses af. Deze stap verhoogt de mate waarin het onderzoek controleerbaar en herhaalbaar is.

Het blijft immers science.

Stap 2. Van raw data naar tidy data

De in het onderzoeksmodel bepaalde variabelen helpen de data scientist beslissen welke data hij

nodig gaat hebben tijdens zijn onderzoek. Met die kennis gaat hij op zoek naar die data, want die


Pg, 4

kan in principe overal vandaan komen. Denk bijvoorbeeld naast interne bronnen ook aan data van

externe partijen zoals Twitter, Facebook, LinkedIn, Webpages, enzovoorts. Daarover lees je meer in

de volgende blog.

Veel werk gaat zitten in het verkrijgen en schoonmaken van data. Vaak is de data die de data

scientist binnenhaalt in ruwe vorm opgeslagen (raw data). Dat kan bijvoorbeeld data uit het

’scrapen’ van een webpage zijn. Hij moet die raw data dan nog op allerlei manieren bewerken om

er nette R-objecten van te maken (tidy data) voordat hij ermee kan gaan werken.

Zonder er formeel dieper op in te gaan - maar om een beetje gevoel te krijgen voor wat ‘tidy’ is -

geef ik hieronder de vaak gehanteerde criteria:

• Elke variabele heeft zijn eigen kolom in de data tabel.

• Elke verschillende observatie moet in een verschillende rij staan.

• Er is één data tabel voor één soort variabele.

• Als er meerdere data tabellen zijn, moeten ze onderling koppelbaar zijn middels een sleutelkolom.

De uitleg van de precieze bedoeling van deze criteria strekt een beetje te ver voor deze blog, maar

ben je geïnteresseerd dan kan ik je deze paper (PDF) van Hadley Wickham aanraden.


Pg, 5

Tidy data is een noodzakelijke voorwaarde voor het starten met het inhoudelijk onderzoeken van

die data. Het proces van raw data naar tidy data moet goed gestructureerd plaatsvinden. Data

scientists gebruiken daar vaak een ‘code book’ voor. Daarin staat bijvoorbeeld:

• Het onderzoeksmodel waarin naast een beschrijving van (de reden voor) het onderzoek, ook staat

aangegeven hoe je de ruwe data hebt gevonden en binnengehaald.

• De data beschrijving (een sectie die soms zelf weer code book wordt genoemd), met daarin een

beschrijving van alle variabelen en eenheden die gebruikt worden, zowel voor de tidy data als

voor de variabelen die niet in de tidy data terecht zijn gekomen.

• Een recept dat aangeeft welke bewerking de data scientist heeft gebruikt om van de raw data,

tidy data te maken, inclusief handmatige stappen en eventuele R- of Python-scripts.

Met behulp van dit codebook zou elke willekeurige data scientist, uit de ruwe data, precies dezelfde

tidy data moeten kunnen genereren. Zie hier de opnieuw de herhaalbaarheid en controleerbaarheid

van ‘science’. Dat dat zinvol is blijkt bijvoorbeeld uit


Pg, 6

Stap 3: Exploratieve Data Analyse

De data scientist zal de uiteindelijk voorbereide tidy data eerst gaan onderzoeken met exploratieve

data analyse. Hiermee kan hij de waarde van de data voor het onderzoek vaststellen. Ook deze

stap kent allerlei statistische analyses. Het kan zijn dat de data scientist toch weer op zoek moet

naar nieuwe, betere databronnen en dus de vorige stap herhaald moet uitvoeren. Maar dat is

allemaal onderdeel van de ‘trial and error’ aanpak binnen het strak omlijnde onderzoeksmodel. Ook

hier zie je de volhardendheid van de data scientist terugkomen.

Stap 4. Het onderzoek uitvoeren

Uiteindelijk heeft de data scientist de juiste tidy data en kan het werkelijke onderzoek zoals gesteld

in het onderzoeksmodel beginnen. Het uitvoeren van het ten principale reproduceerbare onderzoek,

behelst zaken als statistical inference, regressiemodellen, machine learning en het ontwikkelen van

data producten. Alles om de hypotheses in het model te onderzoeken. In principe kunnen uit dit

onderzoek weer redenen ontstaan om terug te keren naar nieuwe of betere databronnen en dus de

iteratie van voorgaande stappen, waarbij het codebook natuurlijk navenant wordt bijgewerkt.


Pg, 7

Vaak is het zo dat allerlei modellen en algoritmes experimenteel worden toegepast en weer

verworpen voor nieuwe modellen. Dat is een repeterend proces totdat de juiste, best aansluitende

modellen bepaald zijn, waardoor de data scientist tot een sluitend, betekenisvol

onderzoeksresultaat kan komen. Ook hier is vindingrijkheid en volhardendheid een vereiste.

Stap 5. Resultaten presenteren

Het presenteren van de onderzoeksresultaten kan in allerlei vormen. Veelal zullen hierbij ‘plots’

gebruikt worden, grafieken die de gevonden correlatie of regressie duidelijk zichtbaar maken.

Inhoudelijk gezien worden hypotheses verworpen of geaccepteerd. Voor marketing betekent dit

bijvoorbeeld dat aangetoond wordt welke variabelen een invloed uitoefenen op bijvoorbeeld

koopgedrag of churn. Uit die constateringen kunnen dan weer voorspellende modellen worden

afgeleid, die weer gebruikt kunnen worden voor campagnes of voor NBA-engines.

Belangrijk is dat je begrijpt dat elke simulatie maar een simulatie is en dat dergelijke voorspellende

modellen op basis van de werkelijke resultaten moeten worden bijgesteld om tot goede resultaten

te komen.


Pg, 8

Marketing en het data science proces

De marketing discipline zit vaak verlegen om antwoorden op allerlei vragen. Soms kunnen deze

vragen op een goede manier door data science worden geadresseerd. Het data science proces

wordt vrijwel altijd buiten het marketing productieproces geplaatst als een soort research

laboratorium. Dit voor het vinden van voorspellende modellen met bruikbare, onafhankelijke

variabelen die afhankelijke variabelen in voldoende mate verklaren. Zo kan marketing erachter

komen dat mannen met snorren en baarden meer bier drinken. Of dat 60% van de bezoekers die

de blog rond de OLED-technologie uit eigener beweging kiezen en langer dan 30 seconden lezen, de

nieuwe TV van Samsung binnen 30 dagen aanschaffen als ze tussen de 20 en 25 jaar zijn.

Welk klantgedrag voorspelt een aankoop? Welke bezoekerseigenschappen zijn bepalend voor het

kiezen van een nurture path voor een bepaalde bezoeker? Laat je data science lab het eens

uitzoeken.

De data science reeks

Na deze blog over het proces van marketing data science, zal ik in de komende blog eens wat

dieper in de databronnen voor data science duiken.


Pg, 9

Ben je nieuwsgierig naar de komende blogs over Marketing Intelligence? Abonneer je via

onderstaande knop dan op het thema ‘Management & BI’. Zodra er een nieuwe blog in de reeks

verschijnt, krijg je automatisch een seintje (per e-mail) met een link.

Laat hier een opmerking achter als je een bepaald onderwerp rond Marketing Intelligence wilt

aandragen. Dan kan het zomaar voorkomen dat jouw situatie of vraag in een dedicated blog binnen

de reeks wordt besproken.

marketing intelligence voor managers – data science proces

Data & Analytics