software for big data - setting the scene
TRANSCRIPT
SOFTWARE ENGINEERING COLLEGE 1
SETTING THE SCENE
Het doel van dit college is• dat we afspraken maken over hoe we komen
tot een jargon lijst • Dat je de plek van data science in de
organisatie context kent• Dat je het data science proces kent• Dat je inzicht hebt in welke stakeholders je
nodig hebt in een organisatie voor een succesvol data science project
Wederzijdse Afspraken
Data Science Jargon
Uitleg inhoud SE theorie en praktijk
The Big Picture of Analytics
The Data Science Process
Roles in a Data Science project
Kennen kent het jargon kent het IT landschap van big data kent methoden van project aanpak
binnen de data science CRISPDM kent de inrichting van data
warehouse kent de code conventies
gebruikelijk voor R
Kunnen kan een project indelen en uitvoeren
naar CRISP-DM methodiek Kan eenvoudige statistische methoden
toepassen in R Kan zelfstandig data acquireren en
inladen in R Kan data beoordelen op validiteit /
integriteit en waar nodig opschonen Kan exploratieve data visualisaties
maken Kan R code voorzien van commentaar
ten behoeve van leesbaarheid
Leerdoelen voor het vak
thema thema Data Science Process Aquiring data Databases Data Exploration
weeknummer Lesweek week 1 week 2 week 3 week 4kalenderweek 36 37 38 39
theorie College CRISPDMRelational databases datawarehousing
ELT/ETL anomalies / data cleaning
Literatuur Practical data science in R hfst 1 data science proceshfst 2 Loading data in R
hfst 4 managing data
Performance management
Uitdagingen en definities van performance management Hoofdstuk 1 Behoefte aan een gestructureerde aanpak van
Hoofdstuk 12 Extractie - Transformatie - Loading
Hoofdstuk 8 Online Analytical Processing Performance Management-
Infrastructuur
Praktijk datacampWriting functions in R / data manipulation with dplyr
Loading data into R /Clean data in R
data vizualisation with ggplot 1
data vizualisation with ggplot 2
ExamDeadline first 3 datacamp courses
werkcollege Access Noorderwind databaserelationele database bouwen SIS
datawharehouse SIS Data cleaning EV data
assignment (Friday) Titanic competition
download a dataset plot dataset in order to find distribution typegenerate 4 different distibutions
scatterplot different groups + facetting
lon /lat + cleaning ervan
optioneel kennisverhogingA Hands-on Introduction to
Statistics with R
`
Data Wrangling Deployment Documentation Exam Capstone
week 5 week 6 week 7 week 8 week 940 41 43 44 45
OLAPDeployment with Shiny server
Documentation
hfst 3 Exploring datahfst 10 documentation and deployment
Hoofdstuk 9 Rapportering
Ggvis + shiny server Shiny server dashboardsReporting with Markdown and
Knitr
Deadline second 3 datacamp courses theory exam deadline project
interactief plaatje gis plaatje dashboard
** data table **
Het Data Science Jargon
Data Warehouse Concepts Course v.6.0
Directors
…all Analysis& Ad-Hoc rept.
…all MgmtReporting
Managers
Analysts(Fin., Sal., Prod., …)
(ELASTIC) DATA WAREHOUSE
OperationalSystems
Data Warehouse
ETL versus ELT
Gebrek aan voorspelbaarheidgoede doelstellingen kunnen pas gemaakt worden als een goed kennis van de te verwachten evoluties aanwezig is
gebrek aan verantwoordinger is nood aan de mogelijkheid om performantie indicatoren toe te wijzen aan de personen die het dichtst staan bij de business
gebrek aan visibiliteitis er een volledig zicht op de performance van de volledige organisatie? Is het duidelijk welke rol iedereen en alle processen spelen bij de totstandkoming van de uiteindelijke bedrijfsresultaten?
Hfst 1 performance management - frustraties
Organisatie structuur in 1 slide
Corporate performance management?Balanceren tussen verleden en toekomst en tussen financieel en business
CPM wil een gebalanceerd zicht geven op bedrijfsperformantie met een gepaste mix van financiële en operationele maatstaven, gecombineerd met de technologie die de historische en verwachte activiteit op een effectieve manier voorstelt.
Butler Group, 2004. Corporate Performance Management, A new approach to business control and planning. Technology Evaluation and Comparison Report.
CPM verzoent het verleden, het heden en de toekomst
Cognos, 2004. The Visionary CFO. Leadership in Corporate Performance Management. Cognos Press, Canada.
Hoe complexer de berekeningen en tools in de organisatie hoe groter de meerwaarde is
Er wordt altijd een moeten worden gezocht in:Snelheid*complexiteit*data volume=
Benodigde rekenkracht
« We did a Pareto analysis, a grid analysis, a decision tree, a force field analysis... And then the boss decided to go with his gut. »
Vanuit beslissingsperspectief zie je de volgende IT tools
Butler Group, 2004. Corporate Performance Management, A new approach to business control and planning. Technology Evaluation and Comparison Report.
Binnenste cyclus elementen ter ondersteuning van het beslissingsprocesProactiviteit ontbreekt ietwatAnalytical Intelligence moet meer kunnen doen
Buitenste cyclus Cooke & Slack decision-making process
Performance management onderdelen
"a set of techniques and tools for the acquisition and transformation of raw data into meaningful and useful information for business analysis purposes
Inzicht genereren in de toekomst v van de organisatie op basis van best-in-class methodieken
Voor onze minor zijn Business intelligence en Analytical inteligence van belang
Turning from a rear view mirror on the business...
Business intelligence is feitelijk een slimme manier om achteruit te kijken
5. IMPLEMENTATIE VAN STRATEGIETerwijl Analytical intelligence vooral* vooruit kijkt
Analytical intelligence kijkt niet alleen vooruit in de zin van voorspellingen maar kijkt ook naar waarom de dingen gaan zoals ze
gaan, vanuit beter begrip over het systeem waar je in zit kun je betere beslissingen maken
Op het laagste niveau is de informatie operationeel en locaal. Gedetailleerde informatie ontstaat en wordt gebruikt door ERP processen.Op het tactische niveau wordt de informatie gedeeltelijk geaggregeerd en samengevat om het nemen van bedrijfsbeslissingen op het onderliggende niveau te ondersteunen.Op het hoogste niveau wordt de scope strategisch en globaal, sterk samengevatte informatie is beschikbaar om strategische communicatie en feedback toe te laten.Het is belangrijk te noteren dat informatie beweegt van onder naar boven en van boven naar onder. Strategische beslissingen worden bovenaan genomen en geventileerd naar beneden, performance management feedback keert terug naar boven van onder naar boven. Deze interactie tussen top-down en bottom-up wordt voortdurend iteratief doorlopen en beweegt als een “jo-jo”.
De Business Intelligence pyramide illustreert de
informatiestromen door de organisatie een
4. MONITORING VAN CORPORATE PERFORMANCE
Uitgewerkt ziet het er dan zo uit(voor zover bedrijven daadwerkelijk in staat zijn een volledige uitrol te maken van de strategische piramide)
ANALYTICAL INTELLIGENCE? ~ data science
• Beter inzicht in de bestaande processen via operationeel onderzoek levert inzichten en hefbomen op die bruikbaar zijn:
Bij het zetten van targets Het onderbouwen van plannen Het bouwen van (nieuwe) strategieën Verklaren en beter begrijpen van
geobserveerde performantie Het anticiperen van gevolgen van
beslissingen Het doorgronden van strategische
oorzaak- en gevolgrelaties Het modelleren van de volledige business
Data science proces
Software enginering processen
Data Science proces
• Why do the sponsors want the project in the first place? What do they lack, and what do they need?
• What are they doing to solve the problem now, and why isn’t that good enough?
• What resources will you need: what kind of data and how much staff? Will you have domain experts to collaborate with, and what are the computational resources?
• How do the project sponsors plan to deploy your results? What are the constraints that have to be met for successful deployment?
Data Science proces –Define the goal
• What data is available to me? • Will it help me solve the problem? • Is it enough?• Is the data quality good enough
Data Science proces – collect and manage data
• Classification—Deciding if something belongs to one category or another
• Scoring—Predicting or estimating a numeric value, such as a price or probability
• Ranking—Learning to order items by preferences • Clustering—Grouping items into most-similar groups • Finding relations—Finding correlations or potential causes of effects
seen in the data• Characterization—Very general plotting and report generation from
data
Data Science proces – build the model
• Is it accurate enough for your needs? • Does it generalize well?• Does it perform better than “the obvious guess”? • Better than whatever estimate you currently use?• Do the results of the model (coefficients, clusters, rules) make sense
in the context of the problem domain?
Data Science proces – evaluate the model
Listing 1.2 practica data science in R
Data Science proces – the obvious guess?!
Listing 1.2 practica data science in R
Data Science proces – the obvious guess?!
• How should they interpret the model? • What does the model output look like? • If the model provides a trace of which rules in the decision tree
executed, how do they read that?• If the model provides a confidence score in addition to a
classification, how should they use the confidence score?• When might they potentially overrule the model?
Data Science proces – present results
At least one person will read your code and that is FUTURE YOU!
Welke vragen zou je stellen omtrent implementatie?
Data Science proces
Voorbeeld 2 data science proces
CRISPDM Cross Industry Standard Process for Data Mining
Numerieke « business problem-solving » methode
SAS Institute Methodology, 1998. Data Mining Projects.Sas Institute, #0518 Draft.
NUMERIEKE « BUSINESS PROBLEM-SOLVING » METHODE
DEFINIEER HET BUSINESS PROBLEM – HOW TO SOLVE IT
• What is the unknown (the number I am trying to calculate)?• What data are given, and which can be estimated using
knowledge I already have?• Can I restate the problem in different words?• Can I draw a picture or graph framing the problem?• Is there another similar problem I have already solved that could
give me the key to a solution?• Can I make some simple assumptions that might help me solve
the problem more easily?• Can I just solve one of the problems?• Can I solve a simplified version of the problem, using round
numbers that are roughly right?• Are there any answers that I know are wrong?
How to Solve it: A New Aspect of Mathematical Method (Polya G., 1957)
EVALUEER DE OMGEVING
3.3. EVALUEER DE OMGEVING
• Zal de organisatie er iets kunnen en willen aan doen?• Hoe zit de locale politiek in elkaar?• In welke mate bestaat een cultuur die kwantitatief
genoeg is?• Zal IT willen meewerken om de verandering te
automatiseren?• Zal Operations de resultaten gebruiken voor betere
werking of zullen ze blijven werken zoals ze al altijd hebben gewerkt?
• Is de scope van de vraag in proportie tot het mandaat of zeggenschap dat we hebben? Kunnen we met andere woorden zelf iets aan het probleem doen?
Zorg dat de data beschikbaar is
IMPLEMENTEER IN PRODUCTIE
4.3. EVALUEER MODELLEN
Rollen in data science project
ROLLEN IN DATA SCIENCE PROJECT
https://www.youtube.com/watch?v=jyju2P-7hPA&list=PLAwxTw4SYaPm4R6j_wzVOCV9fJaiQDYx4
ASSIGNMENT
LECTURE
Bereid je voor op de basis van Relationele Databases Blended learning tips
https://www.youtube.com/watch?v=-fQ-bRllhXc
optioneelhttps://www.youtube.com/watch?v=jyju2P-7hPA&list=PLAwxTw4SYaPm4R6j_wzVOCV9fJaiQDYx4
https://www.youtube.com/watch?v=z2kbsG8zsLM