software engineering college 4 - exploring data
TRANSCRIPT
![Page 1: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/1.jpg)
College 4 – Exploring Data
![Page 2: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/2.jpg)
https://play.google.com/store/apps/details?id=com.ionicframework.evspotter711839
Verzoek aan de groep – gebruik de EV spotter APP
![Page 3: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/3.jpg)
WITH THE CHARGING DATA AS CENTRAL DATASET, THE DATABASE IS CONTINUOUSLY EXPANDED, EXTENDED AND ENRICHED AND SCRAPED
Data Extension
Data enrichment Data Scraping
Data Expansion
OCPI
![Page 4: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/4.jpg)
Hoofdstukken
Kortom: Wat is er blijven hangen van het vorige college?
![Page 5: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/5.jpg)
Het doel van dit college is dat je • Een nieuwe dataset gestructureerd kunt
exploreren• Ggplot2 kunt inzetten voor data exploratie• In timeseries enkele transformaties kunt maken
om de data te exploreren
![Page 6: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/6.jpg)
Exploring data volgens Pr Dt Sc
Time serie changes
Opdracht komende week
![Page 7: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/7.jpg)
Stel je voor je bent klaar…. Wat heb je dan????Metadata
Legacy
OLTP
ERP
…
External
Datamart 1
ETLStagingArea
BusinessIntelligenceApplications
(Q&R,OLAP,Visualization,Data Mining)
Datamart 2
Datamart n
‘Production’ ‘Assembly & Logistics’ ‘Consumption’
‘closed loop’
EAIEII ODS
ETL
Data Warehouse
![Page 8: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/8.jpg)
SCREENSHOT RSTUDIO MET VEEL DATASETS
Juist ja.. Een Rstudio vol met dataframes
![Page 9: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/9.jpg)
Hfst3 exploring data
![Page 10: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/10.jpg)
Feitelijk zijn we in een soort tussenfase beland waar we wel de schone en uniforme data hebben maar nog geen inzicht in de data
![Page 11: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/11.jpg)
Exploring data – wat is de 0e functie die je uitvoert als je en dataset binnenkrijgt??
Hebben alle variabelen in de juiste class
![Page 12: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/12.jpg)
Exploring data – wat is de 1e functie die je uitvoert als je en dataset binnenkrijgt??
Waar kijk je naar? • Per variabele• NA’s• Scheve verdeling /outliers / technische onmogelijkheden
![Page 13: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/13.jpg)
Exploring data – wat is de 2e functie die je uitvoert als je en dataset binnenkrijgt??Pairs[data.frame[,kolommen]]
![Page 14: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/14.jpg)
Opdracht – analyseer deze dataset
![Page 15: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/15.jpg)
Exploring data – voorbeeld uit het boek
![Page 16: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/16.jpg)
Exploring data – voorbeeld uit het boek
![Page 17: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/17.jpg)
Wat kun je zoal vinden
Missing valuesInvalid and outliersData rangeUnit issues (1,000$ vs $)
![Page 18: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/18.jpg)
Wat haal je uit de grafische dataWhat is the peak value of the distribution? How many peaks are there in the distribution (unimodality versus bimodality)?
How normal (or lognormal) is the data?
How much does the data vary? Is it concentrated in a certain interval or in a certain category
![Page 19: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/19.jpg)
Maak een schets in 1 figuur van …
TTV: Hoe zou je je data science project voortzetten als je data als custdata$age eruit zou zien?
![Page 20: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/20.jpg)
Normale plots versus Log plots
Leg uit wat je van deze plot vindt en wat deze plot je vertelt
![Page 21: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/21.jpg)
Normale plots versus Log plots
TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg 48), geef voorbeelden..
![Page 22: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/22.jpg)
Normale plots versus Log plots
TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg
![Page 23: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/23.jpg)
Opdracht (10 minuten)
Zoek een wiskundige uit waarvan je denkt dat hij/zij jou iets uit kan leggen zodanig dat jij het ons uit kan leggen.
Wat is het verschil tussen een normale en een lognormale verdeling
Wat is skewness?
Wat is kurtosis?
![Page 24: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/24.jpg)
2 dimensionele grafieken tonen je het volgende
![Page 25: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/25.jpg)
De stacked bar laat verschillen zien tussen twee groepen op basis van een 2e variabele
![Page 26: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/26.jpg)
Facetting toont groepen van variabelen nast elkaar
![Page 27: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/27.jpg)
http://sachaepskamp.com/files/CCStalkEpskamp.pdf
Correlation networks met qgraph
![Page 28: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/28.jpg)
library(radarchart) library(tidyr) radarDF <- top20 %>% select(player_name, 10:42) %>% as.data.frame() radarDF <- gather(radarDF, key=Label, value=Score, -player_name) %>% spread(key=player_name, value=Score) chartJSRadar(scores = radarDF, maxScale = 100, showToolTipLabel = TRUE)
![Page 29: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/29.jpg)
www.kaggle.com/datasets
TransferMatrix <- na.omit(TransferDf) %>% ungroup() %>% group_by(FormerLeague, CurrentLeague) %>% summarise(sub = n()) %>% ungroup() %>% na.omit() %>% mutate_each(funs(factor), FormerLeague:CurrentLeague) %>% acast(FormerLeague ~ CurrentLeague, value.var = "sub")
![Page 30: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/30.jpg)
Hoeveel feitelijke variabelen hebben we eigenlijk?
![Page 31: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/31.jpg)
![Page 32: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/32.jpg)
Opdracht komende vrijdagExploreer één van de datasets op Kaggle.com/datasets
Presenteer iig het volgende1. Schets de context van de data (wat is gemeten, wat is de data, gebruik
plaatjes/figuren/illustrateis) -> wij moeten het begrijpen2. Download en ETL de data (leg uit wat je binnen ETL gedaan hebt)3. Exploreer de data als geheel, per variabele, paarsgewijs en als totaal*4. Leg uit wat je opvalt in de data en maak daar een uitleg bij in de context van de data5. Welke kansen of onderzoeksvragen of praktijkvragen kun je met de data oplossen6. Stel hypotheses over wat je verwacht als je een (voorspel) model zou maken7. Reflectie slide(s) (1) welke problemen / onverwachtse dingen ben je
tegengekomen (2) wat heb je geleerd
Zorg voor• Backup slides van de code die je gebruikt hebt• Backup slides van alle figuren die je niet als basis verhaal hebt maar wel als ondersteuning
Tip: Steel jat en ontleen aan Kaggle en Google, maar niet zonder dat je zelf kun uitleggen wat de code doet!* iig Summary / pairs / heatmap / ggplot /qgraph en vele andere….
![Page 33: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/33.jpg)
![Page 34: Software Engineering College 4 - exploring data](https://reader036.vdocument.in/reader036/viewer/2022062822/588121981a28abb9388b70a5/html5/thumbnails/34.jpg)
Typische Tentamenvragen• geef enkele voorbeelden (inclusief R code) voor het exploreren
van data