introduction to data mining with rstudio

24
+ Introduction to Data Mining with R and Data Import/Export in R linkedin.com/in/apakabarnizam

Upload: muhammad-diaphan-nizam-arusada

Post on 22-Jan-2018

290 views

Category:

Data & Analytics


9 download

TRANSCRIPT

Page 1: Introduction to Data Mining with Rstudio

+

Introduction to Data Mining with R and Data Import/Export in R

linkedin.com/in/apakabarnizam

Page 2: Introduction to Data Mining with Rstudio

+

R is a free software environment for statistical computing and graphics.

Apa itu R?

R can be easily extended with 4,728 packages available on CRAN.

Many other packages provided, such as on GitHub.

Page 3: Introduction to Data Mining with Rstudio

+

R is widely used in both academia and industry.

Kenapa memakai R?

R is ranked no. 1 again in the KDnuggets 2013 poll on Top Languages for analytics, data mining, data science.

The CRAN Task Views 8 provide collections of packages for different tasks, such as clustering, estimation.

Page 4: Introduction to Data Mining with Rstudio

Pengenalan Interface

Page 5: Introduction to Data Mining with Rstudio

+

#01

#02

PERINTAH DASAR MENENTUKAN TEMPAT PENYIMPANAN DATA

setwd( ) perintah tempat penyimpanan data pada osx

contoh: setwd("~/Dropbox/Rstudio/social-media-workshop/dataset/beta1")

setwd( ) perintah tempat penyimpanan data pada windows

contoh: setwd(“D:\\Dropbox\\Rstudio\\social-media-workshop\\dataset\\beta1”)

Page 6: Introduction to Data Mining with Rstudio

+

Save( ) perintah save data dgn format .Rdata

contoh: save(x, file=“ ")

#01

#02

PERINTAH DASAR SAVE DAN LOAD .RDATA

load( ) perintah load data dgn format .Rdata

contoh: load(“ ")

#03rm( ) perintah u/ menghapus data pada workspace

contoh: rm(x)

Page 7: Introduction to Data Mining with Rstudio

+

#01

#02

LATIHAN, TULIS PERINTAH DIBAWA INI PADA RSCRIPT.

Cara membaca script (dgn perumpamaan): line 1, jika nanti saya memiliki data tolong simpan di folder ini. line 2, x adalah sebuah kumpulan data dari angka 1 sampai 10. line 3, tolong save data saya ya. line 4, tolong hapus data dengan nama label x line 5, tolong load data yang sudah saya simpan. line 6, perlihatkan kumpulan data pada label x

Page 8: Introduction to Data Mining with Rstudio

+

write.csv( ) perintah export data dgn format .csv

contoh: save(x, file=“dataperternakan.csv”)

#01

#02

PERINTAH DASAR IMPORT DAN IMPORT .CSV

read.csv( ) perintah import data dgn format .csv

contoh: load(“dataperternakan.csv”)

#03data.frame( ) perintah u/ membuat values/beberapa tabel menjadi 1 file

contoh: data.frame(nomortable, stokhewan, jenishewan)

Page 9: Introduction to Data Mining with Rstudio

+

#01

#02

LATIHAN, TULIS PERINTAH DIBAWA INI PADA RSCRIPT.

Cara membaca script (dgn perumpamaan): line 1, buatkan nomor dengan angka 1 sampai 5 pada label nomortable line 2, isikan angka 20, 30, 4, 15, dan 2 pada label stokhewan line 3, isikan ayam, bebek, kuda, burung, beruang pada label jenishewan line 4, tolong satukan data pada line 1-3 (bahasa lainnya, buatkan struktur data dengan isian nomortable, stokhewan, jenis hewan) line 5, tunjukan dataperternakan. line 6, tolong simpan data tersebut dengan format csv.

Page 10: Introduction to Data Mining with Rstudio

55%

55%

55%

55%

untuk anda yg duduk di kanan

TUGAS LATIHAN LAB 3.1

untuk anda yg duduk di Kiri

Anda diperbolehkan bekerjasama untuk saling membantu teman anda.

Page 11: Introduction to Data Mining with Rstudio

+

Data Exploration in Rstudio

linkedin.com/in/apakabarnizam

Page 12: Introduction to Data Mining with Rstudio

+

Bunga iris, merupakan tumbuhan yang berasal dari Jepang. Biasa ditanam sebagai tumbuhan hias karena bunganya yang indah.

Bunga iris, memiliki beberapa sub jenis seperti: versicolour, virginica, setosa.

kita akan menggunakan dataset bunga iris sebagai latihan pada lab hari ini.

PERNAH MENDENGAR BUNGA IRIS?

Page 13: Introduction to Data Mining with Rstudio

+

#01

#02

PERINTAH DASAR UNTUK MELIHAT/MENGENAL DATA

dim(namadataset) perintah untuk melihat dimensi pada dataset

contoh: dim(iris)

output:

names(namadaset) perintah mengetahui nama-nama label pd dataset

contoh: names(iris)

output:

Jumlah label

jumlah data dalam dataset

Page 14: Introduction to Data Mining with Rstudio

+

#01

#02

PERINTAH DASAR UNTUK MELIHAT LEBIH DETAIL DATASET

#03

str(namadataset) perintah untuk mengetahui secara detail dimensi pada dataset, output yang akan muncul juga beserta nama label dan isiian data yg ada di dalam label.

contoh: str(iris)

head(namadataset) perintah untuk melihat isian data pada suatu label, dengan cara melihat dr sudut 6 data paling atas.

contoh: head(iris)

tail(namadataset) perintah untuk melihat isian data pada suatu label, dengan cara melihat dr sudut 6 data paling bawah.

contoh: tail(iris)

Page 15: Introduction to Data Mining with Rstudio

+

#01

#02

PERINTAH DASAR UNTUK MELIHAT/MENGENAL DATA

summary(namadataset) perintah untuk mengetahui nilai minumum, maximum, rata-rata, angka yg sering muncul, quartiles dari setiap label yg memiliki angka didalamnya.

contoh: summary(iris)

var(namadataset$namalabel) perintah untuk menghitung variasi dari satu label.

contoh: var(iris$Sepal.Length))

Page 16: Introduction to Data Mining with Rstudio

+

#01

#02

PERINTAH DASAR UNTUK MELIHAT/MENGENAL DATA

cov(iris[,1:4]) perintah untuk mengukur varians dari satu dataset.

contoh: cor(iris$Sepal.Length, iris$Petal.Length)

cor(namadataset$namalabelX, namadataset$namalabelY) perintah untuk mengukur korelasi antara variabel x dan y.

contoh: cor(iris$Sepal.Length, iris$Petal.Length)

Page 17: Introduction to Data Mining with Rstudio

+

#01

#02

PERINTAH DASAR MEMVISUALISASIKAN DATASET

plot(density(namadataset$namalabel)) perintah untuk melihat penyebaran angka dalam bentuk visual.

contoh: plot(density(iris$Sepal.Length))

hist(namadataset$namalabel) perintah untuk melihat penyebaran data dlm bentuk histogram.

contoh: hist(iris$Sepal.Length)

Page 18: Introduction to Data Mining with Rstudio

+

#01

#02

PERINTAH DASAR MEMVISUALISASIKAN DATASET

With(namadataset, plot(labelX, labelY, col=namakategori, pch=as.numeric(namakaetgori) perintah untuk memvisualisakan penyebaran angka yg ada di dalam dataset.

contoh: with(iris, plot(Sepal.Length, Sepal.Width, col=Species, pch=as.numeric(Species)))

qplot(namalabelX, namalabelY, data=namadataset, facets=namakategori ~.) perintah untuk memvisualisasikan penyebaran angka tergantung dari nama kategori

contoh: qplot(Sepal.Length, Sepal.Width, data=iris, facets=Species ~.)

Page 19: Introduction to Data Mining with Rstudio

Buatkan Rscript dan dataset .csv kartu keluarga dari web: bit.ly/kartukeluargakotabandung

dikumpulkan H-2 sebelum kelas bigdata ke bit.ly/yaampuntugasbigdata

Penamaan file harikelasbigdata_jammasuk_pekerjaan31_noabsenlab contoh: senin_0930_pekerjaan31_20.csv senin_0930_pekerjaan32_20.rscript

PEKERJAAN RUMAH 31

Page 20: Introduction to Data Mining with Rstudio

Dalam website dinas kependudukan terdapat 30 kecamatan di kota Bandung.

Jika absen anda di nomor 5, berarti anda mengerjakan tugas dimulai dengan urutan 5. maka dimulai dengan kecamatan Babakan ciparay, Bandung kidul, Bandung kulon dan seterusnya.

Jika Absen anda di nomor 3, berarti anda mengerjakan tugas dimulai dengan urutan 3. maka dimulai dengan kecamatan Arcamanik, Astana Anyar, Babakan Ciparay dan seterusnya.

ATURAN MENGERJAKAN PEKERJAAN RUMAH 31

Page 21: Introduction to Data Mining with Rstudio

Jika Absensi anda di nomor 31-seterusnya, maka mengulang dari urutan nomor 1 kecamatan dalam membuat tugas tetapi data dalam “Jumlah KK” ditambah angka 2000.

Anda cukup membuat 10 data kecamatan saja untuk membuat dataset. (tidak perlu membuat 30 data kecamatan).

List Label yang harus ada dalam dataset.csv yaitu: Kecamatan, Jumlah KK dan percentase. sisanya tidak harus ada dalam dataset.

ATURAN MENGERJAKAN PEKERJAAN RUMAH 31

Page 22: Introduction to Data Mining with Rstudio

Terimakasih, tapi belum beres

linkedin.com/in/apakabarnizam

Page 23: Introduction to Data Mining with Rstudio

+

Jika anda sudah mempunyai dropbox silahkan maju ke depan, untuk di invite ke group dropbox bigdata, oleh kami.

Jika anda belum memiliki account dropbox silahkan klik link dibawah ini:

bit.ly/daftarduludropbox

SAATNYA MENG-INVITE ANDA KE DROPBOX

Page 24: Introduction to Data Mining with Rstudio

+

#01 #02 #03

Delete file tugas yang anda telah buat di mac lab

Pastikan mouse dan keyboard

sudah dlm kondisi mati

Matikan Mac Lab, agar hemat energi

YANG ANDA HARUS LAKUKAN SEBELUM PULANG

linkedin.com/in/apakabarnizam