introduction to data mining with rstudio

Post on 22-Jan-2018

290 Views

Category:

Data & Analytics

9 Downloads

Preview:

Click to see full reader

TRANSCRIPT

+

Introduction to Data Mining with R and Data Import/Export in R

linkedin.com/in/apakabarnizam

+

R is a free software environment for statistical computing and graphics.

Apa itu R?

R can be easily extended with 4,728 packages available on CRAN.

Many other packages provided, such as on GitHub.

+

R is widely used in both academia and industry.

Kenapa memakai R?

R is ranked no. 1 again in the KDnuggets 2013 poll on Top Languages for analytics, data mining, data science.

The CRAN Task Views 8 provide collections of packages for different tasks, such as clustering, estimation.

Pengenalan Interface

+

#01

#02

PERINTAH DASAR MENENTUKAN TEMPAT PENYIMPANAN DATA

setwd( ) perintah tempat penyimpanan data pada osx

contoh: setwd("~/Dropbox/Rstudio/social-media-workshop/dataset/beta1")

setwd( ) perintah tempat penyimpanan data pada windows

contoh: setwd(“D:\\Dropbox\\Rstudio\\social-media-workshop\\dataset\\beta1”)

+

Save( ) perintah save data dgn format .Rdata

contoh: save(x, file=“ ")

#01

#02

PERINTAH DASAR SAVE DAN LOAD .RDATA

load( ) perintah load data dgn format .Rdata

contoh: load(“ ")

#03rm( ) perintah u/ menghapus data pada workspace

contoh: rm(x)

+

#01

#02

LATIHAN, TULIS PERINTAH DIBAWA INI PADA RSCRIPT.

Cara membaca script (dgn perumpamaan): line 1, jika nanti saya memiliki data tolong simpan di folder ini. line 2, x adalah sebuah kumpulan data dari angka 1 sampai 10. line 3, tolong save data saya ya. line 4, tolong hapus data dengan nama label x line 5, tolong load data yang sudah saya simpan. line 6, perlihatkan kumpulan data pada label x

+

write.csv( ) perintah export data dgn format .csv

contoh: save(x, file=“dataperternakan.csv”)

#01

#02

PERINTAH DASAR IMPORT DAN IMPORT .CSV

read.csv( ) perintah import data dgn format .csv

contoh: load(“dataperternakan.csv”)

#03data.frame( ) perintah u/ membuat values/beberapa tabel menjadi 1 file

contoh: data.frame(nomortable, stokhewan, jenishewan)

+

#01

#02

LATIHAN, TULIS PERINTAH DIBAWA INI PADA RSCRIPT.

Cara membaca script (dgn perumpamaan): line 1, buatkan nomor dengan angka 1 sampai 5 pada label nomortable line 2, isikan angka 20, 30, 4, 15, dan 2 pada label stokhewan line 3, isikan ayam, bebek, kuda, burung, beruang pada label jenishewan line 4, tolong satukan data pada line 1-3 (bahasa lainnya, buatkan struktur data dengan isian nomortable, stokhewan, jenis hewan) line 5, tunjukan dataperternakan. line 6, tolong simpan data tersebut dengan format csv.

55%

55%

55%

55%

untuk anda yg duduk di kanan

TUGAS LATIHAN LAB 3.1

untuk anda yg duduk di Kiri

Anda diperbolehkan bekerjasama untuk saling membantu teman anda.

+

Data Exploration in Rstudio

linkedin.com/in/apakabarnizam

+

Bunga iris, merupakan tumbuhan yang berasal dari Jepang. Biasa ditanam sebagai tumbuhan hias karena bunganya yang indah.

Bunga iris, memiliki beberapa sub jenis seperti: versicolour, virginica, setosa.

kita akan menggunakan dataset bunga iris sebagai latihan pada lab hari ini.

PERNAH MENDENGAR BUNGA IRIS?

+

#01

#02

PERINTAH DASAR UNTUK MELIHAT/MENGENAL DATA

dim(namadataset) perintah untuk melihat dimensi pada dataset

contoh: dim(iris)

output:

names(namadaset) perintah mengetahui nama-nama label pd dataset

contoh: names(iris)

output:

Jumlah label

jumlah data dalam dataset

+

#01

#02

PERINTAH DASAR UNTUK MELIHAT LEBIH DETAIL DATASET

#03

str(namadataset) perintah untuk mengetahui secara detail dimensi pada dataset, output yang akan muncul juga beserta nama label dan isiian data yg ada di dalam label.

contoh: str(iris)

head(namadataset) perintah untuk melihat isian data pada suatu label, dengan cara melihat dr sudut 6 data paling atas.

contoh: head(iris)

tail(namadataset) perintah untuk melihat isian data pada suatu label, dengan cara melihat dr sudut 6 data paling bawah.

contoh: tail(iris)

+

#01

#02

PERINTAH DASAR UNTUK MELIHAT/MENGENAL DATA

summary(namadataset) perintah untuk mengetahui nilai minumum, maximum, rata-rata, angka yg sering muncul, quartiles dari setiap label yg memiliki angka didalamnya.

contoh: summary(iris)

var(namadataset$namalabel) perintah untuk menghitung variasi dari satu label.

contoh: var(iris$Sepal.Length))

+

#01

#02

PERINTAH DASAR UNTUK MELIHAT/MENGENAL DATA

cov(iris[,1:4]) perintah untuk mengukur varians dari satu dataset.

contoh: cor(iris$Sepal.Length, iris$Petal.Length)

cor(namadataset$namalabelX, namadataset$namalabelY) perintah untuk mengukur korelasi antara variabel x dan y.

contoh: cor(iris$Sepal.Length, iris$Petal.Length)

+

#01

#02

PERINTAH DASAR MEMVISUALISASIKAN DATASET

plot(density(namadataset$namalabel)) perintah untuk melihat penyebaran angka dalam bentuk visual.

contoh: plot(density(iris$Sepal.Length))

hist(namadataset$namalabel) perintah untuk melihat penyebaran data dlm bentuk histogram.

contoh: hist(iris$Sepal.Length)

+

#01

#02

PERINTAH DASAR MEMVISUALISASIKAN DATASET

With(namadataset, plot(labelX, labelY, col=namakategori, pch=as.numeric(namakaetgori) perintah untuk memvisualisakan penyebaran angka yg ada di dalam dataset.

contoh: with(iris, plot(Sepal.Length, Sepal.Width, col=Species, pch=as.numeric(Species)))

qplot(namalabelX, namalabelY, data=namadataset, facets=namakategori ~.) perintah untuk memvisualisasikan penyebaran angka tergantung dari nama kategori

contoh: qplot(Sepal.Length, Sepal.Width, data=iris, facets=Species ~.)

Buatkan Rscript dan dataset .csv kartu keluarga dari web: bit.ly/kartukeluargakotabandung

dikumpulkan H-2 sebelum kelas bigdata ke bit.ly/yaampuntugasbigdata

Penamaan file harikelasbigdata_jammasuk_pekerjaan31_noabsenlab contoh: senin_0930_pekerjaan31_20.csv senin_0930_pekerjaan32_20.rscript

PEKERJAAN RUMAH 31

Dalam website dinas kependudukan terdapat 30 kecamatan di kota Bandung.

Jika absen anda di nomor 5, berarti anda mengerjakan tugas dimulai dengan urutan 5. maka dimulai dengan kecamatan Babakan ciparay, Bandung kidul, Bandung kulon dan seterusnya.

Jika Absen anda di nomor 3, berarti anda mengerjakan tugas dimulai dengan urutan 3. maka dimulai dengan kecamatan Arcamanik, Astana Anyar, Babakan Ciparay dan seterusnya.

ATURAN MENGERJAKAN PEKERJAAN RUMAH 31

Jika Absensi anda di nomor 31-seterusnya, maka mengulang dari urutan nomor 1 kecamatan dalam membuat tugas tetapi data dalam “Jumlah KK” ditambah angka 2000.

Anda cukup membuat 10 data kecamatan saja untuk membuat dataset. (tidak perlu membuat 30 data kecamatan).

List Label yang harus ada dalam dataset.csv yaitu: Kecamatan, Jumlah KK dan percentase. sisanya tidak harus ada dalam dataset.

ATURAN MENGERJAKAN PEKERJAAN RUMAH 31

Terimakasih, tapi belum beres

linkedin.com/in/apakabarnizam

+

Jika anda sudah mempunyai dropbox silahkan maju ke depan, untuk di invite ke group dropbox bigdata, oleh kami.

Jika anda belum memiliki account dropbox silahkan klik link dibawah ini:

bit.ly/daftarduludropbox

SAATNYA MENG-INVITE ANDA KE DROPBOX

+

#01 #02 #03

Delete file tugas yang anda telah buat di mac lab

Pastikan mouse dan keyboard

sudah dlm kondisi mati

Matikan Mac Lab, agar hemat energi

YANG ANDA HARUS LAKUKAN SEBELUM PULANG

linkedin.com/in/apakabarnizam

top related