Download - Introduction to Data Mining with Rstudio
+
Introduction to Data Mining with R and Data Import/Export in R
linkedin.com/in/apakabarnizam
+
R is a free software environment for statistical computing and graphics.
Apa itu R?
R can be easily extended with 4,728 packages available on CRAN.
Many other packages provided, such as on GitHub.
+
R is widely used in both academia and industry.
Kenapa memakai R?
R is ranked no. 1 again in the KDnuggets 2013 poll on Top Languages for analytics, data mining, data science.
The CRAN Task Views 8 provide collections of packages for different tasks, such as clustering, estimation.
Pengenalan Interface
+
#01
#02
PERINTAH DASAR MENENTUKAN TEMPAT PENYIMPANAN DATA
setwd( ) perintah tempat penyimpanan data pada osx
contoh: setwd("~/Dropbox/Rstudio/social-media-workshop/dataset/beta1")
setwd( ) perintah tempat penyimpanan data pada windows
contoh: setwd(“D:\\Dropbox\\Rstudio\\social-media-workshop\\dataset\\beta1”)
+
Save( ) perintah save data dgn format .Rdata
contoh: save(x, file=“ ")
#01
#02
PERINTAH DASAR SAVE DAN LOAD .RDATA
load( ) perintah load data dgn format .Rdata
contoh: load(“ ")
#03rm( ) perintah u/ menghapus data pada workspace
contoh: rm(x)
+
#01
#02
LATIHAN, TULIS PERINTAH DIBAWA INI PADA RSCRIPT.
Cara membaca script (dgn perumpamaan): line 1, jika nanti saya memiliki data tolong simpan di folder ini. line 2, x adalah sebuah kumpulan data dari angka 1 sampai 10. line 3, tolong save data saya ya. line 4, tolong hapus data dengan nama label x line 5, tolong load data yang sudah saya simpan. line 6, perlihatkan kumpulan data pada label x
+
write.csv( ) perintah export data dgn format .csv
contoh: save(x, file=“dataperternakan.csv”)
#01
#02
PERINTAH DASAR IMPORT DAN IMPORT .CSV
read.csv( ) perintah import data dgn format .csv
contoh: load(“dataperternakan.csv”)
#03data.frame( ) perintah u/ membuat values/beberapa tabel menjadi 1 file
contoh: data.frame(nomortable, stokhewan, jenishewan)
+
#01
#02
LATIHAN, TULIS PERINTAH DIBAWA INI PADA RSCRIPT.
Cara membaca script (dgn perumpamaan): line 1, buatkan nomor dengan angka 1 sampai 5 pada label nomortable line 2, isikan angka 20, 30, 4, 15, dan 2 pada label stokhewan line 3, isikan ayam, bebek, kuda, burung, beruang pada label jenishewan line 4, tolong satukan data pada line 1-3 (bahasa lainnya, buatkan struktur data dengan isian nomortable, stokhewan, jenis hewan) line 5, tunjukan dataperternakan. line 6, tolong simpan data tersebut dengan format csv.
55%
55%
55%
55%
untuk anda yg duduk di kanan
TUGAS LATIHAN LAB 3.1
untuk anda yg duduk di Kiri
Anda diperbolehkan bekerjasama untuk saling membantu teman anda.
+
Data Exploration in Rstudio
linkedin.com/in/apakabarnizam
+
Bunga iris, merupakan tumbuhan yang berasal dari Jepang. Biasa ditanam sebagai tumbuhan hias karena bunganya yang indah.
Bunga iris, memiliki beberapa sub jenis seperti: versicolour, virginica, setosa.
kita akan menggunakan dataset bunga iris sebagai latihan pada lab hari ini.
PERNAH MENDENGAR BUNGA IRIS?
+
#01
#02
PERINTAH DASAR UNTUK MELIHAT/MENGENAL DATA
dim(namadataset) perintah untuk melihat dimensi pada dataset
contoh: dim(iris)
output:
names(namadaset) perintah mengetahui nama-nama label pd dataset
contoh: names(iris)
output:
Jumlah label
jumlah data dalam dataset
+
#01
#02
PERINTAH DASAR UNTUK MELIHAT LEBIH DETAIL DATASET
#03
str(namadataset) perintah untuk mengetahui secara detail dimensi pada dataset, output yang akan muncul juga beserta nama label dan isiian data yg ada di dalam label.
contoh: str(iris)
head(namadataset) perintah untuk melihat isian data pada suatu label, dengan cara melihat dr sudut 6 data paling atas.
contoh: head(iris)
tail(namadataset) perintah untuk melihat isian data pada suatu label, dengan cara melihat dr sudut 6 data paling bawah.
contoh: tail(iris)
+
#01
#02
PERINTAH DASAR UNTUK MELIHAT/MENGENAL DATA
summary(namadataset) perintah untuk mengetahui nilai minumum, maximum, rata-rata, angka yg sering muncul, quartiles dari setiap label yg memiliki angka didalamnya.
contoh: summary(iris)
var(namadataset$namalabel) perintah untuk menghitung variasi dari satu label.
contoh: var(iris$Sepal.Length))
+
#01
#02
PERINTAH DASAR UNTUK MELIHAT/MENGENAL DATA
cov(iris[,1:4]) perintah untuk mengukur varians dari satu dataset.
contoh: cor(iris$Sepal.Length, iris$Petal.Length)
cor(namadataset$namalabelX, namadataset$namalabelY) perintah untuk mengukur korelasi antara variabel x dan y.
contoh: cor(iris$Sepal.Length, iris$Petal.Length)
+
#01
#02
PERINTAH DASAR MEMVISUALISASIKAN DATASET
plot(density(namadataset$namalabel)) perintah untuk melihat penyebaran angka dalam bentuk visual.
contoh: plot(density(iris$Sepal.Length))
hist(namadataset$namalabel) perintah untuk melihat penyebaran data dlm bentuk histogram.
contoh: hist(iris$Sepal.Length)
+
#01
#02
PERINTAH DASAR MEMVISUALISASIKAN DATASET
With(namadataset, plot(labelX, labelY, col=namakategori, pch=as.numeric(namakaetgori) perintah untuk memvisualisakan penyebaran angka yg ada di dalam dataset.
contoh: with(iris, plot(Sepal.Length, Sepal.Width, col=Species, pch=as.numeric(Species)))
qplot(namalabelX, namalabelY, data=namadataset, facets=namakategori ~.) perintah untuk memvisualisasikan penyebaran angka tergantung dari nama kategori
contoh: qplot(Sepal.Length, Sepal.Width, data=iris, facets=Species ~.)
Buatkan Rscript dan dataset .csv kartu keluarga dari web: bit.ly/kartukeluargakotabandung
dikumpulkan H-2 sebelum kelas bigdata ke bit.ly/yaampuntugasbigdata
Penamaan file harikelasbigdata_jammasuk_pekerjaan31_noabsenlab contoh: senin_0930_pekerjaan31_20.csv senin_0930_pekerjaan32_20.rscript
PEKERJAAN RUMAH 31
Dalam website dinas kependudukan terdapat 30 kecamatan di kota Bandung.
Jika absen anda di nomor 5, berarti anda mengerjakan tugas dimulai dengan urutan 5. maka dimulai dengan kecamatan Babakan ciparay, Bandung kidul, Bandung kulon dan seterusnya.
Jika Absen anda di nomor 3, berarti anda mengerjakan tugas dimulai dengan urutan 3. maka dimulai dengan kecamatan Arcamanik, Astana Anyar, Babakan Ciparay dan seterusnya.
ATURAN MENGERJAKAN PEKERJAAN RUMAH 31
Jika Absensi anda di nomor 31-seterusnya, maka mengulang dari urutan nomor 1 kecamatan dalam membuat tugas tetapi data dalam “Jumlah KK” ditambah angka 2000.
Anda cukup membuat 10 data kecamatan saja untuk membuat dataset. (tidak perlu membuat 30 data kecamatan).
List Label yang harus ada dalam dataset.csv yaitu: Kecamatan, Jumlah KK dan percentase. sisanya tidak harus ada dalam dataset.
ATURAN MENGERJAKAN PEKERJAAN RUMAH 31
Terimakasih, tapi belum beres
linkedin.com/in/apakabarnizam
+
Jika anda sudah mempunyai dropbox silahkan maju ke depan, untuk di invite ke group dropbox bigdata, oleh kami.
Jika anda belum memiliki account dropbox silahkan klik link dibawah ini:
bit.ly/daftarduludropbox
SAATNYA MENG-INVITE ANDA KE DROPBOX
+
#01 #02 #03
Delete file tugas yang anda telah buat di mac lab
Pastikan mouse dan keyboard
sudah dlm kondisi mati
Matikan Mac Lab, agar hemat energi
YANG ANDA HARUS LAKUKAN SEBELUM PULANG
linkedin.com/in/apakabarnizam