jurnal untuk makalah
DESCRIPTION
tugas kuliahTRANSCRIPT
-
Inferensi Kurva Regresi Nonparametrik Berdasarkan Estimator Polinomial Lokal dengan Error Lognormal (Nur Chamidah)
61
INFERENSI KURVA REGRESI NONPARAMETRIK BER-DASARKAN ESTIMATOR POLINOMIAL LOKAL DENGAN ERROR LOGNORMAL
Nur Chamidah1) ABSTRACT
INFERENCE OF THE NONPARAMETRIC REGRESSION CURVE BASED ON LOCAL POLYNOMIAL ESTIMATOR WITH LOGNORMAL ERROR
Most of statistical analysis data in regression models use normal error assumption, but not all real phenomenon reaches the normality assumption. In the most real conditions we often find lognormal phenomenon, for examples, call duration for each individual of telephone user (Bolotin,1994); reaction time based on mathematical psychology views (Breukelen, 1995); non compartmental pharmacokinetic variable in some clinical experiments (Lacey et al, 1997). Eckhard et al., (2001) showed that lognormality phenomenon can be found on the genetic physic field; on the plant psychology field, on the food technology field for instance food processing with dispersion process and filtering. Chamidah (2004) has done a research of confidence interval estimate of nonparametric regression curve with lognormal error based on Spline Estimator, Local Polynomial Estimator and Kernel Estimator.
The goals of this research are to know the significant curve of the nonparametric regression estimate based on local polynomial estimator, and created programs on Software S-Plus 2000 applied to Gmelina Arborea Roxb Tree data in HTI-Trans Wanakasita Nusantara Jambi area. Research results was an estimated model: ( ) ( ) ( )29.11009915.09.11256969.0832259.2 +== iii xxxm eeZ with level of significant =5%, that not all regression coefficients were equal to zero. Therefore, the model was significant with determination coefficient (R2) 0,9961605. The individual testing of significant its regression coefficient, i.e., 0, 1 and 2 , with level of significant =5%, and concluded that all regression coefficient are significant with the model. On the other hand, that local polynomial estimator in nonparametric regression model with lognormal error is appropriate to estimate volume of Gmelina Arborea Robx base on tree diameter.
Keywords: Nonparametric regression, local polinomial estimator, lognormal error
1) Departemen Matematika, FMIPA,Universitas Airlangga
-
J. Penelit. Med. Eksakta Vol. 7 No. 1 April 2008: 61-69
62
PENDAHULUAN
Analisis regresi memegang peranan penting dalam analisis statistik karena sangat banyak digunakan untuk memodelkan hubungan antara sepasang variabel atau lebih. Misalkan Y adalah variabel respon dan X adalah variabel prediktor, maka untuk n pengamatan, secara umum hubungan variabel itu dapat dinyatakan iii )x(my += , ni ,...,2,1= dengan adalah error random yang diasumsikan independen dengan mean nol dan variansi 2 . Fungsi m adalah fungsi yang tidak diketahui yang disebut fungsi regresi atau kurva regresi.
Ada dua pendekatan yang dapat digunakan untuk mengestimasi m yaitu pendekatan parametrik dan pendekatan nonparametrik. Pendekatan parametrik digunakan bila bentuk fungsi m diketahui dari informasi sebelumnya, berdasarkan teori ataupun pengalaman masa lalu. Dalam hal ini, mengestimasi m ekivalen dengan mengestimasi parameter. Sedangkan pendekatan nonparametrik tidak terikat pada asumsi bentuk kurva tertentu, sehingga memberikan fleksibilitas yang lebih besar dalam bentuk yang mungkin dari kurva regresinya. Kemudian estimasi m dilakukan berdasarkan data pengamatan dengan teknik smoothing tertentu.Ada beberapa teknik smoothing dalam regresi nonparametrik, antara lain Histogram, Estimator Kernel, Estimator Deret Orthogonal, Estimator Spline, k-NN, Deret Fourier, Wavelet Estimator Polinomial Lokal dan lain-lain. (Eubank,1988).
Sebagian besar analisis data regresi dalam statistika menggunakan asumsi error berdistribusi normal, padahal di lapangan banyak data yang tidak sepenuhnya memenuhi asumsi distribusi normal. Dalam kehidupan nyata banyak ditemukan fenomena kelognormalan antara lain durasi call untuk tiap-tiap individu pengguna telpon (Bolotin, 1994), waktu reaksi dari sudut pandang psycologi secara matematik (Breukelen, 1995), variabel noncompartmental pharmacokinetic pada beberapa percobaan secara klinis (Lacey et al., 1997). Eckhard et al, (2001) menyatakan bahwa fenomena kelognormalan juga tampak pada bidang fisis genetika, periode laten dari infeksi penyakit, phytomedicine dan mikrobilogi yang meliputi macam spesies, tipe bakteri, populasi bakteri, di bidang psikologi tanaman meliputi permeabilitas dan pergerakan, hubungan antara pegaruh dosis racun dan patogen terhadap unsur kimiawinya (hormon dan mineral), dibidang teknologi makanan yaitu pemrosesan makanan dengan proses dispersi dan filtering. Penelitian tentang distribusi lognormal yang sudah dilakukan antara lain Estimasi mean dari distribusi lognormal dan koreksi selang kepercayaan dari mean distribusi lognormal (Zhou, dan Gao, 1999) dan Shen (2003) dalam disertasinya membahas tentang estimasi dan selang kepercayaan pada mean dari distribusi lognormal, estimasi regresi nonparametrik dengan error berdistribusi lognormal menggunakan estimator polinomial lokal. Peneliti tertarik untuk melakukan penelitian tentang distribusi lognormal yang berkaitan dengan model regresi nonparametrik. Chamidah (2004) telah melakukan penelitian tentang estimasi selang kepercayaan kurva regresi nonparametrik dengan error lognormal berdasarkan Estimator Spline, Estimator Polinomial Lokal dan Estimator Kernel kemudian membandingkan hasil ketiga estimasi selang kepercayaan tersebut berdasarkan nilai coverage probabilitasnya.
-
Inferensi Kurva Regresi Nonparametrik Berdasarkan Estimator Polinomial Lokal dengan Error Lognormal (Nur Chamidah)
63
Dalam Statistika, setelah melakukan estimasi titik dan selang kepercayaan pada kurva regresinya maka sangat perlu untuk melanjutkan inferensi statistiknya dengan melakukan pengujian hipotesis untuk mengetahui signifikansi dari hasil estimasi kurvanya. Pengujian hipotesis merupakan bagian yang sangat penting untuk mengambil keputusan. Dengan melakukan pengujian hipotesis seorang peneliti akan dapat menjawab pertanyaan-pertanyaan yang diajukannya dengan menyatakan penolakan atau penerimaan terhadap hipotesis.
Pada tulisan ini akan dibahas bagaimana inferensi statistik dengan pengujian hipotesis terhadap kurva regresi nonparametrik dengan error lognormal berdasarkan Estimator Polinomial Lokal kemudian membuat program pada Software S-Plus 2000 yang akan diterapkan pada data riil yaitu data pohon jenis Gmelina Arborea Roxb di areal HTI Trans-Wanakasita Nusantara Jambi untuk menguji signifikansi estimasi kurvanya. METODE PENELITIAN
Metodologi yang dilakukan pada penelitian ini adalah (1) Melakukan Inferensi Statistik pada kurva regresi nonparametrik berdasarkan Estimator Spline dengan error lognormal dengan pengujian hipotesis dengan langkah-langkah (a) menentukan distribusi dari estimasi kurva regresi nonparametrik berdasarkan Estimator Polinomial Lokal dengan error lognormal, (b) menentukan statistik uji estimasi kurva regresi nonparametrik berdasarkan Estimator Polinomial Lokal dengan error lognormal, (c) menentukan daerah penolakan dan penerimaan terhadap hipotesis untuk pengambilan keputusan, (d) menarik kesimpulan tentang signifikansi dari estimasi kurva regresinya; (2) Membuat program pada Software S-Plus 2000 untuk dapat mengaplikasikan tujuan pertama pada data riil dengan (a) membuat algoritma program untuk mendapatkan mean dan variansi dari hasil estimasi kurvanya, (b) membuat algoritma program untuk menentukan statistik ujinya, (c) membuat algoritma program untuk mendapatkan keputusan dan kesimpulan tentang signifikansi estimasi kurvanya; (3) Menerapkan hasil pada tujuan penelitian pertama dan kedua untuk menguji signifikansi kurva hasil estimasi volume pohon terhadap diameter pohon pada data pohon Gmelina Arborea Robx berdasarkan Estimator Spline dengan (a) menentukan variabel respon yaitu volume pohon (m3) dan variabel prediktor yaitu diameter pohon (cm) yang diukur pada ketinggian 1,3 m dari permukaan tanah, (b) mengurutkan data dari kecil ke besar berdasarkan diameter pohonnya, (c) menerapkan program yang telah dibuat untuk menguji signifikansi hasil estimasi kurvanya pada data pohon tersebut.
HASIL DAN PEMBAHASAN
Inferensi berdasarkan Estimator Polinomial Lokal Diberikan n data pengamatan ( ) ( )nn zxzx ,,...,, 11 mengikuti model
regresi dengan error multiplikatif ( ) nixmz iii ,........,2,1== dengan i ~ ( )2,0LN (4.1)
-
J. Penelit. Med. Eksakta Vol. 7 No. 1 April 2008: 61-69
64
Model regresi pada persamaan (4.1) ditransformasi menjadi iy = ( ) + iixm , dengan i ~ ( )2,0 N (4.2) dimana )ln( ii = , iy = ( )izln dan ( ) ( )( )ii xmxm ln= dengan ( )2* ,0~ Ni dan ( )( )2,~ ii xmNY
Kurva regresi ( )i* xm tidak diketahui dan dapat diestimasi dengan pendekatan nonparametrik menggunakan estimator polinomial lokal yang menggunakan fungsi bobot yaitu fungsi kernel fungsi kernel ( )0ih xxK .Bentuk bobot Polinomial Lokal ditentukan oleh fungsi Kernel K(.) sedangkan ukuran bobot ditentukan oleh parameter h yang disebut bandwitdh. Berdasarkan pendekatan Estimator Polinomial Lokal model pada persamaan (4.2) dapat ditulis dengan notasi matrik menjadi:
+= XY (4.3) Selanjutnya didefinisikan matrik-matrik yang akan digunakan dalam metode kuadrat terkecil terboboti sebagai berikut.
( ) ( )( ) ( )
=
Pnn
P
xXxX
xXxXX
00
0101
1
1
LMMM
L dan ,
=
P
M
0
dan
=
p
0
M (4.4)
di samping itu didefinisikan pula W = diag ( ) ( ){ }00 xXK ixhk W=
( ) ( )( ) ( )
( ) ( )
0
02
01
0
0
0
0000
0000
xXK
xXKxXK
nxh
xh
xh
k
k
k
LOM
ML
(4.5)
W adalah matrik yang berisi fungsi bobot, dimana ( ).hK adalah fungsi kernel K . Untuk mendapatkan nilai digunakan metode kuadrat terkecil terboboti sebagai berikut :
( ) ( ) XyWXyS T = WXXWYXWyy TTTTT += 2
(4.6) Nilai dugaan kuadrat terkecil terboboti untuk adalah yang bila disubstitusikan ke dalam persamaan (4.6) akan meminimumkan S diperoleh : ( ) WYXWXX TT 1 = (4.7) Setelah mendapatkan , kita akan mendapatkan ( )xm dengan memasukkan nilai ke dalam persamaan berikut :
( ) ( ) ( )pp xxxxxm 0010 +++= L (4.8)
-
Inferensi Kurva Regresi Nonparametrik Berdasarkan Estimator Polinomial Lokal dengan Error Lognormal (Nur Chamidah)
65
sehingga estimasi untuk model (4.1) diperoleh
( ) ( )( ) ( ) pipi
i
xxxx
xmi
e
exm
0010 +++==
L (4.9)
Dari persamaan (4.7) diperoleh nilai ekspektasi dari estimator untuk adalah sbb: ( )E = ( )[ ]WYXWXXE TT 1
= ( ) ( ) + XWEXWXX TT 1 = ( ) ( )WXXWXX TT 1 = (4.10)
Selanjutnya nilai variansi dari estimator untuk adalah sebagai berikut. var ( ) = var ( )[ ]WYXWXX TT 1
= ( )[ ] ( ) ( )[ ]11 var WXXWXWXWXX TTT = ( )[ ] ( )[ ]121 WXXWXWXWXX TTT , misal matrik diagonal
TAAW = = ( )[ ] ( )[ ]1TTT2TT1TT XAAXXAAAAXXAAX = ( ) ( )[ ] ( ) ( )[ ]1T1TT2TT1T1T AXXAXAAAAXAXXA = ( )[ ] ( )[ ] ( ) 21121 = XXAXAAXA TTTT (4.11)
Berdasarkan persamaan (4.10) , (4.11), diperoleh distribusi dari ( )( )21T XX , N~ sehingga didapatkan statistik uji: p ,... 1, 0,i ,N(0,1)~
a
Z
2ii
ii ==
(4.12)
dimana iia adalah elemen diagonal ke-i dari matrik ( ) 1XX T . Jika pada persamaan (4.12) 2 tidak diketahui dan diestimasi dengan
2 maka diperoleh statistik uji : p ,... 1, 0,i ,t~
a
T p-n2
ii
ii ==
(4.13)
keterangan: pnt menunjukkan distribusi t dengan nilai derajat bebas (db) adalah n-p. Dengan hipotesis H0 : i = 0 dan H1 : i 0 , maka berdasarkan statistik uji
pada persamaan (4.12) dan (4.13) masing-masing diperoleh daerah kritis 2/i ZZ atau 2/i ZZ dan 2/,pni tT atau 2/,pni tT .
Selanjutnya diturunkan statistik uji F untuk hipotesis sebagai berikut. H0: 1 = 2 = ... = p= 0
-
J. Penelit. Med. Eksakta Vol. 7 No. 1 April 2008: 61-69
66
H1 : minimal ada satu i 0 , i = 1, 2, ... , p Metode yang akan digunakan untuk menguji H0 adalah ANOVA. Jumlah Kuadrat Error (SSE) merupakan bentuk kuadrat dalam Y sbb:
SSE = ( )[ ] PYYYXWWXXXIY 1 = dengan P = ( )[ ]XWWXXXI 1 SSE / 2 = ( )PY/1Y 2 , karena matrik P idempoten dan var (Y) = 2 I maka ( ) IP/1 22 juga idempoten sehingga berdasarkan Teorema 2.2 diperoleh: SSE / 2 ~ pN2 , dengan p adalah rank matrik X. Jumlah Kuadrat Regresi (SSR) = YX = ( )[ ]YWXWXXXY 1
Karena ( ) WXWXXX 1 matrik idempoten dan perkaliannya dengan ( )[ ]XWWXXXI 1 adalah 0 maka SSR dan SSE independen sehingga
berdasarkan Teorema 2.2 diperoleh SSR/ 2 ~ ( )22/XX,p2 Dengan menerapkan definisi distribusi F non-sentral maka diperoleh statistik uji F sbb:
F = ( )pn/SSEp/SSR ~ F ( )22/XX,pn,p
Selanjutnya ringkasan perhitungan diatas ditunjukkan pada Tabel 1. Tabel 1. ANOVA
Sumber Variasi db
Jumlah Kuadrat (Sum of square)
Kuadrat Tengah (Mean square)
Statistik F (F-statistic)
Regresi p SSR = YX MSR=SSR/p Error n-p SSE = YY - YX MSE=SSE/(n-p)
Total n SST = YY F=MSR/MSE
Berdasarkan statistik uji F, diperoleh daerah kritis (daerah penolakan H0) adalah Statistik ( ),pn,pFF > . Aplikasi Inferensi Estimator Polinomial Lokal
Salah satu hasil hutan yang ada di Indonesia adalah Gmelina Arborea Roxb, tumbuhan ini berasal dari famili Verbenaceae. Pohon Gmelina Arborea Roxb, tumbuh sangat cepat, tingginya bisa mencapai 40 meter. Batangnya kurus dan permukaannya halus, dan berwarna abu-abu gelap, yang semakin lama akan berwarna coklat. Daunnya berbentuk seperti hati dan bunganya berwarna oranye dan kuning, dan menghasilkan madu. Kayu dari pohon ini memiliki banyak kegunaan, di dunia industri kayu Gmelina Arborea Roxb digunakan untuk furniture, bahan untuk pengepakan, chipboard, kano, alat musik dan lain-lain. Jika dibandingkan dengan jenis kayu yang lain Gmelina Arborea Roxb sangat baik untuk industri kertas. Para pemeluk agama Hindu menggunakan akar, kulit batang dan buahnya untuk obat-obatan (www.klfp.com). Oleh karena itu peneliti tertarik menggunakan data pohon Gmelina Arborea Robx di HTI Trans-Wanakasita Jambi untuk melakukan inferensi statistiknya berdasarkan
-
Inferensi Kurva Regresi Nonparametrik Berdasarkan Estimator Polinomial Lokal dengan Error Lognormal (Nur Chamidah)
67
estimator polinomial lokal dengan diameter pohon (cm) sebagai variabel prediktor (X) dan volume pohon (m3) sebagai variabel respon (Y). Setelah itu akan ditentukan bandwidth optimal berdasarkan kriteria GCV dengan membuat program dengan Software S-PLUS 2000 (lihat lampiran 2). Untuk model kuadratik (p=2) dan 9,110 =x , diperoleh nilai bandwidth optimal 8,85 berdasarkan nilai GCV yang minimum 0.0326. Dengan menggunakan nilai bandwidth optimal tersebut diperoleh ( ) ( )009915025696908322592210 .;.;.,, T == dan ( ) ( ) ( )2iii 9.11x009915.09.11x256969.0832259.2xmi eeZ +== .
Dari hasil estimasi diperoleh plot dari estimasi kurva dan selang kepercayaannya tampak pada Gambar 1.
1 0 1 5 2 0
D ia m e te r P o h o n
0.0
0.1
0.2
0.3
0.4
Vol
ume
Poh
on
1 0 1 5 2 0
D ia m e te r P o h o n
0.0
0.1
0.2
0.3
0.4
Vol
ume
Poh
on
1 0 1 5 2 0
D ia m e te r P o h o n
0.0
0.1
0.2
0.3
0.4
Vol
ume
Poh
on
1 0 1 5 2 0
D ia m e te r P o h o n
0.0
0.1
0.2
0.3
0.4
Vol
ume
Poh
on
Gambar 1. Plot estimasi kurva dan selang kepercayaan
Inferensi selanjutnya adalah melakukan pengujian hipotesis terhadap estimasi kurvanya. Pertama dilakukan pengujian dengan hipotesis sebagai berikut :
H0 : 0 = 1 = 2 = 0 H1 : Tidak semua koefisien regresi bernilai nol.
Dengan membuat program untuk pengujian hipotesisnya pada Software S-PLUS 2000 diperoleh hasil pengujian dengan ANOVA dan uji individu terhadap koefisien-koefisien regresinya, masing-masing tampak pada Tabel 2 dan Tabel 3. Tabel 2. ANOVA dari Hasil Penerapan pada Data Gmelina Arborea Robx
Sumber Variansi Db JK KT Fhit
Ftabel =5%
Model 3 827.4723 275.8241 7783.544 2.705838 Galat 90 3.189315 0.03543683
Total 93 830.6617
= bts. atas = Z = bts.bawah
= observasi
-
J. Penelit. Med. Eksakta Vol. 7 No. 1 April 2008: 61-69
68
Berdasarkan Tabel 2, dengan taraf nyata = 5% diperoleh kesimpulan bahwa tidak semua koefisien regresi bernilai nol, sehingga modelnya signifikan dan koefisien determinasi (R2) sebesar 0.9961605. Selanjutnya dilakukan uji individu terhadap koefisien-koefisien regresi, yaitu 0, 1 dan 2 yang memberikan pengaruh signifikan pada model, dengan menyusun hipotesis sebagai berikut.
H0 : 0 = 0 , H1 : 0 0, H0 : 1 = 0 , H1 : 1 0, H0 : 2 = 0 , H1 : 2 0, Ringkasan inferensi untuk uji ini dapat dilihat dalam Tabel 3.
Tabel 3. Uji Individu dari Hasil Penerapan pada Data Gmelina Arborea Robx
Parameter Estimasi Stdev Nilai T hitung 0 -2.83226 0.003896 -726.975 1 0.25697 0.001022 251.4002 2 -0.009915 0.0001729 -57.35052
Berdasarkan Tabel 3 dan taraf nyata = 5% dengan daerah kritis 1.98667Ti atau 1.98667Ti diperoleh kesimpulan bahwa parameter 0, 1
dan 2 signifikan dalam model. Dari hasil pengujian hipotesis yang tersebut diatas diperoleh kesimpulan bahwa estimator polinomial lokal pada model regresi nonparametrik dengan error lognormal sesuai untuk mengestimasi volume pohon Gmelina Arborea Robx terhadap diameter pohonnya. Selanjutnya didalam pengujian error dengan menggunakan Software Statgrap dengan hipotesis sebagai berikut.
Ho : Error berdistribusi lognormal H1 : Error tidak berdistribusi lognormal Dari hasil pengujian diperoleh nilai p-value 0.250155 dengan = 5 %
diperoleh kesimpulan bahwa errornya berdistribusi lognormal. SIMPULAN DAN SARAN
Dari hasil pembahasan diperoleh kesimpulan sebagai berikut. Dengan pendekatan Estimator Polinomial Lokal diperoleh distribusi
estimator ( )( )21 , ~ XXN T , statistik uji p, ... 1, 0,i , N(0,1) ~ 2
==
ii
ii
aZ
dan statistik Uji F = ( )pn/SSEp/SSR
~ F ( )22/,, XXpnp Model hasil estimasi volume pohon Gmelina Arborea Robx terhadap
diameter pohonnya berdasarkan Estimator Polinomial Lokal adalah : ( ) ( ) ( )29.11009915.09.11256969.0832259.2 +== iii xxxm eeY Estimator polinomial lokal pada model regresi nonparametrik dengan error
lognormal sesuai untuk mengestimasi volume pohon Gmelina Arborea Robx terhadap diameter pohonnya berdasarkan hasil pengujian hipotesis dengan uji F dan uji T dengan koefisien determinasi (R2) sebesar 0.9961605.
-
Inferensi Kurva Regresi Nonparametrik Berdasarkan Estimator Polinomial Lokal dengan Error Lognormal (Nur Chamidah)
69
Saran
Untuk penelitian selanjutnya dapat dikembangkan baik secara teori maupun aplikasi model regresi nonparametrik dengan error lognormal untuk lebih dari satu variabel prediktor. DAFTAR PUSTAKA
Bolotin, V.A., 1994. Telephone Circuit Holding Time Distributions. Procedings of the 14th International Teletroffic Congress, 125-134
Breukelen, G.J.P.V., 1995. Parallel Information Processing Models Compatible with Lognormally Distributed Respons Times. Journals of Mathematical Psychology, 39 , 396-399.
Chamidah, N. 2004. Selang Kepercayaan Kurva Regresi Nonparametrik Dengan error Berdistribusi Lognormal., Laporan Akhir Research Grant Tahun II, Oktober 2004, Unair, Surabaya.
Eckhard L, Werner A, Stahel, and Abbt, M., (2001). Log-normal Distribution Across the Sciences: Keys and Clues. Bio Science, 51(5), 341-352.
Eubank, R.L., 1988. Spline Smoothing and Nonparametric Regression, Marcel Dekker, Inc, New York.
Lacey, L.F., Keene, O.N., Pritchard, J.F. and Bye, A., 1997. Common Noncompartmental Pharmacokinetic Variables:Are They Normally or Lognormally Distributed? Journals of Biopharmaceutical Statistics, 7(1), 171-178.
Schott, J.R., 1977. Matrix Analysis for Statistic, John Wiley & Sons, New York. Shen, H., 2003. Estimation, Confidence Interval, and Nonparametric Regression
for Problem Involving Lognormal Distribution, http:/stat.Wharton.upenn. edu/~haipeng/paper/dissertation.pdf.
www.klfp.com., 2004. Tropical Timbers of the Word USDA Forest Service. Akses tanggal 14/08/04
Zhou, X.H. and Gao, S.J., 1999. Correction toConfidence Intervals for the Log-normal Mean. Statistics in Medicine, 18 , 889-890.