REGRESI NON-PARAMETRIK: SPLINE DENGAN DATA LONGITUDINAL
Regresi nonparametrik merupakan suatu metode dalam analisis regresi untuk memodelkan pola data yang tidak mengikuti pola tertentu.
Pendugaan kurva regresi digunakan untuk menjelaskan hubungan antara peubah penjelas dengan peubah terikat. Pendekatan pendugaan yang paling sering digunakan adalah pendekatan parametrik. Asumsi yang mendasari pendekatan ini adalah kurvaregresi dapat diwakili oleh suatu model parametrik (Hardle, 1990). Dalam regresi parametrik, diasumsikan bahwa bentuk kurva regresi diketahui berdasarkan teori, informasi sebelumnya, atau sumber- sumber lain yang dapat memberi pengetahuan secara terperinci. Apabila model dari pendekatan parametrik diasumsikan benar, maka pendugaan parametrik akan sangat efisien. Tetapi jika tidak, menyebabkan interpretasi data yang menyesatkan. Selain itu, model parametrik mempunyai keterbatasan untuk menduga pola data yang tidak diharapkan. Jika asumsi bentuk kurva parametrik ini tidak terpenuhi, maka kurva regresi dapat diduga menggunakan model regresi dari pendekatan nonparametrik.
Pendekatan nonparametrik merupakan metode pendugaan model yang dilakukan berdasarkan pendekatan yang tidak terikat asumsi bentuk kurva regresi tertentu. Kurva regresi berdasarkan pendekatan nonparametrik ini, diwakili oleh model yang disebut model regresi nonparametrik. Karena sebelumnya tidak ada asumsi mengenai bentuk kurva regresi, model regresi nonparametrik dapat berbentuk fungsi apa saja, baik linier ataupun nonlinier. Semua fungsi dapat digunakan untuk pendugaan dalam model regresi. Komputasi atau perhitungan dalam menduga model, merupakan kendala utama dalam regresi nonparametrik. Seiring dengan perkembangan media komputer yang sangat pesat dewasa ini, regresi nonparametrik turut berkembang pula. Ada beberapa teknik pendugaan nilai peubah respons dalam regresi nonparametrik, yakni penduga kernel, regresi spline, regresi lokal, dll.
Dalam update jurnal kali ini, kita akan fokus pada Regresi Spline dengan data Longitudinal.
Data Longitudinal
Data longitudinal didefinisikan sebagai data yang diperoleh dari pengukuran berulang (repeated measures) pada setiap subjek dengan kurun waktu yang berbeda. Secara umum himpunan data longitudinal dituliskan sebagai berikut:
(yi:j,ti:j,xi:j) , i= 1, 2,….,m dan j=1, 2,….,n.
dengan menyatakan banyaknya subjek dan menyatakan banyaknya pengamatan. yi:j menyatakan waktu pengamatan untuk subyek ke-i pada waktu ke-j, ti:j menyatakan variabel respon yang diamati pada waktu dan xi:j menyatakan pengamatan pada waktu.
Regresi Spline dengan Metode Penalized Spline pada Data longitudinal
Regresi spline merupakan suatu pendekatan ke arah pencocokan data dengan tetap memperhitungkan kemulusan kurva. Spline ini merupakan potongan polinomial tersegmen yang dihubungkan oleh titik-titik knot yang dapat menjelaskan karakteristik dari data. Penjelasan dari knot sendiri adalah titik perpaduan bersama yang menjelaskan terjadinya perubahan perilaku dari fungsi spline pada interval- interval yang berbeda.
Regresi Spline dengan metode Penalized Spline merupakan salah satu jenis dari bentuk regresi spline. Dalam regresi penalized spline ini modelnya diperoleh dengan meminimumkan fungsi Penalized Least Square (PLS). Penalized Least Square (PLS) adalah fungsi pendugaan yang menggabungkan antara fungsi least square dan kemulusan kurva (smooth). Model regresi nonparametrik untuk data longitudinal adalah sebagai berikut:
misalkan x merupakan observasi yang ditentukan dimana fungsi akan diestimasi dengan Fungsi Penalized Least Squares (PLS). Penalized spline adalah salah satu teknik pemulusan (smoothing) yang berpengaruh besar pada data yang tidak berkorelasi dan independen. Penalized spline menjadi salah satu alternatif untuk memecahkan masalah dalam regresi spline. Fungsi Penalized Least Square untuk data longitudinal adalah sebagai berikut:
dengan matriks D adalah sebagai berikut:
Sehingga diperoleh:
dengan fungsi truncated sebagai berikut:
dengan i= 1, 2, ….,m ; j=1, 2,….,n dan nilai q= 1, 2,…, r. Oleh karena itu diperoleh model regresi nonparametrik spline truncated untuk data longitudinal untuk orde kep adalah sebagai berikut:
Persamaan di atas dapat ditulis sebagai berikut:
dengan vektor responnya adalah sebagai berikut:
matriks prediktornya dijabarkan sebagai berikut:
dengan ukuran matriks desain Xi adalah n x ( p + r +1). Vektor parameternya adalah sebagai berikut:
dengan ukuran dengan demikian persamaan regresi spline dengan metode penalized spline pada data longitudinal dapat dinyatakan dalam notasi matriks sebagai berikut:
y = XSS + e
dimana y: vektor respon berukuran, X: matrikss prediktor dengan ukuran, mn x m(p+r+1), ß: vektor berukuran mn x m(p+r+1), ß, e: vektor galat random berukuran mn x 1
Ketika dilakukan estimasi terhadap y, maka diperoleh persamaan berikut:
atau bila dijabarkan model estimasi regresi spline dengan metode penalized spline dapat ditulis sebagai berikut:
Persamaan matriks fungsi penalized least square pada persamaan di atas dapat ditulis sebagai berikut
Q = || y - X ß ||2 + λ ßTD ß
dimana D = diag(0p+1,1r)
Dengan metode OLS diperoleh estimasi parameter maka
Sehingga kelayakan pada semua desain waktu dapat diekspresikan menjadi
dengan matriks Ap adalah matriks penghalus.
Pemilihan Knot
Pendugaan fungsi penalized spline bergantung pada banyaknya titik knot (r). Letak titik knot ke- k dalam penalized spline terdapat pada sampel kuantil ke-j dari nilai unique (tunggal) variabel independen dengan j= . Maksudnya adalah letak titik knot ini membagi sekumpulan pengamatan menjadi (1+r) bagian yang sama.
Parameter Pemilihan Smoothing λ
Metode yang digunakan untuk memilih parameter smoothing λ adalah menggunakan Generalized Cross Validation (GCV). Parameter penghalus yang optimal akan diperoleh berdasarkan nilai GCV yang minimum. Fungsi GCV dapat dinyatakan sebagai berikut:
dimana GCV adalah nilai GCV dengan N adalah banyaknya pengamatan sebanyak m subjek x n pengamatan, yi:j adalah data aktual subyek ke-i pada pengamatan ke-j dan adalah hasil dari subyek ke-i pada pengamatan ke-j dengan tr(A λ)= tr[X(XTX+ λD)-1XT]
Metode Pemilihan Terbaik untuk
Untuk mengetahui seberapa akurat peramalan yang dihasilkan dapat digunakan nilai koefisien determinasi (R2). Koefisien determinasi adalah koefisien yang mengukur seberapa jauh kemampuan sebuah model dalam menerangkan variasi variabel dependen. Nilai R2 dapat dinyatakan sebagai berikut:
Dimana R2 adalah koefisien determinasi, Yi:j adalah data aktual subjek ke-i dan pengamatan ke-j, adalah data prediksi subjek ke-i dan pengamatan ke-j dan
adalah rata-rata data aktual. Salah satu cara untuk mengetahui ketepatan peramalan sebuah model dapat menggunakan nilai Mean Absolute Percentage Error (MAPE). Rumus MAPE dituliskan sebagai berikut:
dengan adalah data aktual subjek ke-i pada pengamatan ke-j, adalah hasil estimasi subjek ke-i pada pengamatan ke-j dan N adalah banyaknya pengamatan ( subjek pengamatan). Semakin kecil nilai MAPE semakin akurat peramalan sebuah model. Untuk MAPE < 10% maka kemampuan peramalan sangat baik, 10% ≤ MAPE < 20% artinya bahwa kemampuan peramalan baik, 20% ≤ MAPE < 50% artinya bahwa kemampuan peramalan cukup dan bila MAPE ≥ 50% maka artinya bahwa kemampuan peramalan buruk.
Sumber:
Pemodelan Regresi Spline Menggunakan Metode Penalized Spline Pada Data Longitudinal (Studi Kasus: Harga Penutupan LQ45 Sektor Keuangan Dengan Kurs Usd Terhadap Rupiah Periode Januari 2011-Januari 2016)
http://www.statistics.its.ac.id/?page_id = 1858
https://sugiartounsoed.wordpress.com/2011/06/07/perbedaan-regresi-parametrik-dan-regresi-nonparametrik/
Jl. Kramat Setu No.130, RT.006/RW.001, Bintara Jaya, Kec. Bekasi Bar., Kota Bks, Jawa Barat 17136
Anda butuh jasa olah data skripsi, tesis, konsultasi statistik dan pelatihan statistik?
Hubungi kami melalui media sosial kami atau
Phone : 089603614962
Email : mail@scsibekasi.org
© Copyright 2021. Statistics Center. All Right Reserved.