Analisis Regresi Logistik Metode Stepwise dengen SPSS

Saturday, 4 April 2015

portal-statistik | Logistic Regression atau biasa kita sebut Regresi Logistik sebenarnya mirip dengan analisis faktor yaitu kita ingin menguji apakah probabilitas terjadinya variabel terikat dapat diprediksi dengan variabel bebasnya.

Untuk memudahkan pemahaman saya akan berikan beberapa contoh kasus yang bisa dianalisis dengan menggunakan regresi logistic

Seorang dokter ingin mengetahui apakah probabilitas seorang pasien terserang penyakit jantung dapat diprediksi dari tekanan darah, kadar kolestrol, kalori yang dimakan, jenis kelamin dan gaya hidup.
Seorang auditor ingin menentukan probabilitas sebuah perusahaan bangkrut dengan melihat beberapa rasio keuangan, ukuran besarnya perusahaan (besar atau kecil).

Analisis regresi logistik digunakan untuk menjelaskan hubungan antara variabel respon yang berupa data dikotomik/biner dengan variabel bebas yang berupa data berskala interval dan atau kategorik, (Hosmer dan Lemeshow, 1989). Variabel yang dikotomik/biner adalah variabel yang hanya mempunyai dua kategori saja, yaitu kategori yang menyatakan kejadian sukses (Y=1) dan kategori yang menyatakan kejadian gagal (Y=0). Pada model model linear umum komponen acak tidak harus mengikuti sebaran normal, tapi harus masuk dalam sebaran keluarga eksponensial. Sebaran bernoulli termasuk dalam salah satu dari sebaran keluarga eksponensial. Variabel respon Y ini, diasumsikan mengikuti distribusi Bernoulli.

Bentuk umum model peluang regresi logistik dengan p variabel penjelas, diformulasikan sebagai berikut:

dengan π(x) adalah peluang kejadian sukses dengan nilai probabilita 0≤π(x)≤1 dan βj adalah nilai parameter dengan j = 1,2,......,p. π(x) merupakan fungsi yang non linier, sehingga perlu dilakukan transformasi ke dalam bentuk logit untuk memperoleh fungsi yang linier agar dapat dilihat hubungan antara variabel bebas dan variabel tidak bebas. Dengan melakukan transformasi dari logit π(x), maka didapat persamaan yang lebih sederhana, yaitu:

Jika dari beberapa variabel bebas ada yang berskala nominal atau ordinal, maka variabel tersebut tidak akan tepat jika dimasukkan dalam model logit karena angka-angka yang digunakan untuk menyatakan tingkatan tersebut hanya sebagai identifikasi dan tidak mempunyai nilai numerik dalam situasi seperti ini diperlukan variabel dummy. Untuk variabel bebas dengan skala ordinal maupun nominal dengan k kategori, akan diperlukan sebanyak k-1 variabel dummy.

Asumsi-asumsi dalam regresi logistik
Adapun asumsi dalam analisis regresi logistik adalah:

Tidak mengasumsikan hubungan linier antar variabel dependent dan independent
Variabel dependent harus bersifat dikotomi (2 variabel)
Variabel independent tidak harus memiliki keragaman yang sama antar kelompok variabel
Kategori dalam variabel independent harus terpisah satu sama lain atau bersifat eksklusif
Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50 sampel data untuk sebuah variabel prediktor (bebas).

Pendugaan Parameter
Metode untuk mengestimasi parameter-parameter yang tidak diketahui dalam model regresi logistik ada 3 yaitu:

Metode kemungkinan maksimum (Maximum Likelihood Method)
Metode kuadrat terkecil tertimbang noniterasi (Noniterative Weight Least Square Method)
Analisis fungsi diskriminan (Discriminant Fuction Analysis)

Dari Ketiga metodei di atas, metode yang banyak digunakan adalah metode maksimum likelihood dengan alasan lebih praktis. (Nachrowi dan Usman, 2002). Metode maksimum likelihoood ini menduga parameter dengan nilai yang memaksimumkan fungsi likelihood (likelihood function).

STUDI KASUS
Berikut ini adalah data rangking 138 Bank Nasional Indonesi pada tahun 2003 yang dilihat dari variabel
Asset
Dana3 = Dana pihak ke 3
Kredit = Total kredit diberikan
CAR = Capital Adequacy Ratio
NPL = Non Performing Loan (gross)
ROA = Return On Asset
ROE = Return On Equity
LDR = Load to Deposit Ratio
NIM = Net Interest Margin
ROA1 = Kode (1) kinerja di atas rata-rata industry bank, kode (0) kinerja di bawah rata-rata industry bank

Tujuan analisis adalah variabel-variabel rasio mana saja yang mampu membedakan antara bank yang kinerjanya di atas rata-rata dengan bank yang kinerjanya di bawah rata-rata.

Oke, mari kita mulai analisis datanya.

Silahkan masukkan data yang ingin di analisis ke dalam lembar kerja SPSS, kira-kira nanti hasilnya seperti ini
Klik menu Analyze - Regression - Binary Logistics, masukkan variabel dependent dan independentnya, seilahkan lihat gambar.
Selanjutnya klik Option dan lakukan seperti gambar dibawah ini
Klik Continue dan OK
Sampai saat ini, langkah-langkah analisis regresi logistik telah selesai, selanjutnya mari kita lihat interpretasi output spss.

Cara interpretasi darai Clasification Table tersebut adalah kita lihat pada step 3. Menurut prediksi bank yang kinerjanya di bawah rata-rata (kode 0) adalah 76 Bank, sedangkan hasil observasi hanya 60 jadi ketepatan klasifikasi78.95 (60/76). Sedangkan kita memprediksi bank kinerja diatas rata-rata (kode 1) ada 61 Bank, sedangkan hasil observasi hanya 43 jadi ketepatan klasifikasi 70.5% (43/61) atau secara keseluruhan ketepatan klasifikasi adalah 75.2%.

Omnimbus Test digunakan untuk melakukan uji overall

Hipotesis
Ho : Tidak ada variabel bebas yang signifikan mempengaruhi variabel terikat
H1 : Minimal ada satu variabel yang signifikan mempengaruhi variabel terikat
Tingkat Signifikansi:
α=0.05
Daerah Kritis:
Sig. < α : Tolak H0
Statistika Uji:
Sig. = 0.000
Keputusan Uji
Karena nilai Sig. < 0.05 maka keputusannya adalah tolak H0
Kesimpulan :
Jadi dengan tingkat signifikansi 5% didapatkan kesimpulan bahwa minimal ada satu variabel yang signifikan mempengaruhi variabel terikat, sehingga dapat disimpulkan bahwa model dapat digunakan untuk analisis lebih lanjut

Uji Hosmer and Lemeshow digunakan untuk menguji secara statistik ada atau tidak perbedaan yang signifikan antara model dengan nilai observasi sehingga model sudah fit dengan data atau uji ini digunakan sebagai uji goodness of fit.

Hipotesis
Ho : Model telah cukup mampu menjelaskan data / model fit
H1 : Model tidak cukup mampu menjelaskan data / model tidak fit
Tingkat Signifikansi:
α=0.05
Daerah Kritis:
Sig. < α : Tolak H0
Statistika Uji:
Sig. = 0.315
Keputusan Uji
Karena nilai Sig. > 0.05 maka keputusannya adalah gagal tolak H0
Kesimpulan :
Jadi dengan tingkat signifikansi 5% didapatkan kesimpulan bahwa model regresi logistic telah cukup mampu menjelaskan data / model fit.

Cox dan Snell’s R Square merupakan ukuran yang mencoba meniru ukuran R2 pada multiple regression yang didasarkan pada teknik estimasi likelihood dengan nilai maksimum kurang dari satu sehingga sulit dinterpretasikan. Negelkerke R Square merupakan modifikasi dari koefisien Cox dan Snell’s untuk memastikan bahwa nilainya bervariasi dari 0 sampai 1. Hal ini dilakukan dengan cara membagi nilai nilai Cox dan Snell’s R Square dengan nilai maksimumnya. Nilai Negelkerke R Square dapat diinterpretasikan seperti nilai R2 pada multiple regression. Seperti pada gambar, nilai Cox dan Snell’s R Square = 0.424 dan nilai Negelkerke R Square = 0.567 yang berarti variabilitas variabel dependent yang dapat dijelaskan oleh variabilitas variabel independent sebesar 56.7%.

Sehingga didapatkan model regresi yaitu:

Semakin tinggi nilai CAR, ROE dan NIM bank, maka probabilitasbank mempunyai kinerja diatas rata-rata juga semakin baik.

Demikian yang dapat saya bagikan, semoga bermanfaat buat teman-teman semua,
Terimakasih.
HAVE FUN.
www.portal-statistik.com

Tag : Statistik SPSS