Cara Mendeteksi Data Outlier dengan SPSS

Tuesday, 14 April 2015

Portal-Statistik | Pemeriksaan terhadap data merupakan langkah awal yang harus dilakukan sebelum masuk tahap analisis lebih lanjut, pemeriksaan terhadap data merupakan tahap yang sangat penting sebelum melanjutkan ke tahap analisis lebih kompleks, pemeriksaan terhadap data ini sering kali dilupakan orang sehingga menyebabkan hasil analisisnya bias atau kurang baik.
Pemeriksaan terhadap data berguna untuk mengetahui karakteristik data, contohnya adalah memeriksa data yang outlier, missing value dan sebagainya.

Ya sesuai dengan judul diatas, yaitu Cara Mendeteksi Data Outlier dengan SPSS, saya akan membagikan tutorial Cara Mendeteksi Data Outlier dengan SPSS. Ada beberapa metode yang sering digunakan untuk mendeteksi data outlier, seperti dengan pendekatan grafis yaitu dengan scatter plot atau box plot dan juga pendekatans secara statistik yaitu dengan melakukan standarisasi data.

Outlier

Outliers adalah data yang muncul memiliki karakteristik unik yang terlihat sangat jauh berbeda dari observasi-observasi lainnya dan muncul dalam bentuk nilai ekstrim baik untuk sebuah variabel tunggal atau variabel kombinasi. Data ekstrim tersebut muncul karena berbagai kemungkinan seperti kesalahan prosedur dalam memasukkan data atau mengkoding, karena keadaan yang benar-benar khusus seperti pandangan responden terhadap sesuatu yang menyimpang, karena ada sesuatu alasan yang tidak diketahui penyebabnya oleh peneliti, muncul dalam range nilai yang ada, tetapi bila dikombinasi dengan variabel lain menjadi ekstrim (disebut multivariat outliers).

Contoh data yang mengandung outlier bisa dilihat pada gambar dibawah.

Outlier/anomali adalah sehimpunan data yang dianggap memiliki sifat yang berbeda dibandingkan dengan kebanyakan data lainnya. Analisis outlier dikenal juga dengan analisis anomali atau deteksi anomali atau deteksi deviasi (nilai atributnya objek tsb, signifikan berbeda dengan nilai atribut objek lainnya ) atau exception mining

Manfaat Menggunakan Analisis Outlier

1.    Deteksi penyalahgunaan kartu kredit
2.    Deteksi adanya penyusupan pada jaringan komunikasi
3.    Analisis Medis
4.    Segmentasi data pelanggan, dsb

Penyebab adanya Outlier

1.    Data berasal dari sumber yang berbeda
2.    Variasi natural data itu sendiri
3.    Error pada saat pengukuran atau pengumpulan data

Standarisasi Data, Scatter Plot, Box Plot

Deteksi data dengan standarisasi pada prinsipnya mengubah nilai data menjadi bentuk Z, dengan

kemudian menafsirkan nilai Z tersebut.

Scatter plot adalah sebuah grafik yang biasa digunakan untuk melihat suatu pola hubungan antara 2 variabel. Untuk bisa menggunakan scatter plot, skala data yang digunakan haruslah skala interval dan rasio. Scatter plot juga dapat digunakan untuk mendeteksi data outlier.

Box Plot dapat juga digunakan untuk mengetahui data extreme (outlier) dari suatu data. Box Plot dapat digambarkan dalam posisi vertical maupun horizontal. Apabila digambarkan dalam vertical, maka data terkecil berada di paling bawah dan data terbesar berada di paling atas. Sedangkan dalam posisi horizontal, data terkecil terletak di sebelah kiri dan terbesar di sebelah kanan. Dalam artikel ini posisi untuk Box Plot adalah posisi vertical. Box Plot disebut juga box and whisker diagram, diagram yang secara visual menunjukkan pusat data, distribusi, dan lima ringkasan data, yaitu: Rata-rata (mean), Median atau Q2, Q1, Q3, dan Outlier.
STUDI KASUSAn experiment was conducted to study the size of squid eaten by sharks and tuna. The data are given as follows:

...

X1	X2	X3	X4	X5	Y
1.31	1.07	0.44	0.75	1	1.95
1.55	1.49	0.53	0.9	0	2.9
0.99	0.84	0.34	0.57	0	0.72
0.99	0.83	0.34	0.54	0	0.81
1.01	0.9	0.36	0.64	0	1.09
1.09	0.93	0.42	0.61	0	1.22
1.08	0.9	0.4	0.51	1	1.02
1.27	1.08	0.44	0.77	1	1.93
0.99	0.85	0.36	0.56	0	0.64
1.34	1.13	0.45	0.77	0	2.08
3.3	1.1	0.45	0.76	0	1.98
1.33	1.1	0.48	0.77	0	1.9
1.86	1.47	0.6	1.01	1	8.56
1.58	1.34	0.52	0.95	0	4.49
1.97	1.59	0.67	1.2	0	8.49
1.8	1.56	0.66	1.02	0	6.17
1.75	1.58	0.63	1.09	0	7.54
1.72	1.43	0.64	1.02	0	6.36
1.68	1.57	0.72	0.96	1	7.63
1.75	1.59	0.68	1.08	1	7.78
2.19	1.86	0.75	1.24	0	10.15
1.73	1.67	0.64	1.14	0	6.88

...
X1 = rostral length, in inches,
X2 = wing length, in inches,
X3 = rostral to notch length, in inches,
X4 = notch to wing length, in inches,
X5 = gender
Y = weight, in pounds.

Carilah data yang mengandung outlier…!

Deteksi Data Outlier dengan Scatter Plot dan Box Plot

Adapun langkah-langkahnya adalah.

Membuka aplikasi SPSS 22 dengan melakukan double click pada icon desktop.
Setelah aplikasi SPSS terbuka dan siap digunakan, buat nama variabel X1, X2, X3, X4, X5, dan Y dengan melakukan klik pada button Variable View.
Kemudian masukkan data sesuai studi kasus, dengan melakukan klik pada button Data View. Seperti terlihat pada gambar dibawah ini.
Selanjutnya dilakukan pendeteksian data outlier dengan metode scatter plot, box plot dan melihat linearitas data, klik menu Graph – Regression Variable Plots, kemudian masukkan variabel Y kedalam kotak Vertical Axis Variables dan variabel X1, X2, X3, X4 ke dalam kotak Horizontal Axis Variables, klik menu button Option, isi sesuai dengan gambar , selanjutnya klik Continue dan OK.

Sehingga muncul outpue seperti dibawah ini,

Pendeteksian data outlier dengan menggunakan Scatter Plot dan Box Plot dapat dilihat pada gambar, pada scatter plot, data yang outlier dapat dilihat pada titik yang ditunjukkan dengan point atau titik yang menyendiri pada variabel X1 diatas, pada data tersebut hanya ada 1 data yang outlier, data tersebut terlihat berbeda dan jauh dari yang lainnya, sehingga data tersebut dapat dikatakan data outlier.

Dengan menggunakan Box Plot juga dapat terlihat data yang outlier, data yang menyendiri dan keluar dari box dikatakan data yang outlier dan hanya terdapat 1 data saja yaitu pada variabel X1.

Deteksi Outlier dengan Standarisasi Data

Metode yang lain yang dapat digunakan untuk mendeteksi data outlier adalah dengan melakukan standarisasi Z-Score pada data.

Adapun langkah-langkahnya adalah: Klik menu Analyze – Descriptive Statistics – Descriptives, pata kotak dialog Descriptives, masukkan seluruh variabel kedalam kotak variable(s) dan berikan centang pada Save standardized values as variables, kemudian klik OK.

Sehingga muncul output seperti table dibawah ini.

...

NO	ZX1	ZX2	ZX3	ZX4	ZX5	ZY
1	-0.46989	-0.60954	-0.62813	-0.47102	1.59545	-0.70012
2	-0.01549	0.68819	0.04779	0.18761	-0.59829	-0.40386
3	-1.07577	-1.3202	-1.37917	-1.26137	-0.59829	-1.08371
4	-1.07577	-1.3511	-1.37917	-1.3931	-0.59829	-1.05564
5	-1.0379	-1.13481	-1.22896	-0.95401	-0.59829	-0.96832
6	-0.88643	-1.04211	-0.77834	-1.08574	-0.59829	-0.92778
7	-0.90536	-1.13481	-0.92855	-1.52482	1.59545	-0.99015
8	-0.54563	-0.57864	-0.62813	-0.3832	1.59545	-0.70636
9	-1.07577	-1.2893	-1.22896	-1.30528	-0.59829	-1.10866
10	-0.41309	-0.42415	-0.55303	-0.3832	-0.59829	-0.65958
11	3.29787	-0.51684	-0.55303	-0.42711	-0.59829	-0.69077
12	-0.43203	-0.51684	-0.32772	-0.3832	-0.59829	-0.71572
13	0.57145	0.62639	0.57351	0.6706	1.59545	1.36127
14	0.04131	0.22471	-0.02731	0.40715	-0.59829	0.092
15	0.77971	0.99717	1.09924	1.50486	-0.59829	1.33943
16	0.45785	0.90448	1.02413	0.71451	-0.59829	0.61592
17	0.36318	0.96627	0.79882	1.02187	-0.59829	1.04317
18	0.30638	0.5028	0.87393	0.71451	-0.59829	0.67517
19	0.23064	0.93537	1.47475	0.45106	1.59545	1.07124
20	0.36318	0.99717	1.17434	0.97796	1.59545	1.11801
21	1.19625	1.83142	1.70006	1.6805	-0.59829	1.85712
22	0.32531	1.24436	0.87393	1.24141	-0.59829	0.83734

...
Data dikatakan outlier atau terpencil (pencilan) apabila nilai Z lebih besar dari +2,5 atau Z lebih kecil dari -2,5. Secara teori, untuk memperoleh nilai Z rumusnya adalah sebagai berikut:

Dimana

xi = nilai pengamatan ke-i

x ̅ = rata-rata nilai pengamatan

s = standar deviasi nilai pengamatan.
Berdasarkan hasil analisis pada data standarisasi tersebut, diperoleh data yang outlier adalah data pada variabel X1, pada data ke 11 dengan nilai Z = 3.29787.

Demikian postingan tentang Cara Mendeteksi Data Outlier dengan SPSS,

semoga bermanfaat.

Have Fun.

Tag : Statistik SPSS

20 Komentar untuk "Cara Mendeteksi Data Outlier dengan SPSS"

Balas

Rizal A. Maulana

14 June 2015 at 13:18

Selamat siang.
Perkenalkan saya Rizal dari Madiun. Ada yang ingin saya tanyakan, jika kita sudah mengetahui adanya data outlier, dan ingin menghapusnya supaya bisa digunakan dalam analisis lebih lanjut, data manakah yang harus dihapus ? apakah data awal atau data nilai zscorenya saja ? Kalau seperti contoh di atas apakah data ke-11 pada nilai x1 atau zx1 ?

Portal Statistik

15 June 2015 at 00:12

salam kenal juga mas Rizal, penanganan data outlier salah satunya adalah dengan cara menghapus data yg outlier tersebut, data yang dihapus tentunya data aslinya mas, kemudian silahkan di cek kembali.
Penghapusan data tsb harus ada dasarnya jg, kenapa harus dihapus, atau misalnya tujuannya adalah untuk melihat pengaruh variabel dependent terhadap variabel independent bisa menggunakan metode analisis regresi robust., dsb.

freshlines

13 August 2015 at 15:57

apakah jika data oulier, apakah data tersebut tetap bisa digunakan dalam analisis lebih lanjut (uji normalitas dst...) ?
wawan-jogja

18 August 2015 at 07:53

bisa saja dilakukan analisis lebih lanjut, tapi nanti hasilnya tidak bagus, jika data ada yang outlier akan lebih baik di tangani terlebih dahulu.

Unknown

30 September 2015 at 01:40

Mas, data saya adalah 1variabel dependen/terikat (Y) dan 3 variabel independen/bebas (X), setelah dianalisis ada 2 data outlier yang terjadi pada 2 variabel saya yaitu pada variabel Y dan varibael X1, apakah yang dihapus cuma 2 data ( pada Y dan X1) itu saja atau di pukul rata dihapus masing-masing 1 variabel (pada X2 dan X3) dicari data yang mendekati kriteria data outlier ? trima kasih.

20 October 2015 at 17:36

mas, boleh saya minta sumber buku cara yang kedua yaitu standarisasi z score ngak?

20 October 2015 at 19:50

to Juli Kalia : Kalo boleh saya bantu, buku yang digunakan bisa buku SPSS Karya Imam Ghozali, atau Buku karya Sufren dan Natanael - Mahir menggunakan SPSS secara Otodidak.. Semoga membantu..

20 October 2015 at 20:12

itu sudah dijawab sama mas Rizal di comment yang dibawah, di buku pak Imam Ghazali yang Analisis Multivariate dengan SPSS
Terimakasih

20 October 2015 at 20:13

Terimakasih mas RIzal.

Husna

17 November 2015 at 08:17

Assalamu'alaykum mas, Zlebih kecil dari -2.5 apa termasuk data outlier? seperti -0.628, data yg saya olah menghasilkan banyak angka sprt itu, trm ksh sebelumnya,

19 July 2016 at 09:50

Assalamualaikum Mas, saya mau tanya, untuk penanganan outlier apakah bisa dengan mengganti data outlier tersebut dengan median atau mean? apakah ada referensi buku atau jurnal untuk hal tersebut? Terima kasih mas

1 August 2016 at 13:17

Assalamualaikum mas, saya mau bertanya.
Apabila kita menggunakan variabel < 10 kan kita harus mengeliminasi variabel mana yang berpegaruh atau tidak. Selain itu kita juga harus mengeliminasi data mana yang merupakan pencilan, untuk proses eliminasi pencilan itu sendiri dilakukan setelah kita melakukan uji koefisien korelasi atau sebelum melakukan uji?
terimakasih