statistika - korelasi pearson

12
Magister-TP. Statistika – Korelasi Pearson Halaman 1 Korelasi Pearson Korelasi Pearson merupakan salah satu ukuran korelasi yang digunakan untuk mengukur kekuatan dan arah hubungan linier dari dua veriabel. Dua variabel dikatakan berkorelasi apabila perubahan salah satu variabel disertai dengan perubahan variabel lainnya, baik dalam arah yang sama ataupun arah yang sebaliknya. Harus diingat bahwanilai koefisien korelasi yang kecil (tidak signifikan) bukan berarti kedua variabel tersebut tidak saling berhubungan. Mungkin saja dua variabel mempunyai keeratan hubungan yang kuat namun nilai koefisien korelasinya mendekati nol, misalnya pada kasus hubungan non linier. Dengan demikian, koefisien korelasi hanya mengukur kekuatan hubungan linier dan tidak pada hubungan non linier. Harus diingat pula bahwa adanya hubungan linier yang kuat di antara variabel tidak selalu berarti ada hubungan kausalitas, sebab- akibat. Pendahuluan Seringkali peneliti mengamati beberapa parameter dari sampling atau satuan pengamatan yang sama. Sebagai contoh, pada penelitian pengujian suatu jenis pupuk tertentu, selain mencatat hasil padi, mungkin juga Peneliti ingin mencatat beberapa respons lainnya, seperti jumlah bulir, berat 100 biji, jumlah anakan, serapan Nitrogen, serapan kalium dsb. Apabila hanya terdapat dua variabel yang dicatat, dikatakan bivariate, sedangkan apabila lebih, dikatakan multivariate. Variabel yang di catat tersebut nilainya bersifat acak, sehingga dikatakan sebagai variabel acak. Berbeda dengan dosis pupuk yang sudah ditentukan sebelumnya, variabel pupuk tersebut bersifat tetap, sehingga dikatakan variabel tetap. Mungkin saja, selain peneliti ingin melihat hubungan antara dosis pupuk (faktor) dengan hasil padi (respons) , dia juga ingin melihat hubungan di antara pasangan variabel-variabel respons yang dia amati. Apakah peningkatan serapan nitrogen seiring dengan peningkatan hasil atau justru sebaliknya dan bagaimanakah pula kekuatan hubungannya? Kekuatan dan arah hubungan linier di antara kedua variabel tersebut bisa dijelaskan dengan ukuran statistik yang dinamakan dengan “koefisien korelasi”.

Upload: guruh-kartika-widjaja

Post on 27-Nov-2015

50 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: Statistika - Korelasi Pearson

Magister-TP.Statistika–KorelasiPearson Halaman1

Korelasi Pearson

Korelasi Pearson merupakan salah satu ukuran korelasi yang digunakanuntuk mengukur kekuatan dan arah hubungan linier dari dua veriabel.Dua variabel dikatakan berkorelasi apabila perubahan salah satuvariabel disertai dengan perubahan variabel lainnya, baik dalam arahyang sama ataupun arah yang sebaliknya. Harus diingat bahwanilaikoefisien korelasi yang kecil (tidak signifikan) bukan berarti keduavariabel tersebut tidak saling berhubungan. Mungkin saja dua variabelmempunyai keeratan hubungan yang kuat namun nilai koefisienkorelasinya mendekati nol, misalnya pada kasus hubungan non linier.Dengan demikian, koefisien korelasi hanya mengukur kekuatanhubungan linier dan tidak pada hubungan non linier. Harusdiingat pula bahwa adanya hubungan linier yang kuat di antaravariabel tidak selalu berarti ada hubungan kausalitas, sebab-akibat.

Pendahuluan

Seringkali peneliti mengamati beberapa parameter dari sampling atausatuan pengamatan yang sama. Sebagai contoh, pada penelitianpengujian suatu jenis pupuk tertentu, selain mencatat hasil padi,mungkin juga Peneliti ingin mencatat beberapa respons lainnya, sepertijumlah bulir, berat 100 biji, jumlah anakan, serapan Nitrogen, serapankalium dsb. Apabila hanya terdapat dua variabel yang dicatat,dikatakan bivariate, sedangkan apabila lebih, dikatakan multivariate.Variabel yang di catat tersebut nilainya bersifat acak, sehinggadikatakan sebagai variabel acak. Berbeda dengan dosis pupuk yangsudah ditentukan sebelumnya, variabel pupuk tersebut bersifat tetap,sehingga dikatakan variabel tetap. Mungkin saja, selain peneliti inginmelihat hubungan antara dosis pupuk (faktor) dengan hasil padi(respons) , dia juga ingin melihat hubungan di antara pasanganvariabel-variabel respons yang dia amati. Apakah peningkatan serapannitrogen seiring dengan peningkatan hasil atau justru sebaliknya danbagaimanakah pula kekuatan hubungannya? Kekuatan dan arahhubungan linier di antara kedua variabel tersebut bisadijelaskan dengan ukuran statistik yang dinamakan dengan“koefisien korelasi”.

Page 2: Statistika - Korelasi Pearson

Magister-TP.Statistika–KorelasiPearson Halaman2

Eksplorasi data

Sebelum melakukan analisis korelasi antar variabel, sebaiknya kitamengeksplorasi data tersebut terlebih dahulu secara grafis. Seringkalikita melihat pola hubungan di antara variabel dengan cara memplotkanpasangan sampel data tersebut pada diagram kartesian yang disebutdengan scatterplot atau diagram pencar. Setiap pasangan data (x, y)diplotkan sebagai titik tunggal.

Contoh diagram pencar dapat dilihat pada gambar berikut.

Secara sepintas kita bisa melihat pola hubungan dari grafik-grafiktersebut. Pada Grafik a, b, c terlihat bahwa peningkatan nilai y sejalandengan peningkatan nilai x. Apabila nilai x meningkat, maka nilai y punmeningkat, dan sebaliknya. Dari Grafik a sampai c, sebaran titik-titikpasangan data semakin mendekati bentuk garis lurus yangmenunjukkan bahwa keeratan hubungan antara variabel x dan ysemakin kuat (sinergis).

Page 3: Statistika - Korelasi Pearson

Magister-TP.Statistika–KorelasiPearson Halaman3

Hal yang sebaliknya terjadi pada Grafik d, e, dan f. Peningkatan nilai ytidak sejalan dengan peningkatan nilai x (antagonis). Peningkatansalah satu nilai menyebabkan penurunan nilai pasangannya. Sekali lagitampak bahwa kekuatan hubungan antara kedua variabel dari d menujuf semakin kuat.

Berbeda dengan grafik sebelumnya, pada Grafik g tidak menunjukkanadanya pola hubungan linier antara kedua variabel. Hal ini menandakanbahwa tidak ada korelasi di antara kedua variabel tersebut. Terkahir,pada Grafik h kita bisa melihat adanya pola hubungan di antara keduavariabel tersebut, hanya saja polanya bukan dalam bentuk hubunganlinier, melainkan dalam bentuk kuadratik.

Kovarian dan Korelasi

Untuk memahami korelasi linier antara dua variabel, terdapat duaelemen yang harus kita tinjau, mengukur hubungan diantara duavariabel (kovarian) dan proses standarisasi.

Kovarian

Salah satu ukuran kekuatan hubungan linear antara dua variabel acakkontinu adalah dengan menentukan seberapa banyak kedua variabeltersebut co-vary, yaitu bervariasi bersama-sama. Jika salah satuvariabel meningkat (atau menurun) sebagai akibat peningkatan (ataupenurunan) variabel pasangannya, maka dua variabel tersebutdinamakan covary. Namun jika satu variabel tidak berubah denganmeningkatnya (atau penurunan) variabel lain, maka variabel tersebuttidak covary. Statistik untuk mengukur berapa banyak kedua variabelcovary dalam sampel pengamatan adalah kovarian.

Selain mengukur besarnya kekuatanhubungan di antara dua variabel, kovarian juga menentukan arahhubungan dari kedua variabel tersebut.

1. Apabila nilainya positif, berati bahwa apabila nilai x berada di atasnilai rata-ratanya, maka nilai y juga berada di atas nilai rata-rata y,dan sebaliknya (Searah).

2. Nilai kovarian negatif menunjukkan bahwa apabila nilai x beradadi atas nilai rata-ratanya sedangkan nilai y berada di bawah nilairata-ratanya (berlawanan arah).

3. Terakhir, apabila nilai kovarian mendekati nol, menandakan bahwakedua variabel tersebut tidak saling berhubungan.

Page 4: Statistika - Korelasi Pearson

Magister-TP.Statistika–KorelasiPearson Halaman4

Standarisasi

Salah satu keterbatasan kovarian sebagai ukuran kekuatan hubunganlinier adalah arah/besarnya gradien yang tergantung pada satuan darikedua variabel tersebut. Misalnya, kovarian antara serapan N (%) danHasil Padi (ton) akan jauh lebih besar apabila satuan % (1/100) kitakonversi ke ppm (1/sejuta). Agar nilai kovarian tidak tergantungkepada unit dari masing-masing variabel, maka kita harusmembakukannya terlebih dahulu yaitu dengan cara membagi nilaikovarians tersebut dengan nilai standar deviasi dari kedua variabeltersebut sehingga nilainya akan terletak antara -1 dan +1. Ukuranstatistik tersebut dikenal dengan Pearson product momentcorrelation yang mengukur kekuatan hubungan linier (garis lurus) darikedua variabel tersebut. Koefisien korelasi linear kadang-kadangdisebut sebagai koefisien korelasi pearson untuk menghormati KarlPearson (1857-1936), yang pertama kali mengembangkan ukuranstatistik ini.

Kovarian:

Standar Deviasi variabel X dan Y:

Korelasi:

Nilai kovarian distandarkan dengan membagi nilai kovarian tersebutdengan nilai standar deviasi kedua variabel.

atau

atau

Page 5: Statistika - Korelasi Pearson

Magister-TP.Statistika–KorelasiPearson Halaman5

Koefisien Korelasi

Koefisien korelasi mengukur kekuatan dan arah hubungan linier daridua veriabel. Harus diingat bahwa nilai koefisien korelasi yang kecil(tidak signifikan) bukan berarti kedua variabel tersebut tidak salingberhubungan. Mungkin saja dua variabel mempunyai keeratanhubungan yang kuat namun nilai koefisien korelasinya mendekatinol, misalnya pada kasus hubungan non linier. Dengandemikian, koefisien korelasi hanya mengukur kekuatan hubunganlinier dan tidak pada hubungan non linier.

Harus diingat pula bahwa adanya hubungan linier yang kuat diantara variabel tidak selalu berarti ada hubungan kausalitas,sebab-akibat. Kedua pasang variabel, x dan y bisa saja nilai koefisienkorelasinya tinggi sebagai akibat adanya faktor z. Sebagai contoh, suhu(x) dengan tekanan udara (y) mungkin saja nilai koefisien korelasinyatinggi, namun belum tentu keduanya menunjukkan adanya hubungansebab akibat (misal, semakin rendah suhu udara maka tekanan udaraakan semakin rendah). Adanya korelasi suhu dan tekanan udaratersebut bisa saja semata-mata sebagai akibat dari perubahanketinggian (z) suatu tempat, semakin tinggi tempat maka baik suhuataupun tekanan udara akan semakin menurun. (meskipun secarateoritis memang terdapat hubungan sebanding antara suhu dantekanan: PV = nRT). Dengan demikian, Korelasi hanyamenjelaskan kekuatan hubungan tanpa memperhatikanhubungan kausalitas, mana yang dipengaruhi dan mana yangmempengaruhi. Kedua variabel masing-masing bisa berperansebagai Variabel X maupun Variabel Y.

Karakteristik korelasi

Nilai r selalu terletak antara -1 dan +1Nilai r tidak berubah apabila seluruh data baik pada variabel x,variabel y, atau keduanya dikalikan dengan suatu nilai konstanta (c)tertetu (asalkan c 0).Nilai r tidak berubah apabila seluruh data baik pada variabel x,variabel y, atau keduanya ditambahkan dengan suatu nilaikonstanta (c) tertetu.Nilai r tidak akan dipengaruhi oleh penentuan mana variabel x danmana variabel y. Kedua variabel bisa saling dipertukarkan.Nilai r hanya untuk mengukur kekuatan hubungan linier, dan tidakdirancang untuk mengukur hubungan non linier

Page 6: Statistika - Korelasi Pearson

Magister-TP.Statistika–KorelasiPearson Halaman6

Asumsi

Asumsi untuk analisis korelasi:

1. Sampel data berpasangan (x, y) berasal dari sampel acak danmerupakan data kuantitatif.

2. Pasangan data (x, y) harus berdistribusi normal.Harus diingat bahwa analisis korelasi sangat sensitif terhadap datapencilan (outliers)!

Asumsi bisa dicek secara visual dengan menggunakan:

Boxplots, histograms & univariate scatterplots untuk masing-masingvariabelBivariate scatterplots

Apabila tidak memenuhi asumsi misalnya data tidak berdistribusinormal (atau ada nilai data pencilan), kita bisa menggunakan korelasiSpearman (Spearman rank correlation), korelasi untuk analisis non-parametrik.

Koefisien Determinasi

Koefisien korelasi, r, hanya menyediakan ukuran kekuatan dan arahhubungan linier antara dua variabel. Akan tetapi tidak memberikaninformasi mengenai berapa proporsi keragaman (variasi) variabeldependen (Y) yang dapat diterangkan atau diakibatkan oleh hubunganlinier dengan nilai variabel independen (X). Nilai r tidak bisadibandingkan secara langsung, misalnya kita tidak bisa mengatakanbahwa nilai r = 0.8 merupakan dua kali lipat dari nilai r =0.4.

Untungnya, nilai kuadrat dari r bisa mengukur secara tepatrasio/proposi tersebut, dan nilai statistik ini dinamakan denganKoefisien Determinasi, r2. Dengan demikian, Koefisien Determinasi bisadidefinisikan sebagai nilai yang menyatakan proporsi keragaman Y yangdapat diterangkan/dijelaskan oleh hubungan linier antara variabel X danY.

Misalnya, apabila nilai korelasi (r) antara Serapan N dengan hasil = 0.8,maka r2 = 0.8 x 0.8 = 0.64=64%. Hal ini berarti bahwa 64%keragaman Hasil padi bisa diterangkan/dijelaskan oleh tinggi rendahnyaSerapan N. Sisanya, sebesar 36% mungkin disebabkan oleh faktor laindan atau error (galat) dari percobaan.

Page 7: Statistika - Korelasi Pearson

Magister-TP.Statistika–KorelasiPearson Halaman7

Pengujian Koefisien Korelasi

Terdapat dua metode yang biasa digunakan untuk mengujikebermaknaan koefisien korelasi. Metode pertama denganmenggunakan Uji-t dan Metode kedua dengan menggunakan tabel r.

Bagan Alir untuk pengujian hipotesis:

Catatan:

Nilai tabel kritis r bisa di lihat pada tabel di bawah ini. Nilai kritis rselengkapnya bisa di lihat pada link berikut critical-values-of-the-pearson-correlation-coeffiecient-r:

Page 8: Statistika - Korelasi Pearson

Magister-TP.Statistika–KorelasiPearson Halaman8

Faktor yang akan mempengaruhi nilai uji korelasi:

Ukuran koefisien korelasi dan ukuran/banyaknya sampel.

Contoh Terapan

Berikut adalah data usia, berat, dan tekanan darah.

Individual Age Weight Systolic PressureA 34 45 108B 43 44 129C 49 56 126

D 58 57 149E 64 65 168F 73 63 161

G 78 55 174Untuk kasus ini, kita ingin melihat apakah terdapat hubungan linierantara usia dengan tekanan darah sistolik? Taraf nyata yang digunakanadalah 5%.

Hipotesis:

H0: = 0 vs H1: 0

Eksplorasi Data

Berdasarkan diagram pencar (scatterplot), tampak bahwa sebaran titik-titik mengikuti pola linier dengan kemiringan positif, yang berarti

Page 9: Statistika - Korelasi Pearson

Magister-TP.Statistika–KorelasiPearson Halaman9

terdapat hubungan yang sejalan antara usia dengan tekanan darahsistolik. Dengan demikian, kita bisa menggunakan koefisien korelasiuntuk menentukan apakah hubungan linier kedua variabel tersebutbermakna atau tidak. Apabila pola hubungannya tidak linier, kita tidaktepat menggunakan koefisien korelasi karena nilai r hanya untukmengukur kekuatan dan arah hubungan linier antara kedua varibelkuantitatif.

Asumsi:

Kedua data berasal dari data kuantitatif. Selanjutnya apakah sebarankedua variabel berdistribusi normal?

Uji Formal:

H0: data berdistribusi normal

H1: data tidak berdistribusi normal

Interpretasi:

Apabila nilai sig (p-value) 0.05, maka Tolak H0 yang berarti datatidak berdistribusi normal

Apabila nilai sig (p-value) > 0.05, maka Terima H0 yang berarti databerdistribusi normal

Pada kasus di atas, nilai p-value untuk kedua variabel > 0.05, sehinggakita bisa menyimpulkan bahwa data berdistribusi normal.

Tampak bahwa uji normalitas untuk kedua variabel tersebut memenuhipersyaratan, sebarannya mengikuti distribusi normal, baik denganmenggunakan Uji Kolmogorov-Smirnov ataupun Shapiro-Wilk.

Page 10: Statistika - Korelasi Pearson

Magister-TP.Statistika–KorelasiPearson Halaman10

Grafis:

Secara grafis juga tampak bahwa kedua variabel tersebut berdistribusinormal. Penggunaan box plot untuk melihat apakah sebaran databerdistribusi normal ataukah tidak, diuraikan pada topik: Mengenal BoxPlotPerhitungan nilai koefisien korelasi (r)

No Age(X)

Systolic Pressure(Y)

X2 Y2 XY

1 34 108 1156 11664 36722 43 129 1849 16641 5547

3 49 126 2401 15876 61744 58 149 3364 22201 8642

5 64 168 4096 28224 107526 73 161 5329 25921 117537 78 174 6084 30276 13572Jumlah 399 1015 24279 150803 60112

Rata-rata

57 145

Page 11: Statistika - Korelasi Pearson

Magister-TP.Statistika–KorelasiPearson Halaman11

Pengujian Hipotesis

Metode 1:

Tentukan nilai t-tabel dengan taraf nyata ( )= 5% dan db = n-2.

Dari tabel distribusi t, kita peroleh: t(0.05/2, 5)= 2.57

Bandingkan t-hitung dengan t-tabel:

Dari hasil perhitungan, kita peroleh nilai t-hitung = 7.30 dan t-tabel =2.57. Jelas bahwa nilai |t-hitung| > t-tabel sehingga Tolak H0 danTerima H1. Dengan demikian, kita bisa menyatakan bahwa terdapathubungan linier antara usia dengan tekanan darah sistolik.

Metode 2:

Bandingkan nilai |r| dengan nilai tabel kritis r untuk n = 7. Nilai r padatabel kritis = 0.754.

Dari hasil perhitungan, diperoleh nilai r = 0.956. Jelas bahwa |r|>0.754 sehingga kita bisa menyimpulkan bahwa terdapat hubungan linierantara usia dengan tekanan darah sistolik.

Output Analisis dengan menggunakan SPSS

Kita bisa menyatakan seperti ini:

Korelasi antara usia dengan tekanan darah sistolik: r(7) = 0.956;p < 0.01

Page 12: Statistika - Korelasi Pearson

Magister-TP.Statistika–KorelasiPearson Halaman12

Koefisien Determinasi

Nilai koefisien determinasi diatas menyatakan proporsi keragamanTekanan darah sistolik yang dapat diterangkan/dijelaskan olehhubungan linier antara variabel usia dan tekanan darah sistolik.Berdasarkan hasil analisis, kita yakin 95% bahwa sekitar 91% variasitinggi rendahnya tekanan darah sistolik ditentukan oleh usia seseorang.