Saudara kandungnya Covariance dinamai…CORRELATION. Konsep keduanya sama saja, yakni mengukur keeratan hubungan antara dua variabel.
*) catatan saya mengenai Covariance bisa dicek di sini.
Covariance sayangnya memliki keterbatasan, yakni memiliki performa terbaik bila diimplementasikan pada set variabel dengan unit data yang sama. Misalnya, variabel X dan Y satuannya sama..yakni rupiah, atau sama-sama dalam centimeter, atau sama-sama dalam satuan kilogram..dan seterusnya.
Bila dipaksa untuk mengukur hubungan dua variabel dengan satuan yang berbeda, misalkan variabel X dihitung dalam satuan rupiah, kemudian Y dalam satuan milimeter dengan range nilai kecil.
Misal:
X = [7000 2000 3000 3500 5000]
Y = [0.001 0.2 0.05 0.00002 0.4]
Maka covariance akan menghasilkan output yang tidak akurat, karena variabel dengan nilai data paling besar akan berpengaruh sangat besar terhadap output.
Pemecahannya yaitu dengan melakukan standarisasi data, menggunakan deviasi standar dari variabel-variabelnya. Bingung? Jawabnnya adalah gunakan CORRELATION untuk mengukur hubungan dengan kasus seperti ini.
Berikut adalah penjelasan lebih lengkapnya.
Berbeda dengan covariance yang jenisnya dilihat dari tanda bilangannya (positif, negatif atau nol). Kalau Correlation dilihat dari bilangannya, dengan range -1 sampai dengan 1.
Biar gak kelamaan, langsung ke contoh penyelesaian saja ya..
Nah formula lengkapnya adalah sebagai berikut:
*) catatan saya tentang standar deviasi bisa dilihat di sini.
——————————That’s it! Pengetahuan dasar Korelasi————————————-
Berikutnya kita bahas MATRIKS Korelasi.
Diinget ya..matriks Covariance dan matriks Correlation sama-sama matriks dengan properti Simetris dan Positive Semi Definite.
———————
Biar gak bingung, mending langsung ke contoh. Berikut adalah contoh menghitung correlation matriks dari 2 buah set data (perhatikan satuan dan range dari masing-masing variabel):
Dari set data pertama, kita proses pasangan-pasangan variabel untuk membentuk correlation matriks. Dari Kor(P,P), Kor(P,Q), Kor(P,R), Kor(Q,P), Kor(Q,Q), Kor(Q,R), Kor(R,P), Kor(R,Q), Kor(R,R).
Ingat, hasil Kor(P,P), Kor(Q,Q) dan Kor(R,R) = 1.
Berikut adalah hasilnya:
Warna yang sama dalam matriks korelasi di atas, menandakan sel tersebut memiliki nilai yang sama. Hal yang sama juga berlaku untuk set data ke dua yang menghasilkan matriks sebagai berikut:
Dari matriks korelasi ini dapat dilihat bahwa pada bagian diagonal, nilainya pasti = 1 sebab variabel tersebut berkorelasi sempurna positif dengan dirinya sendiri. Sedangkan nilai korelasi Data2 pada Kor(Y,Z) dan Kor(Z,Y) hampir tidak ada korelasi antara pasangan variabel Y dan Z.
Nilai korelasi antara pasangan variabel pada set data1 dan data2, menunjukkan nilai dalam range -1 dan 1 (walaupun dengan satuan dan range berbeda, lihat tabel Data1). Ini disebabkan oleh standarisasi menggunakan standar deviasi sebagai pembagi pada saat perhitungan hasil korelasinya.
Mudah-mudahan catatan ini dapat membantu siapa saja yang membutuhkan.
Salam.
Pingback: Apakah Covariance? | Luh Prapitasari
Pingback: Langkah Umum Principal Component Analysis | Luh Prapitasari
Pingback: Apakah Covariance? | Tyang Luhtu
Pingback: Langkah Umum Principal Component Analysis | Tyang Luhtu