ANALISIS KLASTER
Analisis Klaster adalah suatu metode analisis
statistik untuk mereduksi (mengelompokan) data, yaitu proses untuk meringkas
sejumlah faktor menjadi lebih sedikit. Cara kerjanya Dengan Melakukan
Pengelompokan data berdasarkan pada kesamaan karakteristik dari jawaban
yang di berikan melalui beberapa literasi yang di lakukan.
Analisis Cluster termasuk dalam analisis statistik
multivariate metode interdependen, sebagai alat analisis interdependen maka
tujuan analisis cluster tidak untuk menghubungkan ataupun membedakan dengan
sample ataupun variable yang lain.analisis cluster merupakan salah satu alat
analisis yang berguna dalam meringkas data atau sejumlah variabel untuk menjadi
lebih sedikit. Dalam melakukan proses meringkas data ini dapat di lakukan
dengan jalan mengelompokan objek objek berdasarkan kesamaan karakteristik
tertentu di antara objek objek yang hendak di teliti.
- Mengetahui segmentasi dan menentukan target pasar yang di tuju
- Mengetahui positioning produk dan menentukan pengembangan produk baru
- Memilih pasar yang akan di pilih untuk produk baru perusahaan
Pembentukan kelompok kelompok observasi / kasus
ini berdasarkan jarak, observasi yang mirip seharusnya berada dalam kelompok
yang sama, dan data observasi yang jauh seharusnya berada dalam kelompok yang
berbeda.pembentukan kelompok ini akan di ikuti dengan terjadinya pengelempokan
yang menunjukan kedekatan kesamaan antar kasus.
Meskipun hasil analisis cluster merupakan hasil
data yang objektif,namun perlu di ketahui bahwa hasil analisis cluster tidak
boleh di percaya begitu saja. Agar hasil analisis dapat ideal sebaiknya di lakukan
beberapa kali analisis cluster dengan menggunakan beberapa metode jarak
cluster.
Cara Kerja Analisis Klaster
Secara garis besar ada tiga hal yang harus
terjawab dalam proses kerja analisis cluster, yaitu :
1. Bagaimana mengukur kesamaan ?
Ada tiga ukuran untuk mengukur kesamaaan antar
objek, yaitu ukuran korelasi, ukuran jarak, dan ukuran asosiasi.
2. Bagaimana membentuk cluster ?
Prosedur yang diterapkan harus dapat
mengelompokkan objek-objek yang memiliki kesamaan yang tinggi ke dalam sutau
cluster yang sama.
3. Berapa banyak cluster/kelompok yang akan
dibentuk ?
Pada prinsipnya jika jumlah cluster berkurang
maka homogenitas alam cluster secra otomatis akan menurun.
Proses Analisis Klaster
Sebagaimana teknik multivariate lain proses
analisis cluster dapat dijelaskan dalam enam tahap sebagai berikut :
Tahap Pertama : Tujuan Analisis Cluster
Tujuan utama analisis cluster adalah mempartisi
suatu set objek menjadi dua kelompok atau lebih berdasarkan kesamaan
karakteristik khusus yang dimilikinya.
Dalam pembentukan kelompok/cluster dapat
dicapai tiga tujuan, yaitu :
A. Deskripsi klasifikasi (taxonomy description)
Penerapan anallisis cluster secara tradisisonal
bertujuan mengeksplorasi dan membentuk suatu klasisfikasi/taksonomi secara
empiris. Karena kemampuan partisinya analisis cluster dapat diterapkan secara
luas. Meskipun secara empiris merupakan teknik eksplorasi analisis cluster
dapat pula digunakan untuk tujuan konfirmasi.
B. Pemilihan pada Pengelompokan Variabel
Tujuan analisis cluster tidak dapat dipisahkan
dengan pemilihan variabel yang digunakan untuk menggolongkan objek ke dalam
clucter-cluster. Cluster yang terbentuk merefleksikan struktur yang melekat
pada data seperti yang didefinisikan oleh variabel-variabel. Pemilihan variabel
harus sesuai dengan teori dan konsep yang umum digunakan dan harus rasional.
Rasionalitas ini didasarkan pada teori-teori eksplisit atau penelitian
sebelumnya. Variabel-variabel yang dipilih hanyalah variabel yang dapat
mencirikan objek yang akan dikelompokkan dan secara spesifik harus sesuai
dengan tujuan analisis cluster.
Tahap Kedua : Desain Penelitian dalam Analisis Cluster
Tiga hal penting dalam tahap ini adalah
pendeteksian outlier, mengukur kesamaan, dan standarisasi data.
A. Pendeteksian Outlier
Outlier adlah suatu objek yang sangat berbeda
dengan objek lainnya. Outlier dapat digambarkan sebagai observasi yang secara
nyata kebiasaan, tidak mewakili populasi umum, dan adanya undersampling dapat
pula memunculkan outlier. Outlier menyebabkan menyebabkan struktur yang tidak
benar dan cluster yang terbentuk menjadi tidak representatif.
B. Mengukur Kesamaan antar Objek
Konsep kesamaan adalah hal yang fundamental dalam
analisis cluster. Kesamaan antar objek merupakan ukuran korespondensi antar
objek. Ada tiga metode yang dapat diterapkan, yaitu ukuran korelasi, ukuran
jarak, dan ukuran asosiasi.
C. Standarisasi Data
1. Standarisasi Variabel
Bentuk paling umum dalam standarisasi variabel
adalah konversi setiap variabel terhadap skor atandar ( dikenal dengan Z score)
dengan melakukan substraksi nilai tengan dan membaginyadengan standar deviasi
tiap variabel.
2. Standarisasi Data
Berbeda dengan standarisasi variabel,
standarisasi ndata dilakukan terhadap observasi/objek yang akan dikelompokkan.
Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster
Seperti hal teknik analisis lain,analisis cluster
juga menetapkan adanya suatu asumsi. Ada dua asumsi dalam analisis cluster,
yaitu :
A. Kecukupan Sampel untuk
merepresentasikan/mewakili Populasi
Biasanya suatu penelitian dilakukan terhadap
populasi diwakili oleh sekelompok sampel. Sampel yang digunakan dalam analisis
ckuster harus dapat mewakili populasi yang ingin dijelaskan, karena analisis
ini baik jika sampel representatif. Jumlah sampel yang diambil tergantung
penelitinya, seorang peneliti harus yakin bahwa sampil yang diambil
representatif terhadap populasi.
B .Pengaruh Multukolinieritas
Ada atau tidaknya multikolinieritas antar
variabel sangat diperhatikan dalam analisis cluster karena hal itu berpengaruh,
sehingga variabel-variabel yang bersifat multikolinieritas secara eksplisit
dieprtimbangkan dengan lebih seksama.
Tahap Keempat : Proses Mendapatkan
Cluster dan Menilai kelayakan secara keseluruhan
Ada dua proses penting yaitu algoritma cluster
dalam pembentukan cluster dan menentukan jumlah cluster yang akan dibentuk.
Keduanya mempunyai implikasi substansial tidak hanya pada hasil yang diperoleh
tetapi juga pada interpretasi yang akan dilakukan terhadap hasil tersebut.
- Algoritma Cluster
Algoritma cluster harus dapat memaksimalkan
perbedaan relatif cluster terhadap variasi dalam cluster. Dua metode paling
umum dalam algoritma cluster adalahmetode hirarkhi dan metode non hirarkhi.
Penentuan metode mana yag akan dipakai tergantung kepada peneliti dan konteks
penelitian dengan tidak mengabaikan substansi, teori dan konsep yang berlaku.
Keduanya memiliki kelebihan sendiri-sendiri. Keuntungan metode hirarkhi adalah
cepat dalam proses pengolahan sehingga menghemat waktu, namun kelemahannya
metode ini dapat menimbulkan kesalahan. Selain itu tidak baik diterapkan untuk
menganalisis sampel dengan ukuran besar. Metode Non Hirarkhi memiliki
keuntungan lebih daripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan
pada data outlier, ukuran jarak yang digunakan, dan termasuk variabel tak
relevan atau variabel yang tidak tepat. Keuntungannya hanya dengan menggunakan
titik bakal nonrandom, penggunaan metode non hirarkhi untuk titik bakal
random secara nyata lebih buruk dari pada metode hirarkhi.
Alternatif lain adalah dengan mengkombinasikan
kedua metode ini. Pertama gunakan metode hirarkhi kemudian dilanjutkan dengan
metode non hirarkhi.
A. Metode Hirarkhi
Tipe dasar dalam metode ni adalah aglomerasi dan
pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya dianggap sebagai
cluster tersendiri sehingga terdapat cluster sebyak jumlah observasi. Kemudian
dua cluster yang terdekat kesamaannya digabung menjadi suatu cluster babru,
sehingga jumlah cluster berkurang satu pada tiap tahap. Sebaliknya pada metode
pemecahan dimulai dari satu cluster besar yang mengandung seluruh observasi,
selanjutnya observasi-observasi yang paling tidak sama dipisah dan dibentuk
cluster-cluster yang lebih kecil. Proses ini dilakukan hingga tiap observasi
menjadi cluster sendiri-sendiri.
B. Metode Non Hirarkhi
Masalah utama dalam metoda non hirarkhi adalah
bagaimana memilih bakal cluster. Harus disadari pengaruh pemilihan bakal
cluster terhadap hasil akhir analisis cluster. Bakal cluster pertama adalah
observasi pertama dalam set data tanpa missing value. Bakal kedua adalah
observasi lengkap berikutnya (tanpa missing data) yang dipisahkan dari bakal
pertama oleh jarak minimum khusus.
Ada tiga prosedur dalam metode non hirarkhi,
yaitu :
1. Sequential threshold
Metode ini dimulai dengan memilih bakal cluster dan
menyertakan seluruh objek dalam jarak tertentu. Jika
seluruh objek dalam jarak tersebut disertakan, bakal cluster kedua terpilih,
kemudian proses terus berlangsung seperti sebelumnya.
2. Parallel Threshold
Metode ini memilih beberapa bakal cluster secara
simultan pada permulaannya dan menandai objek-objek dengan jarak permulaan ke
bakal terdekat.
3. Optimalisasi
Metode ketiga ini mirip dengan kedua metode
sebelumnya kecuali pada penandaan ulang terhadap objek-objek.
Hal penting lain dalam tahap keempat adalah
menentukan jumlah cluster yang akan dibentuk.Sebenarnya tidak ada
standar,prosedur pemilihan tujuan eksis. Karena tidak ada kriteria statistik
internal digunakan untuk inferensia, seperti tes signifikansipada teknik
multivariat lainnya, para peneliti telah mengembangkan beberapa kriteria dan
petunjuk sebagai pendekatan terhadap permasalahan ini dengan memperhatikan
substansi dan aspek konseptual.
Tahap Kelima : Interpretasi terhadap Cluster
Tahap interpretasi meliputi pengujian tiap
cluster dalam term untuk menamai dan menandai dengan suatu label yang secara
akurat dapat menjelaskan kealamian cluster. Proes ini dimulai dengan suatu
ukuran yang sering digunakan yaitu centroid cluster.
Membuat profil dan interpretasi cluster tidak
hanya tidak hanya untuk memoeroleh suatu gambaran saja melainkan pertama,
menyediakan suatu rata-rata untuk menilai korespondensi pada cluster yang
terbentuk, kedua, profil cluster memberikan araha bagi penilainan terhadap
signifikansi praktis.
Tahap Keenam: Proses Validasi dan Pembuatan Profil (PROFILING) Cluster
A. Proses validasi solusi cluster
Proses validasi bertujuan menjamin bahwa solusi
yang dihasilkan dari analisis cluster dapat mewakili populasi dan dapat
digeneralisasi untuk objek lain. Pendekatan ini membandingkan solusi cluster
dan menilai korespondensi hasil. Terkadang tidak dapat dipraktekkan karena
adanya kendala waktu dan biaya atau ketidaktersediaan ibjek untuk analisis
cluster ganda.
B. Pembuatan Profil ( PROFILING)
Solusi Cluster
Tahap ini menggambarkan karakteristik tiap
cluster untuk menjelaskan cluster-cluster tersebut dapat dapat berbeda pada
dimensi yang relevan. Titik beratnta pada karakteristik yang secara signifikan
berbeda antar clustre dan memprediksi anggota dalam suatu cluster khusus.
Secara keseluruhan proses analisis cluster
berakhir setelah keenam tahap ini dilalui. Hasil analisis cluster dapat
digunakan untuk berbagai kepentingan sesuai dengan materi yang dianalisis.
Tidak ada komentar:
Posting Komentar