Ini adalah website personal Selamat M. Harjono
Rabu, 23 Juli 2025 | oleh Selamat Muliyadi Harjono | Artikel
Clustering adalah metode pengelompokan data berdasarkan kesamaan tertentu tanpa adanya label sebelumnya. Artinya, algoritma clustering bekerja secara unsupervised learning, berbeda dengan supervised learning seperti klasifikasi yang membutuhkan data berlabel.
Tujuan utama dari clustering adalah untuk mengelompokkan data sedemikian rupa sehingga:
Bayangkan kamu memiliki data pelanggan dari toko online: usia, jumlah pembelian, dan frekuensi belanja. Dengan clustering, kita bisa menemukan segmen pelanggan seperti:
Dalam data mining, clustering digunakan untuk menemukan struktur atau pola tersembunyi dalam data besar. Misalnya dalam segmentasi pelanggan, deteksi anomali, atau pengelompokan dokumen.
Dalam konteks AI, khususnya pada machine learning, clustering merupakan bagian dari unsupervised learning. Ini berarti model belajar sendiri dari data tanpa supervisi manusia.
Sederhananya:
AI โ Machine Learning โ Unsupervised Learning โ Clustering
Clustering menjadi landasan dalam berbagai aplikasi modern seperti:
Model Fuzzy RFM digunakan untuk mengukur perilaku pelanggan berdasarkan:
Pembagian kelas/segmen pada Fuzzy RFM:
Setelah nilai RFM dinormalisasi atau difuzzyfikasi, pelanggan dikelompokkan ke dalam misalnya 27 segmen:
1. Level 1 (R rendah, F rendah, M rendah)
2. Level 2 (R rendah, F rendah, M sedang)
...
27. Level 27 (R tinggi, F tinggi, M tinggi)
Proses klasisfikasi dengan Fuzzy RFM ini tidak kepada setiap pelanggan yang ada, tetapi ke setiap pusat cluster / centroid hasil dari perhitungan mengunakan metode / algoritma clusetering.
Dataset yang digunakan adalah dataset yang tersedia secara online untuk kebutuhan eksperimen semata yaitu data transaksi dari bulan desember 2010 sampai desember 2011. Berikut sumber dataset yang digunakan:
https://archive.ics.uci.edu/dataset/352/online+retail
Dataset ini diolah lagi sehingga menjadi 3 parameter RFM. Khusus untuk parameter Recency, titik tanggal hitung adalah tanggal 1 januari 2012. Misalnya tanggal terbaru transaksi seorang pelanggan itu tanggal 9 desember 2011, maka untuk mendapatkan parameter recency dihitung dengan : 1 januari 2012 dikurangi 9 desember 2011 = 23. Maka parameter Recency untuk pelanggan ini adalah 23.
Konsep:
Kelebihan:
Berikut adalah hasil perhitungan dan visualisasi data dari K-Means: https://tanmarajo.my.id/clustering/kmeans
Konsep:
Kelebihan:
Berikut adalah hasil perhitungan dan visualisasi data dari Fuzzy C-Means: https://tanmarajo.my.id/clustering/fuzzy-cluster-means
Konsep:
Kelebihan:
Penerapan pada Fuzzy RFM:
Jika ada pelanggan dengan perilaku sangat ekstrem (misalnya F dan M tinggi sekali, tetapi hanya satu transaksi), HDBSCAN bisa mengidentifikasi mereka sebagai anomali atau membentuk cluster khusus.
Berikut adalah hasil perhitungan dan visualisasi data dari HDBSCAN: https://tanmarajo.my.id/clustering/hdbscan
Cluster -1 adalah noise atau data yang tidak terdapat dalam cluster manapun.
Konsep:
Kelebihan:
Penerapan pada Fuzzy RFM:
BIRCH dapat digunakan untuk menyegmentasi jutaan pelanggan secara cepat berdasarkan nilai fuzzy RFM tanpa harus memuat seluruh data ke memori.
Berikut adalah hasil perhitungan dan visualisasi data dari BIRCH: https://tanmarajo.my.id/clustering/birch
Konsep:
Kelebihan:
Penerapan pada Fuzzy RFM:
Jika segmen pelanggan memiliki pola RFM yang tidak homogen (misal loyal tapi monetary-nya tidak terlalu tinggi), GMM mampu mengakomodasi ketidakpastian tersebut dengan model probabilistik.
Berikut adalah hasil perhitungan dan visualisasi data dari GMM-VI: https://tanmarajo.my.id/clustering/gmm-vi
Konsep:
Kelebihan:
Penerapan pada Fuzzy RFM:
Misal terdapat segmen pelanggan yang sangat aktif tapi kecil jumlahnya โ OPTICS mampu mengenalinya sebagai cluster tersendiri dibanding metode lain yang mungkin menyatukannya.
Berikut adalah hasil perhitungan dan visualisasi data dari OPTICS: https://tanmarajo.my.id/clustering/optics
Cluster -1 adalah noise, yaitu data yang tidak termasuk ke cluster manapun.
Konsep:
Kelebihan:
Penerapan pada Fuzzy RFM:
Jika pelanggan memiliki relasi kompleks seperti perilaku R tinggi tapi F dan M saling bertolak belakang, Spectral Clustering bisa mengelompokkan berdasarkan struktur relasional, bukan sekadar jarak.
Berikut adalah hasil perhitungan dan visualisasi data dari SPECTRAL CLSUTERING: https://tanmarajo.my.id/clustering/spectral-ann
Setelah kita melihat hasil masing-masing metode clustering, maka kita perlu melakukan evaluasi perbandingan metodenya. Disini kita akan melakukan evaluasi metric dengan 3 cara, yaitu :
1. Silhouette Score
2. Davies-Bouldin Index
3. Calinski-Harabasz Index


Silhouette Coefficient merupakan ukuran evaluasi clustering yang menggabungkan dua aspek utama:


DaviesโBouldin Index mengukur rata-rata dari rasio jarak intra-cluster terhadap jarak antar-cluster, dan digunakan untuk mengevaluasi seberapa baik cluster dipisahkan dan seberapa kompak.

CalinskiโHarabasz Index mengukur rasio antara variansi antar-cluster (inter-cluster dispersion) terhadap variansi dalam cluster (intra-cluster dispersion).


Semoga bermanfaat.
Wassalaam..