Agglomerative Hierarchical Clustering
Pengertian Agglomerative Hierarchical Clustering
Algoritma AHC atau
Agglomerative Hierarchical Clustering adalah sebuah metode pembelajaran yang
mana tanpa adanya pengawasan dalam pembelajaran mesin, dimana algoritmanya itu
dalam machinelearning dimana ia dapat menarik kesimpulan dari kumpulan data
yang didapatkan atau diberikan dengan sendirinya, dengan tidak adanya campur
tangan manusia sedikit pun.
Jika kita mengelompokkan
dengan menggunakan kata kata sederhana, dimana bisa dibilang kita hanya
mempartisi dari suatu kelompok atau data dalam kelompok yang sama dengan
kemiripannya itu merupakan pengelompokkan berdasarkan kesaamaan dan
perbedaannya. Algoritma AHC ini merupakan salah satu algoritma yang sering
digunakan bersama dengan algoritma K-Means
Jenis-Jenis Pengelompokkan dalam AHC
- Partisi AHC
- Kepadatan dalam datanya
- AHC berbasis model distribusi
- Pengelompokkan Hirarki
- Pengelompokkan Fuzzy
Algoritma Agglomerative
1. Hitung matriks
jarak
Ada berbagai macam jenis jarak, namun jarak yang sering digunakan adalah Euclidean.
2. Gabungkan dua cluster terdekat jika jarak objek a dengan b memiliki nilai jarak paling
kecil dibandingkan jarak antar objek lainnya dalam matriks jarak Euclidean,
maka gabungan dua cluster pada tahap pertama adalah d_ab.
3. Perbarui matriks
jarak sesuai dengan teknik pengelompokan agglomerative method jika d_ab adalah jarak terdekat dari matriks jarak Euclidean,
maka rumus untuk metode agglomerative adalah:
4. Ulangi langkah 2 dan 3 sampai hanya tersisa satu cluster
5. Buat dendrogram
Bagaimana Cara Kerjanya
- Buatlah sebuah titik data dengan sebagai salah satu dari clusternya tersebut, dengan kita menempatkan N sebagai titik dari datanya, dengan tidak langsung jumlah cluster adalah N
- Kita dua titik data atau clusternya itu tersebut yang terdekat dan kita gabungkan menjadi satu cluster dan itu dinamakan cluster N-1
- Lalu ambil juga dua cluster terdekat dan kita gabungkan menjadi, maka itu dinamakan cluster N-2
- Lakukan juga hal yang sama seperti dengan langkah ketiga untuk kita mendapatkan cluster N-3
- Setelah semua cluster digabungkan menjadi satu cluster besar, buatlah dendogram untuk cluster yang bermasalah sesuai apa masalahnya.
Bagaimana Cara Mengukur
Jarak Antara Cluster
Dimana jarak terdekat
antara dua cluster sangat penting di dalam pengelompokkannya itu tersebut,
salah satu caranya untuk menghitung ukuran jarak dengan menggunakan Metode
Lingkage dengan langkah - langkahnya itu seperti berikut :
- Tautan Tunggal dimana itu kita melihat jarak terpendek antara titik terdekat dari cluster yang ada
- Tautan Lengkap merupakan jarak terjauh antara dua titik dari dua kelompok yang berbeda, dan merupakan salah satu cara yang populer dan sering digunakan karena menghasilkan data yang lebih rapat dari pada yang Tunggal
- Keterkaitan Rata - Rata yaitu metode yang keterkaitan jaraknya itu antar pasangan dataset tersebut kita tambahkan dan kemudian dibagi dengan jumlah total dataset keseluruhannya untuk menghitung jarak rata rata antara dua cluster tersebut
- Centroid Lingkage ini merupakan metode keterkaitan dimana jarak antar keduannya centroid tersebut dihitung
Dendogram dalam
Pengelompokkan AHC
Dendogram merupakan
struktur yang berbetuk seperti pohon yang terutama digunakan untuk menyimpan
setiap langkah sebagai memori dalam algoritma AHC, yang mana diumpamakan dalam
plot dendogram tersebut ada sumbu Y yang menunjukkan Euclidean antara titik
data tersebut dan sumbu X menunujukkan kumpulan data yang diberikan.
Pengimplementasian AHC dalam AHC
Dimana
pengimplementasiannya kita akan menggunakan dataset yang mengandung masalah
yang ingin diselesaikan, yang mana isinya itu adalah sebuah data, langkah
langkah dalam phyton dalam mengolah data tersebut adalah
- Pre-pemorosesan Data
- Mencari jumlah cluster yang optimal dengan menggunakan Dendogram
- Melatih model pengelompokkan hierarkis
- Memvisualisasikan cluster tersebut
Komentar
Posting Komentar