Naive Bayes
Teorema Bayes
Teorema Bayes memberi probabilitas posterior dari suatu peristiwa yang diberikan apa yang
dikenal sebagai pengetahuan sebelumnya.
Probabilitas sebelumnya tidak
lain adalah proporsi variabel dependen (biner) dalam kumpulan data. Ini adalah
tebakan terdekat yang dapat Anda buat tentang sebuah kelas, tanpa informasi
lebih lanjut atau Anda dapat mengatakan seberapa besar kemungkinannya A sebelum
mengamati B.
Likelihood adalah
probabilitas untuk mengklasifikasikan observasi tertentu sebagai satu jenis
dengan adanya variabel lain. Dengan kata lain seberapa besar kemungkinan B
ketika diberikan bahwa A benar atau terjadi.
Likelihood marjinal adalah,
seberapa besar kemungkinan titik data baru di bawah semua variabel yang mungkin
Algoritma Naive Bayes
Naïve Bayes Classifier merupakan sebuah metoda klasifikasi yang berakar pada teorema Bayes . Metode pengklasifikasian dengan menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes . Ciri utama dari Naïve Bayes Classifier ini adalah asumsi yg sangat kuat (naïf) akan independensi dari masing-masing kondisi /kejadian.
Keuntungan penggunan
adalah bahwa metoda ini hanya membutuhkan jumlah data pelatihan (training data) yang kecil untuk menentukan estimasi parameter yang diperlukan dalam proses
pengklasifikasian. Karena yang diasumsikan sebagai variable independent, maka
hanya varians dari suatu variable dalam sebuah kelas yang dibutuhkan untuk menentukan
klasifikasi, bukan keseluruhan dari matriks kovarians.
Kegunaan Naïve Bayes
- Mengklasifikasikan dokumen teks seperti teks berita ataupun teks akademis
- Sebagai metode machine learning yang menggunakan probabilitas
- Untuk membuat diagnosis medis secara otomatis
- Mendeteksi atau menyaring spam
Kelebihan Naïve Bayes
- Bisa dipakai untuk data kuantitatif maupun kualitatif
- Tidak memerlukan jumlah data yang banyak
- Tidak perlu melakukan data training yang banyak
- Jika ada nilai yang hilang, maka bisa diabaikan dalam perhitungan.
- Perhitungannya cepat dan efisien
- Mudah dipahami
- Mudah dibuat
- Pengklasifikasian dokumen bisa dipersonalisasi, disesuaikan dengan kebutuhan setiap orang
- Jika digunakan dalaam bahasa pemrograman, code-nya sederhana
- Bisa digunakan untuk klasifikasi masalah biner ataupun multiclass
Kekurangan Naïve Bayes
- Apabila probabilitas kondisionalnya bernilai nol, maka probabilitas prediksi juga akan bernilai nol
- Asumsi bahwa masing-masing variabel independen membuat berkurangnya akurasi, karena biasanya ada korelasi antara variabel yang satu dengan variabel yang lain
- Keakuratannya tidak bisa diukur menggunakan satu probabilitas saja. Butuh bukti-bukti lain untuk membuktikannya.
- Untuk membuat keputusan, diperlukan pengetahuan awal atau pengetahuan mengenai masa sebelumnya. Keberhasilannya sangat bergantung pada pengetahuan awal tersebut Banyak celah yang bisa mengurangi efektivitasnya
- Dirancang untuk mendeteksi kata-kata saja, tidak bisa berupa gambar
Contoh
Kumpulan data yang telah
diberikan. memiliki dua kolom dan titik observasi atau data diklasifikasikan
menjadi dua kategori berbeda dalam warna merah dan hijau. Jadi sumbu X
melambangkan Umur, sedangkan sumbu Y melambangkan Gaji. Kategori orang yang
berjalan ke tempat kerja diberi warna merah dan hijau adalah kategori orang
yang mengemudi ke tempat kerja.
Jadi sekarang apa yang
terjadi jika kita membuat pengamatan baru, titik data baru ke dalam himpunan,
bagaimana kita mengklasifikasikan titik data baru ini. Kita akan
mengklasifikasikan titik data baru dengan menggunakan teorema Naive Bayes untuk
menggambarkan apakah itu termasuk dalam kategori titik merah atau hijau, yaitu
orang baru itu berjalan atau mengemudi ke tempat kerja?
Mengambil teorema Bayes dan menerapkannya dua kali. Menghitung probabilitas atau di mana orang tersebut berjalan ke tempat kerja sesuai dengan fitur yang diberikan dari titik data baru.
X dalam fungsi yang merepresentasikan fitur titik data tersebut. Misalnya, usia orang tersebut mungkin seperti 26 tahun dengan gaji $ 2900 per tahun. Jadi ini adalah fitur pengamatan, bekerja dengan dua variabel hanya untuk kesederhanaan tetapi kenyataannya, ada lebih banyak fitur lainnya.
Jadi untuk menghitung
Probabilitas Posterior yaitu P (Walk) sama dengan jumlah pejalan kaki
dibagi dengan jumlah observasi.
Pada langkah selanjutnya,
menghitung kemungkinan marjinal atau bukti. Hal pertama yang dilakukan adalah
memilih radius dan menggambar lingkaran di sekitar pengamatan atau titik data
baru dan kemudian melihat semua titik yang ada di dalam lingkaran, Siapa saja
yang jatuh di suatu tempat di sekitar itu akan dianggap mirip dengan titik
data baru yang ditambahkan ke kumpulan data
Likelihood Marginal adalah
jumlah observasi yang sama dibagi dengan jumlah total pengamatan.
Likelihood adalah
titik data yang dipilih secara acak dari dataset dari titik merah adalah
seseorang yang menunjukkan fitur yang mirip dengan titik yang ditambahkan ke
dataset atau dengan kata lain, titik merah yang dipilih secara acak jatuh ke
dalam area lingkaran. Sekarang Likelihood dan P (X | Walks) adalah
kemungkinan seseorang yang berjalan kaki menunjukkan fitur X.
Jika telah menghitung
Probabilitas Posterior dengan menggunakan nilai probabilitas Prior, Marginal
likelihood dan Likelihood dan mendapatkan nilai Probabilitas Posterior 0,75
yaitu 75% adalah probabilitas titik data baru akan diklasifikasikan sebagai
orang yang berjalan ke tempat kerja dan 25% (1–0.75) adalah probabilitas bahwa
titik data baru akan diklasifikasikan sebagai orang yang mengemudi untuk
bekerja karena ini adalah klasifikasi biner. Jika ini bukan klasifikasi biner,
maka perlu menghitung untuk orang yang mengemudi, seperti yang telah dihitung di atas untuk orang yang berjalan ke
tempat kerja.
Sekarang membandingkan
probabilitas dari kedua kategori tersebut dan titik data baru akan masuk dalam
kategori yang memiliki probabilitas lebih besar daripada yang lain.
Jadi Akhirnya,
mengklasifikasikan titik data baru, orang yang berjalan ke tempat kerja sebagai
titik merah.
Komentar
Posting Komentar