Naive Bayes

Teorema Bayes

    Teorema Bayes memberi probabilitas posterior dari suatu peristiwa yang diberikan apa yang dikenal sebagai pengetahuan sebelumnya.

    Probabilitas sebelumnya tidak lain adalah proporsi variabel dependen (biner) dalam kumpulan data. Ini adalah tebakan terdekat yang dapat Anda buat tentang sebuah kelas, tanpa informasi lebih lanjut atau Anda dapat mengatakan seberapa besar kemungkinannya A sebelum mengamati B.

    Likelihood adalah probabilitas untuk mengklasifikasikan observasi tertentu sebagai satu jenis dengan adanya variabel lain. Dengan kata lain seberapa besar kemungkinan B ketika diberikan bahwa A benar atau terjadi.

    Likelihood marjinal adalah, seberapa besar kemungkinan titik data baru di bawah semua variabel yang mungkin

 Algoritma Naive Bayes

    Naïve Bayes Classifier merupakan sebuah metoda klasifikasi yang berakar pada teorema Bayes . Metode pengklasifikasian dengan menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes . Ciri utama dari Naïve Bayes Classifier ini adalah asumsi yg sangat kuat (naïf) akan independensi dari masing-masing kondisi /kejadian.

    Keuntungan penggunan adalah bahwa metoda ini hanya membutuhkan jumlah data pelatihan (training data) yang kecil untuk menentukan estimasi parameter yang diperlukan dalam proses pengklasifikasian. Karena yang diasumsikan sebagai variable independent, maka hanya varians dari suatu variable dalam sebuah kelas yang dibutuhkan untuk menentukan klasifikasi, bukan keseluruhan dari matriks kovarians.

Kegunaan Naïve Bayes

  • Mengklasifikasikan dokumen teks seperti teks berita ataupun teks akademis
  • Sebagai metode machine learning yang menggunakan probabilitas
  • Untuk membuat diagnosis medis secara otomatis
  • Mendeteksi atau menyaring spam

Kelebihan Naïve Bayes

  • Bisa dipakai untuk data kuantitatif maupun kualitatif
  • Tidak memerlukan jumlah data yang banyak
  • Tidak perlu melakukan data training yang banyak
  • Jika ada nilai yang hilang, maka bisa diabaikan dalam perhitungan.
  • Perhitungannya cepat dan efisien
  • Mudah dipahami
  • Mudah dibuat
  • Pengklasifikasian dokumen bisa dipersonalisasi, disesuaikan dengan kebutuhan setiap orang
  • Jika digunakan dalaam bahasa pemrograman, code-nya sederhana
  • Bisa digunakan untuk klasifikasi masalah biner ataupun multiclass

Kekurangan Naïve Bayes

  • Apabila probabilitas kondisionalnya bernilai nol, maka probabilitas prediksi juga akan bernilai nol
  • Asumsi bahwa masing-masing variabel independen membuat berkurangnya akurasi, karena biasanya ada korelasi antara variabel yang satu dengan variabel yang lain
  • Keakuratannya tidak bisa diukur menggunakan satu probabilitas saja. Butuh bukti-bukti lain untuk membuktikannya.
  • Untuk membuat keputusan, diperlukan pengetahuan awal atau pengetahuan mengenai masa sebelumnya. Keberhasilannya sangat bergantung pada pengetahuan awal tersebut Banyak celah yang bisa mengurangi efektivitasnya
  • Dirancang untuk mendeteksi kata-kata saja, tidak bisa berupa gambar 

Contoh

Kumpulan data yang telah diberikan. memiliki dua kolom dan titik observasi atau data diklasifikasikan menjadi dua kategori berbeda dalam warna merah dan hijau. Jadi sumbu X melambangkan Umur, sedangkan sumbu Y melambangkan Gaji. Kategori orang yang berjalan ke tempat kerja diberi warna merah dan hijau adalah kategori orang yang mengemudi ke tempat kerja.

Jadi sekarang apa yang terjadi jika kita membuat pengamatan baru, titik data baru ke dalam himpunan, bagaimana kita mengklasifikasikan titik data baru ini. Kita akan mengklasifikasikan titik data baru dengan menggunakan teorema Naive Bayes untuk menggambarkan apakah itu termasuk dalam kategori titik merah atau hijau, yaitu orang baru itu berjalan atau mengemudi ke tempat kerja?

Mengambil teorema Bayes dan menerapkannya dua kali. Menghitung probabilitas atau di mana orang tersebut berjalan ke tempat kerja sesuai dengan fitur yang diberikan dari titik data baru. 

X dalam fungsi yang merepresentasikan fitur titik data tersebut. Misalnya, usia orang tersebut mungkin seperti 26 tahun dengan gaji $ 2900 per tahun. Jadi ini adalah fitur pengamatan, bekerja dengan dua variabel hanya untuk kesederhanaan tetapi kenyataannya, ada lebih banyak fitur lainnya.

Jadi untuk menghitung Probabilitas Posterior yaitu P (Walk) sama dengan jumlah pejalan kaki dibagi dengan jumlah observasi.

Pada langkah selanjutnya, menghitung kemungkinan marjinal atau bukti. Hal pertama yang dilakukan adalah memilih radius dan menggambar lingkaran di sekitar pengamatan atau titik data baru dan kemudian melihat semua titik yang ada di dalam lingkaran, Siapa saja yang jatuh di suatu tempat di sekitar itu akan dianggap mirip dengan titik data baru yang ditambahkan ke kumpulan data

Likelihood Marginal adalah jumlah observasi yang sama dibagi dengan jumlah total pengamatan.

Likelihood adalah titik data yang dipilih secara acak dari dataset dari titik merah adalah seseorang yang menunjukkan fitur yang mirip dengan titik yang ditambahkan ke dataset atau dengan kata lain, titik merah yang dipilih secara acak jatuh ke dalam area lingkaran. Sekarang Likelihood dan P (X | Walks) adalah kemungkinan seseorang yang berjalan kaki menunjukkan fitur X.

Jika telah menghitung Probabilitas Posterior dengan menggunakan nilai probabilitas Prior, Marginal likelihood dan Likelihood dan mendapatkan nilai Probabilitas Posterior 0,75 yaitu 75% adalah probabilitas titik data baru akan diklasifikasikan sebagai orang yang berjalan ke tempat kerja dan 25% (1–0.75) adalah probabilitas bahwa titik data baru akan diklasifikasikan sebagai orang yang mengemudi untuk bekerja karena ini adalah klasifikasi biner. Jika ini bukan klasifikasi biner, maka perlu menghitung untuk orang yang mengemudi, seperti yang telah  dihitung di atas untuk orang yang berjalan ke tempat kerja.

Sekarang membandingkan probabilitas dari kedua kategori tersebut dan titik data baru akan masuk dalam kategori yang memiliki probabilitas lebih besar daripada yang lain.

Jadi Akhirnya, mengklasifikasikan titik data baru, orang yang berjalan ke tempat kerja sebagai titik merah.

 

 

Komentar

Postingan populer dari blog ini

Agglomerative Hierarchical Clustering