Visualisasi Data dan Preprocessing Data

Visualisasi Data

Pengertian Visualisasi Data 

    Visualisasi data adalah penyajian data dalam format grafik. Ini membantu orang memahami pentingnya data dengan meringkas dan menyajikan sejumlah besar data dalam format yang sederhana dan mudah dipahami dan membantu mengkomunikasikan informasi dengan jelas dan efektif. Ini adalah disiplin mencoba memahami data dengan menempatkannya dalam konteks visual sehingga pola, tren, dan korelasi yang mungkin tidak terdeteksi dapat diekspos.

Pustaka plot yang populer:

  • Matplotlib: level rendah, memberikan banyak kebebasan
  • Visualisasi Panda: antarmuka yang mudah digunakan, dibangun di atas Matplotlib
  • Seaborn: antarmuka tingkat tinggi, gaya default yang bagus
  • ggplot: berdasarkan ggplot2 R, menggunakan Tata Bahasa Grafik
  • Plotly: dapat membuat plot interaktif

Matplotlib

    Matplotlib adalah pustaka plot python paling populer. Ini adalah perpustakaan tingkat rendah dengan antarmuka seperti Matlab yang menawarkan banyak kebebasan dengan biaya harus menulis lebih banyak kode.

  • Bagan Scatter

  • Bagan Garis

  • Bagan Histogram

  • Bagan Batang

Visualisasi Panda

    Pandas adalah perpustakaan open source berkinerja tinggi dan mudah digunakan yang menyediakan struktur data, seperti kerangka data, dan alat analisis data seperti alat visualisasi yang akan kita gunakan dalam artikel ini.

    Visualisasi Panda membuatnya sangat mudah untuk membuat plot dari kerangka data dan seri panda. Ini juga memiliki API tingkat yang lebih tinggi daripada Matplotlib dan oleh karena itu kami membutuhkan lebih sedikit kode untuk hasil yang sama.

Perprocessing Data

Pengertian Preprocessing Data

    Preprocessing data adalah teknik yang mengubah data mentah menjadi format yang dapat dimengerti. Data dunia nyata (raw data) selalu tidak lengkap dan data tersebut tidak dapat dikirim melalui model karena akan menyebabkan kesalahan tertentu. Oleh karena itu kita perlu melakukan preprocess data sebelum mengirimkannya melalui suatu model.

    Pemrosesan awal data adalah teknik penambangan data yang melibatkan transformasi data mentah ke dalam format yang dapat dimengerti. Data dunia nyata sering kali tidak lengkap , tidak konsisten , dan / atau kurang dalam perilaku atau tren tertentu , dan kemungkinan mengandung banyak kesalahan . Pemrosesan awal data adalah metode yang terbukti untuk menyelesaikan masalah tersebut. Pemrosesan awal data menyiapkan data mentah untuk diproses lebih lanjut . Pemrosesan awal data digunakan aplikasi berbasis database seperti manajemen hubungan pelanggan dan aplikasi berbasis aturan (seperti jaringan neural).

Langkah-Langkah Preprocessing Data

Langkah 1: Biasanya mengimpor pustaka yang akan dibutuhkan dalam program.

Pandas : Kami menggunakan panda untuk manipulasi data dan analisis data.

Numpy : Ini adalah paket fundamental untuk komputasi ilmiah dengan Python.

Langkah 2: Import Set Data

Sangat penting untuk menyimpan dataset dalam folder yang sama dengan program dan membacanya menggunakan metode yang disebut read_csv yang dapat ditemukan di perpustakaan yang disebut pandas .

Langkah 3: Pisahkan data menjadi fitur independen dan dependen

Langkah 4: Menangani Nilai yang Hilang

Menangani nilai yang hilang adalah salah satu tantangan terbesar yang dihadapi oleh analis karena membuat keputusan yang tepat tentang cara menanganinya menghasilkan model data yang kuat.

Menghapus Baris

    Metode ini hanya digunakan jika kolom tersebut tidak mempengaruhi prediksi model yaitu fitur tersebut kurang signifikan atau tidak signifikan untuk memprediksi model.

Mengganti Dengan Mean / Median / Mode

Metode ini dapat diterapkan pada fitur-fitur yang terdiri dari data numerik.

Menangani Data Kategoris

Terkadang data kita dalam bentuk teks. Kami dapat menemukan kategori dalam bentuk teks. Menjadi rumit bagi mesin untuk memahami teks dan memprosesnya karena model didasarkan pada persamaan dan perhitungan matematika. Oleh karena itu kita perlu mengkodekan data menjadi angka. Untuk mewujudkannya yaitu mengimpor pustaka bernama LabelEncoder dari scikit-learn 

Penskalaan Fitur

Digunakan untuk menstandarkan nilai variabel independen. Ini adalah metode yang digunakan untuk membatasi rentang variabel sehingga dapat dengan mudah dibandingkan.

Normalisasi

Dengan bantuan Normalisasi, kami menskalakan nilai fitur di antara 0,0 dan 1,0

Standardisasi

Ini menskalakan fitur agar memiliki rata-rata nol dan deviasi standar.




Komentar

Postingan populer dari blog ini

Agglomerative Hierarchical Clustering