Visualisasi Data dan Preprocessing Data
Visualisasi Data
Pengertian Visualisasi Data
Visualisasi data adalah penyajian data dalam format grafik. Ini membantu orang memahami pentingnya data dengan meringkas dan menyajikan sejumlah besar data dalam format yang sederhana dan mudah dipahami dan membantu mengkomunikasikan informasi dengan jelas dan efektif. Ini adalah disiplin mencoba memahami data dengan menempatkannya dalam konteks visual sehingga pola, tren, dan korelasi yang mungkin tidak terdeteksi dapat diekspos.
Pustaka plot yang populer:
- Matplotlib: level rendah, memberikan banyak kebebasan
- Visualisasi Panda: antarmuka yang mudah digunakan, dibangun di atas Matplotlib
- Seaborn: antarmuka tingkat tinggi, gaya default yang bagus
- ggplot: berdasarkan ggplot2 R, menggunakan Tata Bahasa Grafik
- Plotly: dapat membuat plot interaktif
Matplotlib
Matplotlib adalah pustaka
plot python paling populer. Ini adalah perpustakaan tingkat rendah dengan
antarmuka seperti Matlab yang menawarkan banyak kebebasan dengan biaya harus
menulis lebih banyak kode.
- Bagan Scatter
- Bagan Garis
- Bagan Histogram
- Bagan Batang
Visualisasi Panda
Pandas adalah perpustakaan open source berkinerja tinggi dan mudah digunakan yang menyediakan struktur data, seperti kerangka data, dan alat analisis data seperti alat visualisasi yang akan kita gunakan dalam artikel ini.
Visualisasi Panda membuatnya sangat mudah untuk membuat plot dari kerangka data dan seri panda. Ini juga memiliki API tingkat yang lebih tinggi daripada Matplotlib dan oleh karena itu kami membutuhkan lebih sedikit kode untuk hasil yang sama.
Perprocessing Data
Pengertian Preprocessing Data
Preprocessing data adalah teknik yang mengubah data mentah menjadi format yang dapat dimengerti. Data dunia nyata (raw data) selalu tidak lengkap dan data tersebut tidak dapat dikirim melalui model karena akan menyebabkan kesalahan tertentu. Oleh karena itu kita perlu melakukan preprocess data sebelum mengirimkannya melalui suatu model.
Pemrosesan awal data adalah teknik penambangan data yang melibatkan transformasi data mentah ke dalam format yang dapat dimengerti. Data dunia nyata sering kali tidak lengkap , tidak konsisten , dan / atau kurang dalam perilaku atau tren tertentu , dan kemungkinan mengandung banyak kesalahan . Pemrosesan awal data adalah metode yang terbukti untuk menyelesaikan masalah tersebut. Pemrosesan awal data menyiapkan data mentah untuk diproses lebih lanjut . Pemrosesan awal data digunakan aplikasi berbasis database seperti manajemen hubungan pelanggan dan aplikasi berbasis aturan (seperti jaringan neural).
Langkah-Langkah Preprocessing Data
Langkah 1: Biasanya mengimpor pustaka yang akan dibutuhkan dalam program.
Pandas : Kami menggunakan panda untuk manipulasi data dan analisis data.
Numpy : Ini adalah paket fundamental untuk komputasi ilmiah dengan Python.
Langkah 2: Import Set Data
Sangat penting untuk menyimpan dataset dalam folder yang sama dengan program dan membacanya menggunakan metode yang disebut read_csv yang dapat ditemukan di perpustakaan yang disebut pandas .
Langkah 3: Pisahkan data
menjadi fitur independen dan dependen
Langkah 4: Menangani
Nilai yang Hilang
Menangani nilai yang
hilang adalah salah satu tantangan terbesar yang dihadapi oleh analis karena
membuat keputusan yang tepat tentang cara menanganinya menghasilkan model data
yang kuat.
Menghapus Baris
Metode ini hanya
digunakan jika kolom tersebut tidak mempengaruhi prediksi model yaitu fitur
tersebut kurang signifikan atau tidak signifikan untuk memprediksi model.
Mengganti Dengan Mean / Median / Mode
Metode ini dapat
diterapkan pada fitur-fitur yang terdiri dari data numerik.
Menangani Data Kategoris
Terkadang data kita dalam bentuk teks. Kami dapat menemukan kategori dalam bentuk teks. Menjadi rumit bagi mesin untuk memahami teks dan memprosesnya karena model didasarkan pada persamaan dan perhitungan matematika. Oleh karena itu kita perlu mengkodekan data menjadi angka. Untuk mewujudkannya yaitu mengimpor pustaka bernama LabelEncoder dari scikit-learn
Penskalaan Fitur
Digunakan untuk
menstandarkan nilai variabel independen. Ini adalah metode yang digunakan untuk
membatasi rentang variabel sehingga dapat dengan mudah dibandingkan.
Normalisasi
Dengan bantuan
Normalisasi, kami menskalakan nilai fitur di antara 0,0 dan 1,0
Standardisasi
Ini menskalakan fitur
agar memiliki rata-rata nol dan deviasi standar.
Komentar
Posting Komentar