Lompat ke konten Lompat ke sidebar Lompat ke footer

Persiapan Data

 Persiapan Data

Course Outline


1 Data Preprocessing

2 Data Cleaning

3 Normalisasi


1 Data Preprocessing

Why Preprocess the Data?

Ukuran untuk  kualitas data: Tampilan multidimensional


Accuracy: benar atau salah, akurat atau tidak

Completeness: tidak tercatat, tidak tersedia, …

Consistency: beberapa dimodifikasi tapi beberapa tidak, …

Timeliness: update tepat waktu? 

Believability: Seberapa terpercaya data itu benar?

Interpretability: seberapa mudah data bisa di pahami?


Tugas Utama dalam Preprocessing Data

1. Data cleaning

* Isi nilai yang hilang

* Smooth noisy data

* Identify or remove outliers

* Menyelesaikan  inconsistencies

2. Pengurangan data

*Pengurangan data

*Pengurangan dimensi

*Komperensi data

3. Transformasi data dan diskresi data

*Normalisasi

*Konsep hirarki generasi

4. Integrasi data

*Iintegrasi beberapa database atau file


2 Data Cleaning

Data Cleaning

Data in the Real World Is Dirty: Banyak data yang berpotensi salah, misalnya kesalah instrumen, kesalahan manusia dan komputer, kesalahan transmisi


* Incomplete/Tidak lengkap: Kurang atribut, kurang memiliki atribut minat tertentu atau hanya berisi data agregat

e.g., Pekerjaan=“ ” (missing data)

* Noisy: mengandung noise, errors, or outliers

e.g., Salary=“−10” (an error)

* Inconsistent/Tidak konsisten: mengandung perbedaan dalam kode atau nama

e.g., Age=“42”, Birthday=“03/07/2010”

Was rating “1, 2, 3”, now rating “A, B, C”

* Perbedaan antara catatan duplikasi 

Disengaja (e.g., Data hilang yang tersamar)

Jan. 1 as everyone’s birthday?


Incomplete (Missing) Data

* Data tidak selalu tersedia

* Missing data mungkin karena 

- Kerusakan peralatan

- Tidak konsisten dengan data rekaman lainnya dan dengan demikin terhapus

- Data tidak masuk karena kesalah pahaman

- Data tertentu mungkin tidak dianggap penting pada saat masuk

- Tidak mendaftarkan riwayat atau perubahan data

* Data yang hilang mungkin perlu disimpulkan


Contoh Missing Data

Dataset: MissingDataSet.csv



Dataset: MissingDataSet.csv

* Jerry adalah manajer pemasaran untuk perancang dan periklanan Internet kecil 

* Bos Jerry meminta dia untuk membuat kumpulan data berisi informasi tentang pengguna internet 

* Perusahaan akan menggunakan data ini untuk menentukan jenis orang yang menggunakan Internet dan bagaimana perusahaan tersebut dapat memasarkan layanan mereka ke grup pengguna ini. 

* Untuk menyelesaikan tugasnya, Jerry membuat survei online dan menempatkan tautan ke survei di beberapa situs Web populer

* Dalam dua minggu, Jerry telah mengumpulkan cukup data untuk memulai analisis, namun dia mendapati bahwa datanya perlu dinormalisasikan 

* Dia juga mencatat bahwa beberapa pengamatan pada himpunan memiliki nilai yang hilang atau nilainya mengandung nilai yang tidak benar Jerry menyadari bahwa beberapa pekerjaan tambahan mengenai data perlu dilakukan sebelum analisis dimulai.


Relational Data


View of Data (Denormalized Data)




Contoh Missing Data

Dataset: MissingDataSet.csv




Posting Komentar untuk " Persiapan Data"