Cara Mengatasi Data Outlier atau Data Noise Dalam Basis Data
Selamat datang pembaca setia blog Haltar Ilmu.
Pada kesempatan kali ini saya akan membagikan sedikit ilmu dari apa yang barusan saya dapatkan di kelas.
Pembahasan kali ini mengenai cara mengatasi data outlier atau data noise dalam basis data.
Outlier adalah representasi dari data yang memiliki nilai aneh jika dibandingkan dengan nilai data yang lain. Maksudnya aneh disini adalah perbedaan nilai yang dimiliki sangat signifikan, sehingga bagi sistem nilai yang sangat berbeda seperti ini dikatakan dengan data outlier. Data outlier ini biasa disebut dengan dta noise.
Contoh data outlier :
Nama | IPK | Kelas | |
Ali | 3,85 | rajin | |
Suli | 3,00 | malas | |
Fandi | 14,00 | rajin | Outlier |
Bodi | 3,75 | rajin | |
Rerata | 6,15 | Irasional |
Nilai ipk untuk fandi yakni 14, data ini dinamakan outlier atau data noise. Data outlier ini disebabkan oleh user yang melakaukan kesalahan saat melakukan input. Sehingga jika ingin ditampilkan ke dalam bentuk grafik, maka data ipk fandi diluar batas 4 yakni 14, akibatnya ipk tersebut tidak tercantumkan di dalam grafik.
Untuk menangani data seperti itu, maka data outlier diganti dengan rata-rata ipk, dengan mengesampingkan nilai ipk 14 untuk mengambil rata-ratanya. Untuk meratakan nilai ipk tersebut, harus dilihat juga isi dari kolom kelas juga.
Karena data outlier atau data noise nya ada pada kelas rajin, maka kita harus mengambil rerata IPK dari kelas rajin juga. Jadi ipk untuk fandi adalah (ipk ali + ipk bodi)/2 sehingga (3,85 + 3,75)/2 = 3,80.
Sehingga hasil data akhir setelah dilakukan penggantian untuk data outlier atau data noise adalah sebagai berikut :
Untuk menangani data seperti itu, maka data outlier diganti dengan rata-rata ipk, dengan mengesampingkan nilai ipk 14 untuk mengambil rata-ratanya. Untuk meratakan nilai ipk tersebut, harus dilihat juga isi dari kolom kelas juga.
Karena data outlier atau data noise nya ada pada kelas rajin, maka kita harus mengambil rerata IPK dari kelas rajin juga. Jadi ipk untuk fandi adalah (ipk ali + ipk bodi)/2 sehingga (3,85 + 3,75)/2 = 3,80.
Sehingga hasil data akhir setelah dilakukan penggantian untuk data outlier atau data noise adalah sebagai berikut :
Nama | IPK | Kelas | |
Ali | 3,85 | rajin | |
Suli | 3,00 | malas | |
Fandi | 3,80 | rajin | Normal |
Bodi | 3,75 | rajin | |
Rerata | 3,60 | Rasional |
Keuntungannya, ketika data ditampilkan dalam bentuk grafik maka tidak ada data yang berada di luar maksimumnya nilai ipk yakni 4. Dan data tersebut sudah valid.
Baiklah, itu saja yang dapat saya share ke rekan-rekan, semoga ada manfaatnya.
Terimakasih sudah berkunjung ke Haltar Ilmu, Salam Blogger Indonesia.
0 comments:
Post a Comment