Friday, 27 May 2016

Data Minning

1.  Pengertian Data Mining 
Secara defenisi data mining adalah ekstraksi dari suatu informasi yang berguna atau menarik (non-trivial, implicit, sebelumnya belum diketahui, potensial kegunaannya) pola atau pengetahuan dari data yang disimpan dalam jumlah besar. Menurut Tan (2006) “data mining sebagai proses untuk mendapatkan informasi yang berguna dari gudang basis data yang besar”. Data mining juga dapat diartikan sebagai pengekstrakan informasi baru yang diambil dari bongkahan data besar yang membantu dalam pengambilan keputusan.
Dari tinjauan keamanan sistem informasi, data mining memang bagai pisau bermata ganda. Di satu sisi bisa berguna bagi pihak pemilik data untuk hal-hal yang telah disebutkan di atas, namun bisa jadi illegal jika data-data tersebut disalahgunakan untuk hal-hal yang bersifat melanggar privasi orang lain atau bahkan jika pengumpulan data tersebut dilakukan secara tidak etis dan tanpa sepengetahuan pihak yang memiliki informasi.
Data Mining suatu proses kegiatan yang berulang-ulang pada analisis database dalam jumlah besar, dengan tujuan untuk melakukan penggalian informasi dan pengetahuan yang dapat membuktikan keakuratan dan potensi yang berguna bagi pengetahuan pekerja yang terlibat dalam pengambilan keputusan dan pemecahan masalah. Istilah data mining itu merujuk pada keseluruhan proses yang terdiri dari pengumpulan data analisis, pengembangan model pembelajaran induktif dan adopsi keputusan praktis seta tindakan berdasarkan pengetahuan yang diperoleh (Vercilles, 2009).Kegiatan data mining dapat dibagi kedalam dua inti penyelidikan utama, sesuai dengan tujuan utama dari analisis, yaitu: interpretasi dan prediksi (Vercilles, 2009).
1.      Interpretasi
Tujuan interpretasi adalah untuk mengidentifikasi pola yang teratur dalam data dan untuk mengekspresikan data melalui peraturan dan kriteria yang dapat dengan mudah dipahami oleh para ahli dalam domain aplikasi. Contoh; Clustering, Association Rules.
2.      Prediksi
Tujuan dari prediksi adalah untuk mengantisipasi atau memprediksi nilai suatu variable random yang akan menggambarkan kondisi dimasa mendatang atau memperkirakan kemungkinan peristiwa masa depan. Contoh; Classification, Regression, Time Series Analysis.
1.1.1        Latar Belakang Data Mining
Sejarah data mining tidak lepas dari berbagai macam disiplin ilmu. Kehadiran data mining dilatarbelakangi oleh berlimpahnya data (overload data) yang dialami oleh berbagai institusi, perusahaan atau organisasi. Berlimpahnya data ini merupakan akumulasi data transaksi yang terekam bertahun-tahun.
Data mining juga dilatarbelakangi oleh atau adanya ledakan informasi (explotion information) dari berbagai media terutama internet. Delapan puluh persen informasi yang disajikan media internet dalam bentuk tak terstruktur (unstructured information). Internet menyajikan informasi dalam berbagai format file, bahasa, dan bentuk penyajian seperti teks, gambar, suara ataupun video. Kendala lain yang melatarbelakangi adalah tidak dilengkapinya informasi dengan metadata yang terstandarisasi atau bahkan tidak menyertakannya sama sekali.
Pertumbuhan yang pesat dari akumulasi data/informasi itu telah menciptakan kondisi dimana suatu institusi memiliki bergunung-gunung data tetapi miskin informasi yang bermanfaat (“rich of data but poor of information”). Tidak jarang “gunung” data itu dibiarkan begitu saja seakan menjadi “kuburan data” (data tombs). Pertanyaanya sekarang, apakah gunung data tersebut akan dibiarkan tidak berguna lalu dibuang, ataukah dapat ditambang untuk menemukan “emas” yaitu informasi yang lebih bermanfaat. Jawabnya ya, data mining hadir untuk menjawab tantangan tersebut.

Gambar 2.1 Hubungan Data mining dengan Bidang Ilmu Lain
Gambar 2.1 menunjukan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistic, database dan information retrieval. Walaupun data mining memiliki sumber dari beberapa bida ilmu, data mining berbeda dalam beberapa aspek dibandingkan dengan bidang ilmu seperti berikut :
1.    Statistik : model statistik dipersiapkan oleh para ahli statistik, sedangkan data mining mengembangkan statistik untuk menangani data berjumlah besar secara otomatis.
2.    Expert system (sistem cerdas) : model pada expert system dibuat berupa aturan-aturan berdasar pada pengalaman-pengalaman para ahli.
3.    Data warehouse (DWH) : sering terjadi kerancuan antara data mining dan data warehouse karena keduanya sering dipakai bersamaan. Pada umumnya data warehouse lebih merujuk pada tempat untuk menyimpan data yang terkonsolidasi sedangkan data mining bisa dianggap sebagai perkakas untuk menganalisa otomatis nilai dari itu.
4.    OLAP : seperti data warehouse, OLAP juga sering dibahas bersama data mining. Tetapi OLAP memiliki tujuan untuk memastikan hipotesi yang sudah diformulasikan terlebih dahulu.
1.1.2   Model dalam Data mining
Terdapat dua tipe atau mode operasi yang bisa digunakan untuk mencari informasi yang dibutuhkan user lewat proses data mining, yaitu :
1.    Model verifikasi
Menggunakan pendekatan top-down dengan mengambil hipotesa dari user dan memeriksa validitasnya dengan data sehingga bisa dibuktikan kebenaran hipotesa tersebut. Penekanan terhadap model ini terletak pada user yang bertanggung jawab terhadap penyusunan hipotesa dan permasalahan pada data untuk meniadakan atau menegaskan hasil hipotesa yang diambi. Jadi, model ini sepenuhnya tergantung pada kemampuan user melakukan analisa terhadap permasalahan yang ingin digali dan diperoleh informasinya.
2.    Model knowledge discovery
       Menggunakan pendekatan bottom-up untuk mendapatkan informasi yang sebelumnya diketahui. Model ini berbeda dengan model verifikasi dimana model ini sistem secara langsung menemukan informasi-informasi penting yang bersembunyi dalam suatu data yang besar. Data-data yang ada kemudian dipilah-pilah untuk menemukan seuatu pola, trend yang ada dan keadaan umum pada saat itu tanpa adanya campur tangan dan tuntunan dari user. Hasil temuan ini menyatakan fakta-fakta yang ada dalam data-data yang ditemukan dalam waktu sesingkat mungkin. Model ini terbagi menjadi dua:
a.    Directed knowledge discovery, data mining akan mencoba mencari penjelasan nilai target field tertentu (seperti mencoba mencari penghasilan, repons, usia dan lain lain) terhadap field-field yang lain.
b.    Undirected knowledge discovery, tidak ada target field karena komputer akan mencari pola yang ada pada data. Jadi, undirected knowledge discovery digunakan untuk mengenali hubungan/relasi yang ada pada data, sedangkan directed knowledge discovery akan menjelaskan hubungan/relasi tersebut (IBM).
1.1.3        Pengelompokan Data Mining
Ada banyak jenis metode berdasarkan fungsi dalam data mining, tapi di sini hanya akan dibahas yang lebih dikenal. Berikut kelompok berdasarkan tugas yang dapat dilakukan, yaitu :
1.        Deskripsi
Terkadang peneliti dan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat mengumpulkan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelesan untuk suatu pola atau kecenderungan.
2.        Estimasi
Estimasi hampir sama dengan klasifikasi, perbedaannya adalah variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun dengan menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi.
3.        Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada dimasa mendatang. Contoh prediksi dalam bisnis dan penelitian adalah: Prediksi harga beras dalam tiga bulan yang akan datang. Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah dinaikan. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.
4.        Klasifikasi
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah aturan. Klasifikasi menggunakan supervised learning.
5.        Clustering
Clustering merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan satu dengan yang lainnya memiliki ketidakmiripan dengan record-record dalam kluster lain. Clustering menggunakan unsupervised learning. Teknik yang penulis gunakan dalam penelitian ini adalah clustering. Teknik data mining ini mengelompokan data-data yang sejenis atau mirip yang diharapkan akan membantu untuk dapat memilah tren dari data tersebut.
6.        Asosiasi
Tugas asosiasi atau sering disebut juga sebagai market basket analysis dalam data mining adalah menemukan relasi atau korelasi diantar himpunan item-item dan menemukan atribut yang muncul dalam satu waktu. Asosiasi menggunakan unsupervised learning. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support dan confidence (larose, 2005).
Tujuan dari data mining secara garis besar adalah untuk mendeskripsikan apa yang telah terjadi (descriptive data mining), dan untuk memprediksikan apa yang akan terjadi (predictive data mining). Descriptive data mining mencari pola pada kejadian yang telah lampau yang mempengaruhi kejadian yang terjadi pada masa sekarang. Teknik data mining yang termasuk dalam kategori ini adalah association dan clustering. Sedangkan, predictive data mining mengacu pada kejadian yang telah lampau untuk memprediksikan apa yang terjadi pada masa yang akan datang. Yang termasuk ke dalam kategori predictive data mining ini adalah classification dan estimation.
2.1.4   Proses Data Mining
Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologis sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.
Data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.
Data-data yang ada, tidak dapat langsung diolah dengan menggunakan sistem data mining. Data-data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses data persiapan data ini sendiri dapat mencapai 60% dari keseluruhan proses dalam data mining. Adapun tahapan-tahapan yang harus dilalui dalam proses data mining antara lain :

Gambar 2.2 Tahapan Data Mining
1.    Preprocess Data (Meliputi pembersihan data dan pemeriksaan outliers)
Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak relevan. Data-data yang telah didapat selanjutnya akan mengalami proses pembersihan. Proses pembersihan data dilakukan untuk membuang record yang keliru, menstandarkan atribut-atribut, merasionalisasi struktur data, dan mengendalikan data yang hilang. Data yang tidak konsisten dan banyak kekeliruan membuat hasil data mining tidak akurat adalah sangat penting untuk membuat data konsisten dan seragam.
Faktor penyebab :
a.    Informasi tidak terkumpul dengan lengkap
Misal : orang menolak menyebutkan umur dan berat badan
b.    Atribut mungkin tidak bisa diterapkan untuk semua kasus
Misal : penghasilan tidak bisa diaplikasikan untuk bayi dan anak kecil
Solusi penanganan :
Mengeliminasi objek data
·      Mengestimasi missinga values
·      Tidak memperhatikan missing values saat analisis
·      Menggantikan dengan semua kemungkinan nilai (pembobotan berdasarkan probabilitasnya)
2.    Transformasi data (data diubah menjadi bentuk yang sesuai untuk diproses dengan model yang dipilih)
Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi interval. Proses ini sering disebut binning. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena adanya beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini.
3.    Implementasi teknik data mining
Aplikasi teknik data mining sendiri haya merupakan salah satu bagian dari proses data mining. Beberapa teknik data mining sudah umum dipakai. Ada kalanya teknik-teknik data mining umum yang tersedia dipasar tidak mencukupi untuk melaksanakan data mining dibidang tertentu atau untuk data tertentu.
Metode yang digunakan disesuaikan dengan kebutuhan target informasi yang ingin dicapai berdasarkan fungsi yang digunakan dengan kebutuhan target informasi yang ingin dicapai berdasarkan fungsi yang digunakan dan jenis aplikasinya. Macam-macam metode yang digunakan dapat dilihat pada pengelompokan data mining.
4.    Evaluasi pola yang ditemukan (untuk menemukan pola yang menarik/bernilai)
Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai dengan hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai hasil diluar dugaan yang mungkin bermanfaat (Han, J. dan M. Kamber, 2006).
2.1.5   Arsitektur Sistem Data mining
Data mining merupakan proses pencarian pengetahuan yang menarik dari data berukuran besar yang disimpan dalam basis data, data warehouse atau tempat penyimpanan informasi lainnya. Dengan demikian arsitektur sistem data mining memiliki komponen-komponen utama (Han dan Kamber, 2006) yaitu:
a.       Database, data warehouse, World Wide Web, atau tempat penyimpanan informasi lainnya: bisa berbentuk satu atau banyak database, data warehouse, spreadsheet, ataupun tempat penyimpanan informasi lainnya. Data Cleaning, Data Integration dan Data Selection dapat dijalankan pada data tersebut.
b.      Database dan data warehouse server. Komponen ini bertanggung jawab dalam pengambilan data yang relevan, berdasarkan permintaan pengguna.
c.       Knowledge Based. Komponen ini merupakan domain knowledge yang digunakan untuk memandu pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut meliput hirarki konsep yang digunakan untuk mengorganisasikan atribut atau nilai atribut kedalam level abstraksi yang berbeda. Pengetahuan tersebut juga dapat berupa kepercayaan pengguna (user belief), yang dapat digunakan untuk menentukan kemenarikan pola yang diperoleh.
d.      Data mining engine. Bagian ini merupakan komponen penting dalam arsitektur sistem data mining. Komponen ini terdiri dari modul-modul fungsional seperti karakterisasi, asosiasi, klasifikasi, dan analisis cluster.
e.       Ghrapical user interface (GUI). Modul ini berkomunikasi dengan pengguna dan data mining. Melalui komponen ini, pengguna berinteraksi dengan sistem menggunakan query.


Gambar 2.3 Arsitektur sistem data mining

No comments:

Post a Comment

Web Hosting

ADS

DogeMiner - Mine and Earn free Dogecoin

Call Me

Call Me