1. Pengertian Data Mining
Secara
defenisi data mining adalah ekstraksi dari suatu informasi yang berguna atau
menarik (non-trivial, implicit, sebelumnya belum diketahui,
potensial kegunaannya) pola atau pengetahuan dari data yang disimpan dalam
jumlah besar. Menurut Tan (2006) “data mining sebagai proses untuk mendapatkan
informasi yang berguna dari gudang basis data yang besar”. Data mining juga
dapat diartikan sebagai pengekstrakan informasi baru yang diambil dari
bongkahan data besar yang membantu dalam pengambilan keputusan.
Dari
tinjauan keamanan sistem informasi, data mining memang bagai pisau bermata ganda. Di satu
sisi bisa berguna bagi pihak pemilik data untuk hal-hal yang telah disebutkan
di atas, namun bisa jadi illegal jika data-data tersebut disalahgunakan untuk
hal-hal yang bersifat melanggar privasi orang lain atau bahkan jika pengumpulan
data tersebut dilakukan secara tidak etis dan tanpa sepengetahuan pihak yang
memiliki informasi.
Data Mining
suatu proses kegiatan yang berulang-ulang pada analisis database dalam jumlah
besar, dengan tujuan untuk melakukan penggalian informasi dan pengetahuan yang
dapat membuktikan keakuratan dan potensi yang berguna bagi pengetahuan pekerja
yang terlibat dalam pengambilan keputusan dan pemecahan masalah. Istilah data
mining itu merujuk pada keseluruhan proses yang terdiri dari pengumpulan data
analisis, pengembangan model pembelajaran induktif dan adopsi keputusan praktis
seta tindakan berdasarkan pengetahuan yang diperoleh (Vercilles, 2009).Kegiatan
data mining dapat dibagi kedalam dua inti penyelidikan utama, sesuai dengan
tujuan utama dari analisis, yaitu: interpretasi dan prediksi (Vercilles, 2009).
1.
Interpretasi
Tujuan interpretasi adalah untuk mengidentifikasi pola yang teratur
dalam data dan untuk mengekspresikan data melalui peraturan dan kriteria yang
dapat dengan mudah dipahami oleh para ahli dalam domain aplikasi. Contoh;
Clustering, Association Rules.
2.
Prediksi
Tujuan dari prediksi adalah
untuk mengantisipasi atau memprediksi nilai suatu variable random yang akan
menggambarkan kondisi dimasa mendatang atau memperkirakan kemungkinan peristiwa
masa depan. Contoh; Classification, Regression, Time Series Analysis.
1.1.1 Latar Belakang Data Mining
Sejarah
data mining tidak lepas dari berbagai macam disiplin ilmu. Kehadiran data
mining dilatarbelakangi oleh berlimpahnya data (overload data) yang dialami oleh berbagai institusi, perusahaan
atau organisasi. Berlimpahnya data ini merupakan akumulasi data transaksi yang
terekam bertahun-tahun.
Data mining
juga dilatarbelakangi oleh atau adanya ledakan informasi (explotion information) dari berbagai media terutama internet.
Delapan puluh persen informasi yang disajikan media internet dalam bentuk tak
terstruktur (unstructured information).
Internet menyajikan informasi dalam berbagai format file, bahasa, dan bentuk
penyajian seperti teks, gambar, suara ataupun video. Kendala lain yang
melatarbelakangi adalah tidak dilengkapinya informasi dengan metadata yang
terstandarisasi atau bahkan tidak menyertakannya sama sekali.
Pertumbuhan
yang pesat dari akumulasi data/informasi itu telah menciptakan kondisi
dimana suatu institusi memiliki bergunung-gunung data
tetapi miskin informasi yang bermanfaat (“rich
of data but poor of information”). Tidak jarang “gunung” data itu dibiarkan
begitu saja seakan menjadi “kuburan data” (data
tombs). Pertanyaanya sekarang, apakah gunung data tersebut akan dibiarkan
tidak berguna lalu dibuang, ataukah dapat ditambang untuk menemukan “emas”
yaitu informasi yang lebih bermanfaat. Jawabnya ya, data mining hadir untuk
menjawab tantangan tersebut.
Gambar 2.1
Hubungan Data mining dengan Bidang Ilmu Lain
Gambar 2.1 menunjukan bahwa data mining memiliki akar
yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine
learning, statistic, database dan information retrieval. Walaupun data mining memiliki sumber dari
beberapa bida ilmu, data mining berbeda dalam beberapa aspek dibandingkan
dengan bidang ilmu seperti berikut :
1.
Statistik :
model statistik dipersiapkan oleh para ahli statistik, sedangkan data mining
mengembangkan statistik untuk menangani data berjumlah besar secara otomatis.
2.
Expert system
(sistem cerdas) : model pada expert
system dibuat berupa aturan-aturan berdasar pada pengalaman-pengalaman para
ahli.
3.
Data warehouse
(DWH) : sering terjadi kerancuan antara data mining dan data warehouse karena keduanya sering dipakai bersamaan. Pada
umumnya data warehouse lebih merujuk
pada tempat untuk menyimpan data yang terkonsolidasi sedangkan data mining bisa
dianggap sebagai perkakas untuk menganalisa otomatis nilai dari itu.
4.
OLAP : seperti data warehouse, OLAP juga sering dibahas
bersama data mining. Tetapi OLAP memiliki tujuan untuk memastikan hipotesi yang
sudah diformulasikan terlebih dahulu.
1.1.2 Model dalam Data mining
Terdapat
dua tipe atau mode operasi yang bisa digunakan untuk mencari informasi yang
dibutuhkan user lewat proses data mining, yaitu :
1.
Model verifikasi
Menggunakan
pendekatan top-down dengan mengambil
hipotesa dari user dan memeriksa validitasnya dengan data sehingga bisa
dibuktikan kebenaran hipotesa tersebut. Penekanan terhadap model ini terletak
pada user yang bertanggung jawab terhadap penyusunan hipotesa dan permasalahan
pada data untuk meniadakan atau menegaskan hasil hipotesa yang diambi. Jadi,
model ini sepenuhnya tergantung pada kemampuan user melakukan analisa terhadap
permasalahan yang ingin digali dan diperoleh informasinya.
2.
Model knowledge discovery
Menggunakan
pendekatan bottom-up untuk mendapatkan informasi yang sebelumnya diketahui.
Model ini berbeda dengan model verifikasi dimana model ini sistem secara
langsung menemukan informasi-informasi penting yang bersembunyi dalam suatu
data yang besar. Data-data yang ada kemudian dipilah-pilah untuk menemukan
seuatu pola, trend yang ada dan keadaan umum pada saat itu tanpa adanya campur
tangan dan tuntunan dari user. Hasil temuan ini menyatakan fakta-fakta yang ada
dalam data-data yang ditemukan dalam waktu sesingkat mungkin. Model ini terbagi
menjadi dua:
a.
Directed knowledge discovery, data mining akan mencoba mencari penjelasan nilai
target field tertentu (seperti mencoba mencari penghasilan, repons, usia dan
lain lain) terhadap field-field yang lain.
b.
Undirected knowledge discovery, tidak ada target field karena komputer akan mencari pola yang ada pada data. Jadi, undirected knowledge discovery digunakan
untuk mengenali hubungan/relasi yang ada pada data, sedangkan directed knowledge discovery akan
menjelaskan hubungan/relasi tersebut (IBM).
1.1.3
Pengelompokan Data Mining
Ada banyak
jenis metode berdasarkan fungsi dalam data mining, tapi di sini hanya akan
dibahas yang lebih dikenal. Berikut kelompok berdasarkan tugas yang dapat
dilakukan, yaitu :
1.
Deskripsi
Terkadang
peneliti dan analis secara sederhana ingin mencoba mencari cara untuk
menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh,
petugas pengumpulan suara mungkin tidak dapat mengumpulkan keterangan atau
fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam
pemilihan presiden. deskripsi dari pola dan kecenderungan sering memberikan
kemungkinan penjelesan untuk suatu pola atau kecenderungan.
2.
Estimasi
Estimasi
hampir sama dengan klasifikasi, perbedaannya adalah variabel target estimasi lebih ke arah numerik daripada ke arah kategori.
Model dibangun dengan menggunakan record lengkap yang menyediakan nilai dari
variabel target sebagai nilai prediksi.
3.
Prediksi
Prediksi
hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai
dari hasil akan ada dimasa mendatang. Contoh prediksi dalam bisnis dan
penelitian adalah: Prediksi harga beras dalam tiga bulan yang akan datang. Prediksi
persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah
dinaikan. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan
estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.
4.
Klasifikasi
Suatu
teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah
didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru dengan
memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan
hasilnya untuk memberikan sejumlah aturan. Klasifikasi menggunakan supervised learning.
5.
Clustering
Clustering
merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk
kelas objek-objek yang memiliki kemiripan satu dengan yang lainnya memiliki
ketidakmiripan dengan record-record dalam kluster lain. Clustering menggunakan unsupervised learning. Teknik yang penulis
gunakan dalam penelitian ini adalah clustering. Teknik data mining ini
mengelompokan data-data yang sejenis atau mirip yang diharapkan akan membantu
untuk dapat memilah tren dari data tersebut.
6.
Asosiasi
Tugas
asosiasi atau sering disebut juga sebagai market
basket analysis dalam data mining adalah menemukan relasi atau korelasi
diantar himpunan item-item dan menemukan atribut yang muncul dalam satu waktu.
Asosiasi menggunakan unsupervised learning. Penting tidaknya suatu aturan
assosiatif dapat diketahui dengan dua parameter, support dan confidence (larose,
2005).
Tujuan dari
data mining secara garis besar adalah untuk mendeskripsikan apa yang telah
terjadi (descriptive data mining),
dan untuk memprediksikan apa yang akan terjadi (predictive data mining). Descriptive data mining mencari pola
pada kejadian yang telah lampau yang mempengaruhi kejadian yang terjadi pada
masa sekarang. Teknik data mining yang termasuk dalam kategori ini adalah association dan clustering. Sedangkan, predictive
data mining mengacu pada kejadian yang telah lampau untuk memprediksikan
apa yang terjadi pada masa yang akan datang. Yang termasuk ke dalam kategori predictive data mining ini adalah classification dan estimation.
2.1.4 Proses Data
Mining
Salah satu
tuntutan dari data mining ketika diterapkan pada data berskala besar adalah
diperlukan metodologis sistematis tidak hanya ketika melakukan analisa saja
tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari
hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.
Data mining
seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan
tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya.
Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil
data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu
dilakukan desain ulang prosesnya.
Data-data
yang ada, tidak dapat langsung diolah dengan menggunakan sistem data mining. Data-data
tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat
lebih maksimal, dan waktu komputasinya lebih minimal. Proses data persiapan
data ini sendiri dapat mencapai 60% dari keseluruhan proses dalam data mining. Adapun
tahapan-tahapan yang harus dilalui dalam proses data mining antara lain :
Gambar 2.2
Tahapan Data Mining
1.
Preprocess Data
(Meliputi pembersihan data dan pemeriksaan outliers)
Pada
umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil
eksperimen, memiliki isian-isian yang tidak relevan. Data-data yang telah
didapat selanjutnya akan mengalami proses pembersihan. Proses pembersihan data
dilakukan untuk membuang record yang keliru, menstandarkan atribut-atribut,
merasionalisasi struktur data, dan mengendalikan data yang hilang. Data yang
tidak konsisten dan banyak kekeliruan membuat hasil data mining tidak akurat
adalah sangat penting untuk membuat data konsisten dan seragam.
Faktor penyebab :
a.
Informasi tidak
terkumpul dengan lengkap
Misal : orang menolak
menyebutkan umur dan berat badan
b.
Atribut mungkin
tidak bisa diterapkan untuk semua kasus
Misal : penghasilan tidak
bisa diaplikasikan untuk bayi dan anak kecil
Solusi
penanganan :
Mengeliminasi objek data
·
Mengestimasi
missinga values
·
Tidak memperhatikan
missing values saat analisis
·
Menggantikan
dengan semua kemungkinan nilai (pembobotan berdasarkan probabilitasnya)
2.
Transformasi data (data diubah menjadi bentuk yang sesuai untuk
diproses dengan model yang dipilih)
Beberapa
teknik data mining membutuhkan format data yang khusus sebelum bisa
diaplikasikan. Karenanya data berupa angka numerik yang berlanjut perlu
dibagi-bagi menjadi interval. Proses ini sering disebut binning. Transformasi
dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya
karena adanya beberapa karakteristik dari teknik-teknik data mining tertentu
yang tergantung pada tahapan ini.
3.
Implementasi
teknik data mining
Aplikasi
teknik data mining sendiri haya merupakan salah satu bagian dari proses data
mining. Beberapa teknik data mining sudah umum dipakai. Ada kalanya
teknik-teknik data mining umum yang tersedia dipasar tidak mencukupi untuk
melaksanakan data mining dibidang tertentu atau untuk data tertentu.
Metode yang
digunakan disesuaikan dengan kebutuhan target informasi yang ingin dicapai
berdasarkan fungsi yang digunakan dengan kebutuhan target informasi yang ingin
dicapai berdasarkan fungsi yang digunakan dan jenis aplikasinya. Macam-macam
metode yang digunakan dapat dilihat pada pengelompokan data mining.
4.
Evaluasi pola
yang ditemukan (untuk menemukan pola yang menarik/bernilai)
Dalam tahap
ini hasil dari teknik data mining berupa pola-pola yang khas maupun model
prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai.
Bila ternyata hasil yang diperoleh tidak sesuai dengan hipotesa ada beberapa
alternatif yang dapat diambil seperti menjadikannya umpan balik untuk
memperbaiki proses data mining, mencoba teknik data mining lain yang lebih
sesuai, atau menerima hasil ini sebagai hasil diluar dugaan yang mungkin
bermanfaat (Han, J. dan M. Kamber, 2006).
2.1.5 Arsitektur
Sistem Data mining
Data mining merupakan proses pencarian pengetahuan yang menarik dari data
berukuran besar yang disimpan dalam basis data, data warehouse atau tempat penyimpanan informasi lainnya. Dengan
demikian arsitektur sistem data mining memiliki
komponen-komponen utama (Han dan Kamber, 2006) yaitu:
a.
Database, data warehouse, World Wide Web, atau
tempat penyimpanan informasi lainnya: bisa berbentuk satu atau banyak database, data warehouse, spreadsheet,
ataupun tempat penyimpanan informasi lainnya. Data Cleaning, Data
Integration dan Data Selection
dapat dijalankan pada data tersebut.
b.
Database dan data warehouse server. Komponen ini
bertanggung jawab dalam pengambilan data yang relevan, berdasarkan permintaan
pengguna.
c.
Knowledge Based. Komponen ini
merupakan domain knowledge yang
digunakan untuk memandu pencarian atau mengevaluasi pola-pola yang dihasilkan.
Pengetahuan tersebut meliput hirarki konsep yang digunakan untuk
mengorganisasikan atribut atau nilai atribut kedalam level abstraksi yang
berbeda. Pengetahuan tersebut juga dapat berupa kepercayaan pengguna (user belief), yang dapat digunakan untuk
menentukan kemenarikan pola yang diperoleh.
d.
Data mining engine. Bagian ini
merupakan komponen penting dalam arsitektur sistem data mining. Komponen ini terdiri dari modul-modul fungsional
seperti karakterisasi, asosiasi, klasifikasi, dan analisis cluster.
e. Ghrapical user
interface (GUI). Modul ini berkomunikasi
dengan pengguna dan data mining.
Melalui komponen ini, pengguna berinteraksi dengan sistem menggunakan query.
Gambar 2.3 Arsitektur sistem
data mining