Big data adalah
kegiatan menemukan pola dari data dalam jumlah besar, data dapat disimpan dalam
database, data warehouse,
Kelebihan Big data
sebagai alat analisis yaitu, data mining mampu menangani data dalam
jumlah besar dan kompleks, data mining dapat menangani data dengan
berbagai macam tipe atribut, data mining
mampu mencari dan mengolah data secara semi otomatis (disebut semi otomatis
karena dalam beberapa teknik data mining,
diperlukan parameter yang harus dimasukkan oleh user secara manual)
dan data mining dapat menggunakan pengalaman
ataupun kesalahan terdahulu untuk meningkatkan kualitas dan hasil analisa
sehingga mendapat hasil yang terbaik,
Tahapan dalam Data mining
Adapun tahapan-tahapan data mining secara garis besar dapat dijelaskan sebagai berikut :
Gambar 2.1 Tahapan Proses pada Data mining
2.1.2 Teknik Data mining
Teknik
data mining dibagi menjadi beberapa
yaitu, classification, clustering,
association, regression dan forecasting.
Classification merupakan proses menemukan model yang membedakan
data berdasarkan kelas-kelas. Algoritma yang biasa diterapkan pada model ini
yaitu decision trees, neural network dan naive bayes. Data classification memiliki dua tahap
proses. Tahap pertama biasa disebut learned
model, umumnya digambarkan dalam
bentuk decision tree, dan classification rules. Contoh diagram dari penerapan Decision Trees dapat dilihat pada Gambar 2.2
Gambar 2.2 Diagram Pola Decision
Trees
Clustering
merupakan metode penganalisaan data yang tujuannya adalah untuk mengelompokkan
data dengan karakteristik yang sama ke suatu wilayah dan data dengan
karakteristik yang berbeda ke wilayah yang lain. Contoh
dari clustering dapat dilihat pada
gambar 2.3
Gambar 2.3
Dagram Pola Clustering
Association
adalah metode dalam data mining yang
digunakan untuk mengetahui hubungan antara dua item dalam suatu set. Association biasa juga disebut Market Basket Analysis. Dan association ini mempunyai dua tujuan
utama yaitu menemukan frekuensi item yang telah diset pada setiap produk dan
menemukan association rules didalamnya. Contoh Association rules dapat dilihat pada Gambar 2.4.
Gambar 2.4
Diagram Pola Association .
Regression
adalah
sebuah metode yang digunakan untuk menentukan hubungan
sebab-akibat antara satu variabel dengan variabel yang lain. Metode ini banyak
digunakan pada bagian statistik, metodenya mencakup linear regression dan logistic regression dan teknik-teknik yang digunakan adalah regression trees dan neural network.
Dan
Forecasting
adalah suatu teknik analisa perhitungan yang dilakukan dengan pendekatan
kualitatif maupun kuantitatif untuk memperkirakan kejadian dimasa depan dengan
menggunakan referensi data-data sebelumnya
Pada penelitian ini analisis data
mining dilakukan dengan metode clustering
dengan tujuan untuk meneglompokan provinsi mana saja yang memiliki kekurangan tenaga medis.
Clustering
Analisis pengelompokan (clustering) merupakan sebuah teknik dari
analisis multivariable yang digunakan
untuk mengelompokkan variabel yang memiliki karakteristik yang sama sehingga
dapat menghasilkan suatu informasi untuk membantu pelaksanaan pengujian
terhadap objek dan pada akhirnya dapat menyajikan suatu hipotesis berdasarkan
relasi yang terjadi. Analisis cluster
sama.
Tujuan dari clustering
data dapat dibedakan menjadi dua, yaitu clustering
untuk pemahaman dan clustering untuk
penggunaan. Jika tujuannya untuk pemahaman, kelompok yang terbentuk harus
menangkap struktur alami data, biasanya clustering
dalam tujuan ini hanya sebagai proses awal untuk kemudian dilanjutkan dengan
pekerjaan inti. Sementara jika untuk penggunaan, tujuan utama dari clustering biasanya adalah mencari
purwarupa kelompok yang paling representative
terhadap data, memberikan abstraksi dari setiap objek data dalam kelompok
dimana sebuah data terletak di dalamnya.
Banyak metode clustering yang telah
diusulkan oleh para ahli, kemudian metode tersebut dikelompokan kedalam 4
kategori yaitu, metode-metode berbasis partisi (partitioning methods), metode-metode berbasis hirarki (hierarchical methods), metode-metode
berbasis kepadatan (density-based methods),
dan metode-metode berbasis kisi (grid-based
method)
Algoritma Familiar yang di pakai Pada Data Mining ( BIG DATA)
1.
Kmens
2.
K-Medoids Clustering
(Pengelompokan)
3.
Hirrarki
4.
Baive Bayes Clasification (Pengabilan Keputusan)
Tidak ada komentar:
Posting Komentar