Minggu, 17 Maret 2019

Big Data

Share it Please
Big data adalah kegiatan menemukan pola dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse,

Kelebihan Big data sebagai alat analisis yaitu, data mining mampu menangani data dalam jumlah besar dan kompleks, data mining dapat menangani data dengan berbagai macam tipe atribut, data mining mampu mencari dan mengolah data secara semi otomatis (disebut semi otomatis karena dalam beberapa teknik data mining, diperlukan parameter yang harus dimasukkan oleh user secara manual) dan data mining dapat menggunakan pengalaman ataupun kesalahan terdahulu untuk meningkatkan kualitas dan hasil analisa sehingga mendapat hasil yang terbaik,

Tahapan dalam Data mining
Adapun tahapan-tahapan data mining secara garis besar dapat dijelaskan sebagai berikut :

 
Gambar 2.1 Tahapan Proses pada Data mining

2.1.2  Teknik Data mining
Teknik data mining dibagi menjadi beberapa yaitu, classification, clustering, association, regression dan forecasting.
Classification merupakan proses menemukan model yang membedakan data berdasarkan kelas-kelas. Algoritma yang biasa diterapkan pada model ini yaitu decision trees, neural network dan naive bayes. Data classification memiliki dua tahap proses. Tahap pertama biasa disebut learned model, umumnya digambarkan dalam bentuk decision tree, dan classification rules. Contoh diagram dari penerapan Decision Trees dapat dilihat pada Gambar 2.2



Gambar 2.2 Diagram Pola Decision Trees

            Clustering merupakan metode penganalisaan data yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu wilayah dan data dengan karakteristik yang berbeda ke wilayah yang lain. Contoh dari clustering dapat dilihat pada gambar 2.3

           
 
Gambar 2.3 Dagram Pola Clustering

Association adalah metode dalam data mining yang digunakan untuk mengetahui hubungan antara dua item dalam suatu set. Association biasa juga disebut Market Basket Analysis. Dan association ini mempunyai dua tujuan utama yaitu menemukan frekuensi item yang telah diset pada setiap produk dan menemukan association rules didalamnya. Contoh Association rules dapat dilihat pada Gambar 2.4.



Gambar 2.4 Diagram Pola Association .
Regression adalah sebuah metode yang digunakan untuk menentukan hubungan sebab-akibat antara satu variabel dengan variabel yang lain. Metode ini banyak digunakan pada bagian statistik, metodenya mencakup linear regression dan logistic regression dan teknik-teknik yang digunakan adalah regression trees dan neural network.
Dan Forecasting adalah suatu teknik analisa perhitungan yang dilakukan dengan pendekatan kualitatif maupun kuantitatif untuk memperkirakan kejadian dimasa depan dengan menggunakan referensi data-data sebelumnya
Pada penelitian ini analisis data mining dilakukan dengan metode clustering dengan tujuan untuk meneglompokan provinsi mana saja  yang memiliki kekurangan tenaga medis.

  Clustering
Analisis pengelompokan (clustering) merupakan sebuah teknik dari analisis multivariable yang digunakan untuk mengelompokkan variabel yang memiliki karakteristik yang sama sehingga dapat menghasilkan suatu informasi untuk membantu pelaksanaan pengujian terhadap objek dan pada akhirnya dapat menyajikan suatu hipotesis berdasarkan relasi yang terjadi. Analisis cluster sama.
Tujuan dari clustering data dapat dibedakan menjadi dua, yaitu clustering untuk pemahaman dan clustering untuk penggunaan. Jika tujuannya untuk pemahaman, kelompok yang terbentuk harus menangkap struktur alami data, biasanya clustering dalam tujuan ini hanya sebagai proses awal untuk kemudian dilanjutkan dengan pekerjaan inti. Sementara jika untuk penggunaan, tujuan utama dari clustering biasanya adalah mencari purwarupa kelompok yang paling representative terhadap data, memberikan abstraksi dari setiap objek data dalam kelompok dimana sebuah data terletak di dalamnya.
Banyak metode clustering yang telah diusulkan oleh para ahli, kemudian metode tersebut dikelompokan kedalam 4 kategori yaitu, metode-metode berbasis partisi (partitioning methods), metode-metode berbasis hirarki (hierarchical methods), metode-metode berbasis kepadatan (density-based methods), dan metode-metode berbasis kisi (grid-based method)

Algoritma Familiar yang di pakai Pada Data Mining ( BIG DATA)
1.      Kmens
2.      K-Medoids Clustering (Pengelompokan)
3.      Hirrarki
4.      Baive Bayes Clasification (Pengabilan Keputusan)

Tidak ada komentar:

Posting Komentar

Formulir Kontak

Nama

Email *

Pesan *

Text Widget

Wellcome My Home

Popular Posts

Followers

Follow The Author