Data Mining Clustering Food Expenditure in Indonesia

Jurnal Teknik Informatika (Jutif)

The availability of food in a country is determined by a conducive climate. Prolonged droughts, floods, and natural disasters, especially for food crop production areas, will have an impact on the availability of natural disaster conditions faced by all countries including Indonesia is the Covid-19 pandemic, where this will affect food security in Indonesia. Data mining is the process of discovering the hidden meaning of a very large data set. The technique used in this study is Data Mining Clustering and the validity index used is Davies-Bouldin. This study aims to determine the Food Security Strategy in Indonesia through the Data Mining Clustering process based on food expenditure data and the Indonesian people's food expenditure per capita. The methodology used is Cross Industry Standard for Data Mining using the K-Means and K-Medoids Algorithm. The best cluster for the K-Means Algorithm is K=7 with a value of 0.341 and for the K-Medoids Algorithm, it is K=7 with a value of 0...

Jurnal Teknik Informatika (JUTIF) Vol. 3, No. 6, Desember 2022, hlm. 1491-1500 DOI: https://doi.org/10.20884/1.jutif.2022.3.6.331 p-ISSN: 2723-3863 e-ISSN: 2723-3871 DATA MINING CLUSTERING FOOD EXPENDITURE IN INDONESIA Indri Tri Julianto*1, Dede Kurniadi2, Muhammad Rikza Nashrulloh3, Asri Mulyani4 1,2,3,4 Jurusan Ilmu Komputer, Institut Teknologi Garut, Indonesia Email: indritrijulianto@itg.ac.id, 2dede.kurniadi@itg.ac.id, 3rikza@itg.ac.id, 4asrimulyani@itg.ac.id 1 (Naskah masuk: 18 Mei 2022, Revisi: 8 Juni 2022, diterbitkan: 26 Desember 2022) Abstract The availability of food in a country is determined by a conducive climate. Prolonged droughts, floods, and natural disasters, especially for food crop production areas, will have an impact on the availability of natural disaster conditions faced by all countries including Indonesia is the Covid-19 pandemic, where this will affect food security in Indonesia. Data mining is the process of discovering the hidden meaning of a very large data set. The technique used in this study is Data Mining Clustering and the validity index used is Davies-Bouldin. This study aims to determine the Food Security Strategy in Indonesia through the Data Mining Clustering process based on food expenditure data and the Indonesian people's food expenditure per capita. The methodology used is Cross Industry Standard for Data Mining using the K-Means and K-Medoids Algorithm. The best cluster for the K-Means Algorithm is K=7 with a value of 0.341 and for the K-Medoids Algorithm, it is K=7 with a value of 0.362. This research produces the best algorithm, namely K-Means with a value of 0.341, which has a smaller value than K-Medoids with a value of 0.362. The results showed that the regional. cluster with the highest average expenditure on food was cluster 5 covering the DKI Jakarta area, while the cluster with the lowest expenditure was cluster 6 covering Central Java, East Nusa Tenggara, Southeast Sulawesi, Gorontalo, and West Sulawesi. In cluster 6, it is necessary to implement a strategy to increase food security by increasing production capacity and food reserves in each region. Keywords: clustering, data mining, food, k-means, k-medoids. DATA MINING KLASTERISASI PENGELUARAN PANGAN DI INDONESIA Abstrak Ketersediaan pangan di suatu negara ditentukan oleh iklim yang kondusif. Kekeringan yang berkepanjangan, banjir, dan bencana alam khususnya untuk daerah produksi tanaman pangan akan berdampak pada jumlah ketersediaan. Kondisi bencana alam yang dihadapi oleh semua negara termasuk Indonesia yaitu pandemi Covid19, dimana hal ini akan mempengaruhi ketahanan pangan di Indonesia. Data mining adalah proses menemukan makna tersembunyi dari kumpulan data yang sangat besar. Teknik yang digunakan dalam penelitian ini adalah Data Mining Klasterisasi dan indeks validitas yang digunakan adalah Davies-Bouldin. Penelitian ini bertujuan untuk mengetahui Strategi Ketahanan Pangan di Indonesia melalui proses Data Mining Clustering berdasarkan data pengeluaran pangan dan pengeluaran pangan per kapita masyarakat Indonesia. Metodologi yang digunakan adalah Cross Industry Standard for Data Mining dengan menggunakan Algoritma K-Means dan K-Medoids. Klaster terbaik untuk Algoritma K-Means adalah K=7 dengan nilai 0.341 dan untuk Algoritma K-Medoids adalah K=7 dengan nilai 0.362. Penelitian ini menghasilkan algoritma terbaik yaitu K-Means dengan nilai 0.341 yang memiliki nilai lebih kecil dari K-Medoids dengan nilai 0.362. Hasil penelitian menunjukkan bahwa klaster daerah dengan rata-rata pengeluaran pangan tertinggi adalah klaster 5 yang meliputi wilayah DKI Jakarta, sedangkan klaster dengan pengeluaran terendah adalah klaster 6 yang meliputi Jawa Tengah, Nusa Tenggara Timur, Sulawesi Tenggara, Gorontalo, dan Sulawesi Barat. Pada klaster 6 perlu diterapkan strategi peningkatan ketahanan pangan dengan meningkatkan kapasitas produksi dan cadangan pangan di masing-masing wilayah. Kata kunci: data mining, klasterisasi, k-means, k-medoids, pangan. 1. khususnya bagi wilayah-wilayah produksi tanaman pangan, akan berdampak terhadap ketersediaan pangan [1]. Kondisi bencana alam yang dihadapi seluruh negara termasuk Indonesia adalah pandemi covid-19, dimana hal ini akan mempengaruhi PENDAHULUAN Ketersediaan pangan di suatu negara itu ditentukan oleh iklim yang kondusif. Kemarau berkepanjangan, banjir serta bencana alam, 1491 1492 Jurnal Teknik Informatika (JUTIF), Vol. 3, No. 6, Desember 2022, hlm. 1491-1500 terhadap ketahanan pangan di Indonesia. Persentase yang lebih tinggi dari pengeluaran konsumsi pangan masyarakat menunjukkan semakin rendah ketahanan pangan suatu daerah dan sebaliknya semakin rendah persentase pengeluaran konsumsi pangan maka ketahanan pangan suatu daerah semakin tinggi dan menunjukkan peningkatan kesejahteraan [2]. Penelitian ini bertujuan untuk mengelompokkan pengeluaran pangan masyarakat menurut provinsi di Indonesia. Data masukan yang digunakan adalah data sekunder yang diperoleh dari Badan Pusat Statistik (BPS), dimana data tersebut merupakan data pengeluaran per kapita perkotaan dan perdesaan menurut provinsi dan kelompok barang (rupiah). Pengolahan data ini memerlukan pengolahan Data Mining, karena sumber data yang tersedia cukup besar dan melalui teknik ini akan ditemukan pengetahuan baru dari data yang terkumpul. Luaran dari penelitian ini adalah pengelompokan wilayah dengan ketahanan pangan tinggi dan rendah. Kemudian hasil pengolahan Data Mining ini akan dijadikan acuan untuk menentukan strategi ketahanan penguatan pangan di daerah yang termasuk kategori rendah. Data Mining merupakan proses untuk menemukan keterkaitan baru, pola dan juga tren dengan istilah menambang sejumlah repository data dalam jumlah besar dengan menggunakan bidang ilmu teknik matematika serta statistika, kemudian data mining juga sering disebut Knowledge Discovery in Database (KDD) atau Pattern Recognition [3]–[5], dimana Data Mining ini dapat digolongkan menjadi empat kelompok, yang pertama adalah model prediksi (prediction modelling), kedua adalah analisis klasterisasi (Cluster analysis), analisis asosiasi (association analysis) serta deteksi anomali (anomaly detection) [6]. Data mining memiliki banyak algoritma yang dapat digunakan, akan tetapi terdapat 10 algoritma Data Mining yang menempati peringkat teratas, yaitu C4.5, K-Means, Suppot Verctor Machines, Apriori, EM, PageRank, Adaboost, k-Nearst Neighbors, Naïve Bayes, Classification and Regression Trees [7]. Data masukan yang digunakan pada proses Data Mining disajikan dalam bentuk gambar, seperti terlihat pada Gambar 1 dan Gambar 2. Gambar 1. Data Pengeluaran Pangan Masyarakat Indonesia Gambar 2. Data Jenis Pengeluaran Pangan Kedua data tersebut akan dijadikan masukkan dalam proses Data Mining ketahanan pangan Indonesia. Data tersebut bersumber dari Badan Pusat Statistik Indonesia dari rentang tahun 2013-2019. Rentang waktu tersebut dipilih karena datanya relatif konsisten dibandingkan data-data sebelum 2013 dan data semenjak pandemi covid-19. Terdapat beberapa penelitian yang telah membahas mengenai Data Mining, dimana penelitiannya menggunakan studi kasus Covid-19 serta algoritma yang digunakan merupakan algoritma klasterisasi. Secara keseluruhan ada yang menggunakan algoritma K-Medoid seperti penelitian [2], [8], [9] , kemudian ada juga yang menggunakan algoritma K-Means seperti penelitian [10], serta ada yang menggunakan dua algoritma sekaligus yaitu algoritma K-Means dan Hierarchical Clustering seperti penelitian [11]. Berdasarkan peneitianpenelitian tersebut, diputuskan untuk menggunakan algoritma klasterisasi K-Means dan K-Medoids untuk mengetahui daerah pengeluaran pangan di Indonesia. 2. METODE PENELITIAN Cross Industry Standard Process for Data Mining (CRISP-DM) merupakan metodologi yang digunakan dalam penelitian ini. Adapun tahapantahapannya disajikan dalam bentuk gambar sebagaimana tampak pada Gambar 3. Indri Tri Julianto, dkk, Data Mining Klasterisasi Pengeluaran Pangan … 1493 Gambar 3. Metodologi Penelitian Berdasarkan CRISP-DM 2. 1. Pengumpulan Data Data yang digunakan merupakan hasil dari Studi Pustaka yang dilakukan. Adapun hasil yang didapatkan dari studi pustaka adalah dalam bentuk jurnal, buku, artikel dari suatu situs web serta data yang di rujuk dari Badan Pusat Statistik (BPS). 2. 2. Business Understanding Pemahaman penelitian mengacu pada ketahanan pangan Indonesia selama menghadapi masa pandemi covid-19. Pada tahap ini diperlukan pemahaman tentang latar belakang, tujuan dan substansi pada penelitian ini. Adapun turunan dari tahapan ini adalah sebagi berikut: 2. 2. 1. Determine Business Objectives Tujuan dari penelitian ini adalah melakukan klasterisasi dari data yang dirilis oleh BPS, sehingga nantinya akan menjadi rekomendasi bagi penerapan strategi yang cocok bagi klaster-klaster wilayah yang terbentuk; 2. 2. 2. Asses The Situation Situasi selama masa pandemi ini sangat mempengaruhi ketahanan pangan serta daya beli masyarakat Indonesia, sehingga data yang digunakan adalah dari rentang 2013-2019 dikarenakan data yang sudah relatif konsisten serta dapat dijadikan acuan bagi strategi ketahanan pangan kedepannya; 2. 2. 3. Determine The Data Mining Goals Tujuan dilakukannya proses Data Mining ini adalah untuk menggali pengetahuan baru dengan teknik clustering guna menunjang strategi ketahanan pangan di Indonesia. 2. 3. Data Understanding Pemahaman data mengacu pada data BPS. Dilakukan pemahaman mengenai format data secara permukaan dan secara lebih mendalam mengenai bentuk fisik data. Adapun tahapan yang dikerjakan dalam Data Understanding ini adalah sebagai berikut: 2. 3. 1. Collect The Initial Data Data yang dihimpun merupakan data dari BPS mengenai rata-rata per kapita pengeluaran masyarakat untuk kebutuhan pangan per bulan berdasarkan daerah dalam rentang waktu 2013-2019 beserta data jenis makanannya; 2. 3. 2. Describe The Data Data yang telah diunduh dari situs web BPS kemudian dibuka melalui Microsoft Excel, dimana untuk data tabel 1 didalamnya terdapat kolom untuk provinsi, kemudian kolom kebutuhan makanan berdasarkan tahun, kolom kebutuhan non makanan berdasarkan tahun dan kolom jumlah kebutuhan pangan dan non pangan berdasarkan tahun. Untuk tabel kedua terdapat kolom kelompok barang, kemudian rentang biaya yang dikeluarkan masyarakat dalam satuan rupiah dan kolom rata-rata pengeluaran per kapita; 2. 3. 3. Explore The Data Berdasarkan temuan pada tahap Describe The Data, maka perlu dilakukan revisi atau eliminasi terhadap struktur dari data tersebut. Revisi yang dilakukan adalah pada kolom jumlah, seharusnya tidak perlu disertakan akumulasi dari kolom non makanan. Eliminasi dilakukan pada kolom kebutuhan non makanan yang tidak akan berpengaruh terhadap proses Data Mining yang akan dilakukan; 2. 3. 4. Verify Data Quality Tidak ada penomoran di kedua tabel tersebut, misal untuk tabel pertama seharusnya ada kolom untuk nomor sehngga memudahkan dalam menemukan urutan dari suatu provinsi. 1494 Jurnal Teknik Informatika (JUTIF), Vol. 3, No. 6, Desember 2022, hlm. 1491-1500 2. 4. Data Preparation Adapun ilustrasi mengenai tahapan ini disajikan dalam bentuk gambar sebagaimana tampak pada Gambar 4. Gambar 4. Ilustrasi Data Preparation [12] Tugas-tugas yang dilakukan pada data preparation ini adalah sebagai berikut: 2. 4. 1. Select Data Data yang telah diperoleh kemudian diseleksi, dimana hanya kolom dan baris yang berpengaruh terhadap proses Data Mining yang akan digunakan, Adapun atribut-atribut yang ada dalam data disajikan dalam bentuk tabel sebagaimana tampak pada Tabel 1. Tabel 1. Atribut Yang Digunakan No Atribut Tipe Atribut 1 2 3 4 Provinsi Makanan Non-Makanan Tahun Polyniminal Polynominal Polynominal Integer 5 Jumlah Integer 6 Golongan pengeluaran per kapita sebulan (rupiah) Rata-rata Per Kapita Integer 7 Integer Keterangan Menampilkan nama daerah Menampilkan jenis makanan Menampilkan jenis non-makanan Menampilkan pengeluaran berdasarkan tahun (2013-2019) Menampilkan akumulasi perhitungan Menampilkan pengeluaran mulai kurang dari 10.000 s.d lebih dari 1.000.000 Menampilkan pengeluaran per kapita rata-rata Tidak semua atribut yang terdapat pada Tabel 1. akan digunakan, hanya atribut-atribut yang berpengaruh dalam proses Data Mining yang akan digunakan. Adapun atribut-atribut yang digunakan adalah sebagai berikut: a. Provinsi; b. Makanan; c. Tahun; d. Rata-rata per kapita. dihilangkan untuk mendapatkan data yang relevan [13]. Tabel 2. Pembersihan Data Kosong Pada Data Pengeluaran Pangan Provinsi 2013 2014 Nusa Tenggara 316 656 366 885 Barat Nusa Tenggara 240 207 267 584 Timur Kalimantan Barat 367 018 420 130 Kalimantan Tengah 418 274 495 159 Kalimantan Selatan 440 803 456 699 Kalimantan Timur 477 325 516 036 Kalimantan Utara Sulawesi Utara 379 814 395 996 Sulawesi Tengah 320 823 360 961 Sulawesi Selatan 302 903 330 220 Sulawesi Tenggara 284 683 291 923 Gorontalo 276 334 338 353 Sulawesi Barat 278 355 280 751 . Pada awalnya data pada Tabel 2. terdapat nilai kosong yaitu pada Provinsi Kalimantan Utara. Sehingga untuk mendapatkan nilai yang relevan maka records Kalimantan Utara itu diambil nilai rata-rata. Tabel 3. Pembersihan Data Kosong Pada Data Jenis Pangan Nama Makanan 2013 Kurang dari 100.00 Padi-padian 29 722 Umbi-umbian 3 302 Ikan 5 300 Daging Telur dan susu 263 Sayur-sayuran 6 430 Kacang-kacangan 1 303 Buah-buahan 1 931 Minyak dan lemak 2 505 Bahan minuman 1 527 Bumbu-bumbuan 1 466 Konsumsi lainnya 132 Makanan dan minuman jadi 2 839 Tembakau dan sirih 4 203 Pada Tabel 3. terdapat kekosongan pada bagian Daging, sehingga untuk mendapatkan nilai yang relevan, maka dilakukan pemberisihan pada records Daging dengan cara mencari nilai rata-rata atau Means. Atribut-atribut tersebut dipilih berdasarkan pertimbangan pada tujuan awal penelitian ini yaitu klasterisasi ketahanan pangan Indonesia dimana kata kunci utama dalam pemilihan atribut ini adalah pangan atau makanan, sehingga golongan non makanan tidak dimasukkan dalam proses Data Mining ini. 2. 4. 3. Construct Data Setelah tahap clean data dilakukan, maka tahap ini menghasilkan struktur data baru untuk kedua tabel tersebut. Adapun contoh struktur tabel tersebut disajikan sebagaimana tampak pada Tabel 4 dan Tabel 5. 2. 4. 2. Clean Data Data akan dibersihkan dari data yang tidak layak seperti halnya data kosong, seperti halnya yang terdapat pada tabel rata-rata pengeluaran makanan per kapita sebagaimana tampak pada Tabel 2. serta pada tabel jenis makanan sebagaimana tampak pada Tabel 3. Data kosong tersebut akan No 1 2 3 Tabel 4. Struktur Data Pengeluaran Untuk Makanan Nama 2013 ………. 2019 Provinsi Aceh 371 ………. 559 300 838 Sumatera 363 ………. 576 323 Utara 363 Sumatera 419 ………. 609 258 Barat 853 No 4 Nama Provinsi Riau 5 Jambi … 34 ………. Papua No 1 2 3 4 … 14 2013 468 503 377 133 ………. 379 876 ………. Indri Tri Julianto, dkk, Data Mining Klasterisasi Pengeluaran Pangan … 2019 ………. 621 748 ………. 560 542 ………. ………. ………. 665292 Tabel 5. Struktur Data Jenis Makanan Jenis Rata-Rata Pengeluaran Per Kapita Makanan 2013 ………. 2019 Padi-padian 62 449 ………. 559 300 Umbi-umbian 3 886 ………. 576 323 Ikan 26 150 ………. 609 258 Telur dan 14 168 ………. 560 542 susu ………. ………. ………. ………. Tembakau 41 323 ………. 70 654 dan Sirih 2. 4. 4. Integrate Data Tahapan ini menggabungkan kedua data pada tabel menjadi satu tabel yang akan diproses. Adapun hasil integrate data disajikan sebagaimana tampak pada Tabel 6. No 4 Nama Provinsi Aceh Sumatera Utara Sumatera Barat Riau 5 Jambi 1 2 3 …. 6 ………. Papua Tabel 6. Hasil Integrate Data Rata-Rata Pengeluaran Per Kapita 2013 ………. 2019 371 838 363 363 ………. ………. 559 300 576 323 419 853 ………. 609 258 468 503 377 133 ………. 379 876 621 748 560 542 ………. ………. ………. 665292 2. 4. 5. Format Data Format data dilakukan dengan menghasilkan tabel berupa rata-rata keuangan yang dikeluarkan masyarakat untuk makanan berdasarkan provinsi dimana strukturnya berupa kolom provinsi dan kolom rata-rata pengeluaran untuk makanan. Adapun tabel tersebut disajikan sebagaimana tampak pada Tabel 7. No 1 2 3 4 5 …… 34 Tabel 7. Hasil Format Data Nama Provinsi Rata-Rata Pengeluaran Aceh 471 693 Sumatera Utara 471 784 Sumatera Barat 525 310 Riau 545 135 Jambi 477 357 ………………………….. …………………… Papua 544 694 2. 5. Modelling Tahapan ini secara langsung melibatkan teknik Data Mining. Pemilihan teknik Data Mining, algoritma dan menentukan parameter dengan nilai yang optimal [12]. Langkah-langkahnya pada modelling sebagai berikut: 1495 2. 5. 1. Select Modelling Technique Teknik Data Mining yang dipilih adalah klasterisasi dimana algoritma yang digunakan adalah K-Means dan K-Medoids; 2. 5. 2. Generate Test Design Teknik clustering tidak memerlukan tahap pembelajaran kerena clustering bersifat unsupervised learning dan melakukan pengelompokan secara alamiah berdasarkan kemiripan atributnya, dimana berbeda dengan teknik klasifikasi lainnya; 2. 5. 3. Build Model Tahapan ini dilakukan dengan menggunakan aplikasi Rapidminer dimana nantinya data akan klaster dengan menggunakan 2 algoritma yakni KMeans dan K-Medoids; 2. 5. 4. Assess Model Penilaian terhadap pusat klaster paling optimal dilakukan menggunakan 2 algoritma K-Means dan K-Medoids, dimana pusat klaster terbaiklah yang akan digunakan. 2. 6. Evaluation Tahapan ini adalah fase interpretasi terhadap hasil Data Mining. Evaluasi dilakukan secara mendalam dengan tujuan agar hasil pada tahap modelling sesuai dengan sasaran yang ingin dicapai dalam tahap business understanding [12]. Adapun kegiatan yang dilakukan dalam tahapan ini adalah sebagaimana berikut: 2. 6. 1. Evaluate Results Tahapan ini menilai sejauh mana hasil pemodelan Data Mining memenuhi tujuan data mining yang ditentukan pada tahap business understanding; 2. 6. 2. Review Process Tahapan ini melakukan pemeriksaan kembali tahapan dari awal untuk memastikan bahwa tidak ada faktor penting dalam proses tersebut yang terabaikan atau terlewati; 2. 6. 3. Determine Next Steps Tahapan ini menentukan langkah apa yang diambil. Ada 2 pilihan: Kembali ke tahap awal (business understanding) atau melanjutkan ke tahap akhir (deployment). 2. 7. Deployment Tahapan membuat laporan hasil kegiatan data mining. Laporan akhir mengenai pengatahuan yang didapat atau pengenalan pola pada data dalam proses data mining akan dijadikan acuan dalam pengambilan keputusan untuk meningkatkan ketahanan pangan di Indonesia. 1496 Jurnal Teknik Informatika (JUTIF), Vol. 3, No. 6, Desember 2022, hlm. 1491-1500 3. HASIL DAN PEMBAHASAN 3. 1. Pengumpulan Data Penelitian ini mengambil data yang dikeluarkan oleh Badan Pusat Statistik yang dirilis pada tahun 2020 mengenai ketahanan pangan di masing-masing wilayah di Indonesia. Data ini terdiri dari dua tabel yaitu tabel pertama mengenai jumlah rata-rata biaya yang dikeluarkan masyarakat untuk kebutuhan makanan dan tabel kedua adalah mengenai jenis dari makananya. Data ini dihimpun dari rentang waktu 2013 sampai dengan 2019. Adapun hasil dari tahapan pengumpulan data disajikan dalam bentuk tabel sebagaimana tampak pada Tabel 8. Tabel 8. Hasil Tahapan Pengumpulan Data Nama Hasil tahapan Keterangan Tahapan Data Ketahanan Data tersebut terdiri dari Pangan dua table yaitu: Indonesia 1. Tabel pertama bersumber dari Jumlah Fields = 22 Pengumpulan BPS dan Jumlah Records Data ditunjang =770; dengan jurnal2. Tabel kedua jurnal ilmiah Jumlah Fields = 64 mengenai Jumlah Records = Pertanian, Data 1.600 Mining serta Covid-19 3. 2. Business Understanding Hasil dari tahapan ini adalah menggambarkan tujuan dari penelitian ini, dimana tujuannya adalah melakukan klasteriasi mengenai ketahanan pangan di Indonesia selama masa pandemi covid-19. Data yang digunakan merupakan data dari BPS, nantinya dat tersebut akan di klaster menurut wilayah serta akhirnya akan bermuara pada penentuan strategi yang akan digunakan dalam rangka perkuatan ketahanan pangan Indonesia. Detail mengenai pembahasan dan turunan dari tahapan Business Understanding telah dibahas pada sub.bab sebelumnya. 3. 3. Data Understanding Hasil dari tahapan ini adalah pemahaman mengenai data yang telah diperoleh. Adapun hasil tersebut disajikan dalam bentuk tabel sebagaimana tampak pada Tabel 9. No 1 2 3 4 5 6 7 Tabel 9. Hasil Tahapan Data Understanding Nama Atribut Tipe Atribut Provinsi Polynominal Kebutuhan Makanan Berdasarkan Polynominal Tahun Kebutuhan Non Makanan Polynominal Berdasarkan Tahun Jumlah kebutuhan pangan dan non Polynominal pangan berdasarkan tahun Kelompok barang Polynominal Rentang biaya yang dikeluarkan Polynominal masyarakat dalam satuan rupiah Rata-rata pengeluaran per kapita Polynominal 3. 4. Data Preparation Data hasil dari tahapan Data Preparation merupakan data akhir yang akan digunakan dalam proses Data Mining. Adapun hasil tahapan ini disajikan dalam bentuk tabel sebagaimana tampak pada Tabel 10. No 1 2 3 4 5 …… 34 Tabel 10. Hasil Tahapan Data Preparation Nama Provinsi Rata-Rata Pengeluaran Aceh 471 693 Sumatera Utara 471 784 Sumatera Barat 525 310 Riau 545 135 Jambi 477 357 ………………………….. …………………… Papua 544 694 3. 5. Modelling Tahapan ini langsung melibatkan aplikasi Rapidminer untuk membantu dalam proses Data Mining [14]. Tahap Modelling terdiri dari empat tahapan dimana dua tahapan telah dibahasa sebelumnya yaitu poin satu dan juga dua. Dua poin lainnya yang akan dibahas adalah tahap build model dan assess model. 2. 5. 1. Build Model Model yang dikonstruksi dalam aplikasi Rapidminer adalah pengolahan data ketahanan pangan yang diklasterisasi menggunakan dua algoritma Data Mining yaitu K-Means dan KMedoids. Adapun modelnya disajikan dalam bentuk gambar, sebagaimana tampak pada Gambar 5. Gambar 5. Model Data Mining Ketahanan Pangan Proses konstruksi model pada Rapidminer, pada awal mulanya adalah data yang digunakan itu berekstensi .xlsx (file excel) kemudian masuk melalui operator Nominal to Numerical dimana fungsinya adalah merubah tipe data yang bukan numerik menjadi numerik. Selanjutnya adalah masuk ke operator Multiply yang berfungsi untuk memproses lebih dari 1 algoritma, dimana yang digunakan adalah K-Means dan K- Medoids. Kemudian adapaun parameter yang digunakan untuk algoritma K-Means disajikan pada Tabel 11 Indri Tri Julianto, dkk, Data Mining Klasterisasi Pengeluaran Pangan … sedangkan untuk algoritma K-Medoids disajikan pada Tabel 12. Tabel 11. Parameter Algoritma K-Means Parameter Nilai K 2 sampai dengan 10 Max runs 10 (default) Measure type Numerical measurement Numerical measure EuclideanDistance Max optimization step 100 (default) Tabel 12. Parameter Algoritma K-Medoids Parameter Nilai K 2 sampai dengan 10 Max runs 10 (default) Max Optimization Step 100 Measure type Numerical Measurement Numerical measure EuclideanDistance Max optimization step 100 (default) 1497 Tabel 13. Hasil Perhitungan Indeks Validitas Davies-Bouldin No 1 2 3 4 5 6 7 8 9 Klaster K=2 K=3 K=4 K=5 K=6 K=7 K=8 K=9 K=10 K-Means 0,583 0,528 0,460 0,409 0,384 0,341 0,361 0,420 0,459 K-Medoids 0,745 0,481 0,421 0,518 0,481 0,362 0,657 0,539 0,409 Hasil perhitungan yang tertera pada Tabel 13 ditranslasikan ke dalam bentuk grafik, sebagaimana tampak pada Gambar 7. 2. 5. 2. Assess Model Pemodelan dilakukan dari K=2 sampai dengan K=10 agar dapat menilai pemodelan yang menghasilkan pusat klaster akhir yang paling optimal. Setelah itu maka tahapan selanjutnya adalah mencari K yang paling optimal dengan cara menggunakan indeks validitas Davies-Bouldin. 3. 6. Evaluation Tahapan ini akan dilakukan evaluasi terhadap model yang telah dibuat pada sub.bab sebelumnya, dengan tujuan untuk mencari nilai K yang optimal, lalu setelah ditemukan, akan dilakukan analisis yang mencakup ciri-ciri dari setiap klaster yang telah terbentuk. 3. 6. 1. Evaluate Results Indeks Davies-Bouldin digunakan sebagai indeks validitas untuk mengetahui nilai K yang terbaik dari hasil pecobaan K=2 sampai dengan K=10. Adapun penggunaan indeks Davies-Bouldin ini disajikan dalam bentuk gambar, sebagaimana tampak pada Gambar 6. Gambar 7. Grafik Hasil Indeks Davies-Bouldin Jumlah klaster terbaik dari indeks validitas Davies-Bouldin ditunjukkan dengan nilai indeks yang semakin kecil [15]. Berdasarkan Gambar 4.3, maka klaster terbaik untuk Algoritma K-Means adalah K=7 dengan nilai 0,341 dan untuk Algoritma K-Medoids adalah K=7 dengan nilai 0,362. Pada penelitian ini menghasilkan Algoritma terbaik yaitu K-Means dengan nilai 0,341, dimana memiliki nilai yang lebih kecil daripada K-Medoids dengan nilai 0,362. Maka model klaster untuk k=7 Algoritma KMeans disajikan dalam bentuk gambar sebagaimana tampak pada Gambar 8. Gambar 6. Indeks Validitas Davies-Bouldin Gambar 8. Model Klaster K=7 K-Means Berdasarkan Gambar 6, maka hasil perhitungan indeks validitas Davies-Bouldin disajikan dalam bentuk tabel, sebagaimana tampak pada Tabel 13. Setelah diketahui bahwa nilai K optimal adalah 7, maka langkah selanjutnya adalah menganalisis ciri-ciri dari setiap klaster yang terbentuk. Adapun 1498 Jurnal Teknik Informatika (JUTIF), Vol. 3, No. 6, Desember 2022, hlm. 1491-1500 hasil analisis tersebut disajikan dalam bentuk tabel, sebagaimana tampak pada Tabel 14. Tabel 14. Hasil Analisis Ciri-Ciri Tiap Klaster Rata-Rata Pengeluaran Klaster Nama Provinsi Klaster 0 Aceh Sumatera Utara Jambi Bengkulu Jawa Barat PerKapita Rp. 476.472 Kalimantan Barat Sulawesi Utara Klaster 1 Sumatera Barat Riau Banten Bali Kalimantan Tengah Kalimantan Selatan Papua Barat Rata-Rata Pengeluaran Per Kapita Rp. 540.129 Papua Klaster 2 Sumatera Selatan Lampung DI Yogyakarta Jawa Timur Nusa Tenggara Barat Sulawesi Tengah Sulawesi Selatan Maluku Rata-Rata Pengeluaran Per Kapita Rp. 425.678 Maluku Utara Klaster 3 Klaster 4 Klaster 5 Klaster 6 Kalimantan Timur Kepulauan Bangka Belitung Kepulauan Riau DKI Jakarta Jawa Tengah Nusa Tenggara Timur Sulawesi Tenggara Gorontalo Sulawesi Barat Rata-Rata Pengeluaran Per Kapita Rp. 605.595 Rata-Rata Pengeluaran Per Kapita Rp. 648.914 Rata-Rata Pengeluaran Per Kapita Rp. 727.510 Rata-Rata Pengeluaran Per Kapita Rp. 366.455 Berdasarkan Tabel 14. maka diketahui pengeluaran rata-rata masyarakat per kapita untuk pangan tiap klaster dari yang tertinggi hingga yang terendah nilainnya. Adapun ranking tiap klaster disajikan dalam bentuk tabel sebagaimana tampak pada Tabel 15. Tabel 15. Ranking Klaster Berdasarkan Pengeluaran ( TertinggiTerendah ) No Nama Klaster 1 2 3 4 5 6 7 Klaster 5 Klaster 4 Klaster 3 Klaster 1 Klaster 0 Klaster 2 Klaster 6 Rata-Rata Pengeluaran Rp. 727.510 Rp. 648.914 Rp. 605.595 Rp. 540.129 Rp. 476.472 Rp. 425.678 Rp. 366.455 Berdasarkan Tabel 15. dapat diketahui bahwa klaster daerah dengan rata-rata pengeluaran untuk makanan tertinggi adalah klaster 5 yang meliputi daerah DKI Jakarta, sedangkan klaster dengan pengeluaran terendah yaitu klaster 6 yang meliputi Jawa Tengah, Nusa Tenggara Timur, Sulawesi Tenggara, Gorontalo dan Sulawesi Barat. Pada klaster 6 perlu dilakukan strategi peningkatan ketahanan pangan melalui peningkatan kapasitas produksi serta peningkatan cadangan pangan di setiap daerah. 3. 6. 2. Review Process Semua proses sudah dilakukan sesuai dengan metodologi yang digunakan yaitu CRISP-DM, sehingga dapat melanjutkan ke tahapan berikutnya. 3. 6. 3. Determine Next Step Tahap ini akan menentukan apakah akan dilanjutkan ke tahap selanjutnya atau ada beberapa hal yang harus dikerjakan ulang. Semua proses telah dilakukan dan menghasilkan data dan pengetahuan baru terkait klasterisasi ketahanan pangan Indonesia di masa pandemi Covid-19, sehingga diputuskan penelitian ini dapat dilanjutkan ke tahap selanjutnya yaitu Deployment. 3. 6. 4. Deployment Tahapan ini adalah pembuatan laporan atau dapat juga diartikan sebagai penerapan dari hasil Data Mining. Hasil yang diperoleh adalah “pengelompokan Data Pengeluaran Pangan menunjukkan bahwa klaster 6 merupakan klaster dengan tingkat pengeluaran pangan terendah dimana wilayahnya meliputi Jawa Tengah, NTT, Sulawesi Tenggara, Gorontalo, dan Sulawesi Barat. Strateginya adalah meningkatkan kapasitas produksi dan menambah cadangan pangan di masing-masing daerah”. 4. KESIMPULAN Indri Tri Julianto, dkk, Data Mining Klasterisasi Pengeluaran Pangan … Berdasarkan hasil penelitian yang telah dilakukan, maka dapat disimpulkan: 1. Penentuan nilai K optimum untuk algoritma KMeans dan K-Medoids dilakukan dengan menggunakan Indeks Validitas Davies-Bouldin, dimana algoritma K-Means merupakan algoritma yang lebih baik dari algoritma K-Medoids, dengan hasil optimal untuk K-Means = 0,341, sedangkan untuk K-Medoids = 0,362; 2. Pengelompokan Pengeluaran Pangan Data menunjukkan bahwa klaster 6 merupakan klaster dengan tingkat pengeluaran pangan terendah dimana wilayahnya meliputi Jawa Tengah, NTT, Sulawesi Tenggara, Gorontalo, dan Sulawesi Barat. Strateginya adalah meningkatkan kapasitas produksi dan menambah cadangan pangan di masing-masing daerah. [9] [10] [11] [12] [13] DAFTAR PUSTAKA [1] [2] [3] [4] [5] [6] [7] [8] R. Chaireni, D. Agustanto, R. Amriza Wahyu, and P. Nainggolan, “Ketahanan Pangan Berkelanjutan,” J. Kependud. dan Pembang. Lingkung., vol. 1, no. 2, pp. 70–79, 2020, [Online]. Available: http://jkpl.ppj.unp.ac.id/index.php/JKPL/artic le/view/13. Z. R. S. Elsi et al., “Utilization of Data Mining Techniques in National Food Security during the Covid-19 Pandemic in Indonesia,” J. Phys. Conf. Ser., pp. 1–7, 2020, doi: 10.1088/1742-6596/1594/1/012007. Han and Kamber, Data Mining Concepts and Technique. San Francisco: Diane Cerra, 2006. C. C. Aggarwal, Data Mining : The Textbook. New York: Springer, 2015. N. Ye, Data Mining: Theories, Algorithms, and Examples. New York: Taylor & Francis Group, 2014. K. Fatmawati and A. P. Windarto, “Data Mining : Penerapan Rapidminer Dengan KMeans Cluster Pada Daerah Terjangkit Demam Berdarah Dengue ( DBD ) Berdasarkan Provinsi,” CESS (Journal Comput. Eng. Syst. Sci., vol. 3, no. 2, pp. 173–178, 2018. X. Wu et al., Top 10 algorithms in data mining, vol. 14, no. 1. Minnesota: Taylor & Francis Group, LLC, 2009. A. Alqurneh, A. Mustapha, and N. M. Sharef, “A Partitioning-based Approach for Clustering COVID-19 Drugs and CoMedication for Safe Use,” Int. J. Integr. Eng., vol. 5, pp. 224–232, 2020. [14] [15] 1499 S. Sindi, W. R. O. Ningse, I. A. Sihombing, P. P. P. A. N. . F. I. R.H.Zer, and D. Hartama, “Analisis algoritma k-medoids clustering dalam pengelompokan penyebaran covid-19 di indonesia,” J. Teknol. Inf., vol. 4, no. 1, pp. 166–173, 2020. W. Yustanti, N. Rahmawati, and Y. Yamasari, “Klastering Wilayah Kota/Kabupaten Berdasarkan Data Persebaran Covid-19 di Propinsi Jawa Timur dengan Metode K-Means,” J. Inf. Eng. Educ. Technol., vol. 04, no. 01, pp. 1–9, 2020. A. Doroshenko, “Analysis of the Distribution of COVID-19 in Italy Using Clustering Algorithms,” IEEE Third Int. Conf. Data Stream Min. Process., pp. 325–328, 2020. I. Budiman, “Data Clustering Menggunakan Metodologi CRISP-DM Untuk Pengenalan Pola Proporsi Pelaksanaan TRIDHARMA,” Iniversitas Diponegoro Semarang, 2012. F. N. Dhewayani, D. Amelia, D. N. ALifah, B. N. Sari, and M. Jajuli, “Implementasi KMeans Clustering untuk Pengelompokkan Daerah Rawan Bencana Kebakaran Menggunakan Model,” J. Teknol. dan Inf., vol. 12, no. 1, pp. 64–77, 2022, doi: 10.34010/jati.v12i1. I. T. Julianto, D. Kurniadi, M. R. Nashrulloh, and A. Mulyani, “Comparison Of Data Mining Algorithm For Forecasting Bitcoin Crypto Currency Trends,” JUTIF, vol. 3, no. 2, pp. 245–248, 2022. A. F. Khairati, A. A. Adlina, G. F. Hertono, and B. D. Handari, “Kajian Indeks Validitas pada Algoritma K-Means Enhanced dan KMeans MMCA,” Pros. Semin. Nas. Mat., vol. 2, pp. 161–170, 2019. 1500 Jurnal Teknik Informatika (JUTIF), Vol. 3, No. 6, Desember 2022, hlm. 1491-1500

Log In

Data Mining Clustering Food Expenditure in Indonesia

Related papers

Related papers

Related topics