Jurnal Teknik Informatika (JUTIF)
Vol. 3, No. 6, Desember 2022, hlm. 1491-1500
DOI: https://doi.org/10.20884/1.jutif.2022.3.6.331
p-ISSN: 2723-3863
e-ISSN: 2723-3871
DATA MINING CLUSTERING FOOD EXPENDITURE IN INDONESIA
Indri Tri Julianto*1, Dede Kurniadi2, Muhammad Rikza Nashrulloh3, Asri Mulyani4
1,2,3,4
Jurusan Ilmu Komputer, Institut Teknologi Garut, Indonesia
Email: indritrijulianto@itg.ac.id, 2dede.kurniadi@itg.ac.id, 3rikza@itg.ac.id, 4asrimulyani@itg.ac.id
1
(Naskah masuk: 18 Mei 2022, Revisi: 8 Juni 2022, diterbitkan: 26 Desember 2022)
Abstract
The availability of food in a country is determined by a conducive climate. Prolonged droughts, floods, and
natural disasters, especially for food crop production areas, will have an impact on the availability of natural
disaster conditions faced by all countries including Indonesia is the Covid-19 pandemic, where this will affect
food security in Indonesia. Data mining is the process of discovering the hidden meaning of a very large data
set. The technique used in this study is Data Mining Clustering and the validity index used is Davies-Bouldin.
This study aims to determine the Food Security Strategy in Indonesia through the Data Mining Clustering
process based on food expenditure data and the Indonesian people's food expenditure per capita. The
methodology used is Cross Industry Standard for Data Mining using the K-Means and K-Medoids Algorithm.
The best cluster for the K-Means Algorithm is K=7 with a value of 0.341 and for the K-Medoids Algorithm, it is
K=7 with a value of 0.362. This research produces the best algorithm, namely K-Means with a value of 0.341,
which has a smaller value than K-Medoids with a value of 0.362. The results showed that the regional. cluster
with the highest average expenditure on food was cluster 5 covering the DKI Jakarta area, while the cluster with
the lowest expenditure was cluster 6 covering Central Java, East Nusa Tenggara, Southeast Sulawesi,
Gorontalo, and West Sulawesi. In cluster 6, it is necessary to implement a strategy to increase food security by
increasing production capacity and food reserves in each region.
Keywords: clustering, data mining, food, k-means, k-medoids.
DATA MINING KLASTERISASI PENGELUARAN PANGAN DI INDONESIA
Abstrak
Ketersediaan pangan di suatu negara ditentukan oleh iklim yang kondusif. Kekeringan yang berkepanjangan,
banjir, dan bencana alam khususnya untuk daerah produksi tanaman pangan akan berdampak pada jumlah
ketersediaan. Kondisi bencana alam yang dihadapi oleh semua negara termasuk Indonesia yaitu pandemi Covid19, dimana hal ini akan mempengaruhi ketahanan pangan di Indonesia. Data mining adalah proses menemukan
makna tersembunyi dari kumpulan data yang sangat besar. Teknik yang digunakan dalam penelitian ini adalah
Data Mining Klasterisasi dan indeks validitas yang digunakan adalah Davies-Bouldin. Penelitian ini bertujuan
untuk mengetahui Strategi Ketahanan Pangan di Indonesia melalui proses Data Mining Clustering berdasarkan
data pengeluaran pangan dan pengeluaran pangan per kapita masyarakat Indonesia. Metodologi yang digunakan
adalah Cross Industry Standard for Data Mining dengan menggunakan Algoritma K-Means dan K-Medoids.
Klaster terbaik untuk Algoritma K-Means adalah K=7 dengan nilai 0.341 dan untuk Algoritma K-Medoids
adalah K=7 dengan nilai 0.362. Penelitian ini menghasilkan algoritma terbaik yaitu K-Means dengan nilai 0.341
yang memiliki nilai lebih kecil dari K-Medoids dengan nilai 0.362. Hasil penelitian menunjukkan bahwa klaster
daerah dengan rata-rata pengeluaran pangan tertinggi adalah klaster 5 yang meliputi wilayah DKI Jakarta,
sedangkan klaster dengan pengeluaran terendah adalah klaster 6 yang meliputi Jawa Tengah, Nusa Tenggara
Timur, Sulawesi Tenggara, Gorontalo, dan Sulawesi Barat. Pada klaster 6 perlu diterapkan strategi peningkatan
ketahanan pangan dengan meningkatkan kapasitas produksi dan cadangan pangan di masing-masing wilayah.
Kata kunci: data mining, klasterisasi, k-means, k-medoids, pangan.
1.
khususnya bagi wilayah-wilayah produksi tanaman
pangan, akan berdampak terhadap ketersediaan
pangan [1]. Kondisi bencana alam yang dihadapi
seluruh negara termasuk Indonesia adalah pandemi
covid-19, dimana hal ini akan mempengaruhi
PENDAHULUAN
Ketersediaan pangan di suatu negara itu
ditentukan oleh iklim yang kondusif. Kemarau
berkepanjangan, banjir serta bencana alam,
1491
1492 Jurnal Teknik Informatika (JUTIF), Vol. 3, No. 6, Desember 2022, hlm. 1491-1500
terhadap ketahanan pangan di Indonesia. Persentase
yang lebih tinggi dari pengeluaran konsumsi pangan
masyarakat menunjukkan semakin rendah ketahanan
pangan suatu daerah dan sebaliknya semakin rendah
persentase pengeluaran konsumsi pangan maka
ketahanan pangan suatu daerah semakin tinggi dan
menunjukkan peningkatan kesejahteraan [2].
Penelitian
ini
bertujuan
untuk
mengelompokkan pengeluaran pangan masyarakat
menurut provinsi di Indonesia. Data masukan yang
digunakan adalah data sekunder yang diperoleh dari
Badan Pusat Statistik (BPS), dimana data tersebut
merupakan data pengeluaran per kapita perkotaan
dan perdesaan menurut provinsi dan kelompok
barang (rupiah). Pengolahan data ini memerlukan
pengolahan Data Mining, karena sumber data yang
tersedia cukup besar dan melalui teknik ini akan
ditemukan pengetahuan baru dari data yang
terkumpul. Luaran dari penelitian ini adalah
pengelompokan wilayah dengan ketahanan pangan
tinggi dan rendah. Kemudian hasil pengolahan Data
Mining ini akan dijadikan acuan untuk menentukan
strategi ketahanan penguatan pangan di daerah yang
termasuk kategori rendah. Data Mining merupakan
proses untuk menemukan keterkaitan baru, pola dan
juga tren dengan istilah menambang sejumlah
repository data dalam jumlah besar dengan
menggunakan bidang ilmu teknik matematika serta
statistika, kemudian data mining juga sering disebut
Knowledge Discovery in Database (KDD) atau
Pattern Recognition [3]–[5], dimana Data Mining ini
dapat digolongkan menjadi empat kelompok, yang
pertama adalah model prediksi (prediction
modelling), kedua adalah analisis klasterisasi
(Cluster analysis), analisis asosiasi (association
analysis) serta deteksi anomali (anomaly detection)
[6].
Data mining memiliki banyak algoritma yang
dapat digunakan, akan tetapi terdapat 10 algoritma
Data Mining yang menempati peringkat teratas,
yaitu C4.5, K-Means, Suppot Verctor Machines,
Apriori, EM, PageRank, Adaboost, k-Nearst
Neighbors, Naïve Bayes, Classification and
Regression Trees [7]. Data masukan yang digunakan
pada proses Data Mining disajikan dalam bentuk
gambar, seperti terlihat pada Gambar 1 dan Gambar
2.
Gambar 1. Data Pengeluaran Pangan Masyarakat
Indonesia
Gambar 2. Data Jenis Pengeluaran Pangan
Kedua data tersebut akan dijadikan masukkan
dalam proses Data Mining ketahanan pangan
Indonesia. Data tersebut bersumber dari Badan Pusat
Statistik Indonesia dari rentang tahun 2013-2019.
Rentang waktu tersebut dipilih karena datanya relatif
konsisten dibandingkan data-data sebelum 2013 dan
data semenjak pandemi covid-19.
Terdapat beberapa penelitian yang telah
membahas mengenai
Data Mining, dimana
penelitiannya menggunakan studi kasus Covid-19
serta algoritma yang digunakan merupakan
algoritma klasterisasi. Secara keseluruhan ada yang
menggunakan algoritma K-Medoid seperti penelitian
[2], [8], [9] , kemudian ada juga yang menggunakan
algoritma K-Means seperti penelitian [10], serta ada
yang menggunakan dua algoritma sekaligus yaitu
algoritma K-Means dan Hierarchical Clustering
seperti penelitian [11]. Berdasarkan peneitianpenelitian tersebut, diputuskan untuk menggunakan
algoritma klasterisasi K-Means dan K-Medoids
untuk mengetahui daerah pengeluaran pangan di
Indonesia.
2.
METODE PENELITIAN
Cross Industry Standard Process for Data
Mining (CRISP-DM) merupakan metodologi yang
digunakan dalam penelitian ini. Adapun tahapantahapannya disajikan dalam bentuk gambar
sebagaimana tampak pada Gambar 3.
Indri Tri Julianto, dkk, Data Mining Klasterisasi Pengeluaran Pangan …
1493
Gambar 3. Metodologi Penelitian Berdasarkan CRISP-DM
2. 1. Pengumpulan Data
Data yang digunakan merupakan hasil dari
Studi Pustaka yang dilakukan. Adapun hasil yang
didapatkan dari studi pustaka adalah dalam bentuk
jurnal, buku, artikel dari suatu situs web serta data
yang di rujuk dari Badan Pusat Statistik (BPS).
2. 2. Business Understanding
Pemahaman penelitian
mengacu pada
ketahanan pangan Indonesia selama menghadapi
masa pandemi covid-19. Pada tahap ini diperlukan
pemahaman tentang latar belakang, tujuan dan
substansi pada penelitian ini. Adapun turunan dari
tahapan ini adalah sebagi berikut:
2. 2. 1. Determine Business Objectives
Tujuan dari penelitian ini adalah melakukan
klasterisasi dari data yang dirilis oleh BPS, sehingga
nantinya akan menjadi rekomendasi bagi penerapan
strategi yang cocok bagi klaster-klaster wilayah
yang terbentuk;
2. 2. 2. Asses The Situation
Situasi selama masa pandemi ini sangat
mempengaruhi ketahanan pangan serta daya beli
masyarakat Indonesia, sehingga data yang
digunakan adalah dari rentang 2013-2019
dikarenakan data yang sudah relatif konsisten serta
dapat dijadikan acuan bagi strategi ketahanan
pangan kedepannya;
2. 2. 3. Determine The Data Mining Goals
Tujuan dilakukannya proses Data Mining ini
adalah untuk menggali pengetahuan baru dengan
teknik clustering guna menunjang strategi ketahanan
pangan di Indonesia.
2. 3. Data Understanding
Pemahaman data mengacu pada data BPS.
Dilakukan pemahaman mengenai format data secara
permukaan dan secara lebih mendalam mengenai
bentuk fisik data. Adapun tahapan yang dikerjakan
dalam Data Understanding ini adalah sebagai
berikut:
2. 3. 1. Collect The Initial Data
Data yang dihimpun merupakan data dari BPS
mengenai rata-rata per kapita pengeluaran
masyarakat untuk kebutuhan pangan per bulan
berdasarkan daerah dalam rentang waktu 2013-2019
beserta data jenis makanannya;
2. 3. 2. Describe The Data
Data yang telah diunduh dari situs web BPS
kemudian dibuka melalui Microsoft Excel, dimana
untuk data tabel 1 didalamnya terdapat kolom untuk
provinsi, kemudian kolom kebutuhan makanan
berdasarkan tahun, kolom kebutuhan non makanan
berdasarkan tahun dan kolom jumlah kebutuhan
pangan dan non pangan berdasarkan tahun. Untuk
tabel kedua terdapat kolom kelompok barang,
kemudian rentang biaya yang dikeluarkan
masyarakat dalam satuan rupiah dan kolom rata-rata
pengeluaran per kapita;
2. 3. 3. Explore The Data
Berdasarkan temuan pada tahap Describe The
Data, maka perlu dilakukan revisi atau eliminasi
terhadap struktur dari data tersebut. Revisi yang
dilakukan adalah pada kolom jumlah, seharusnya
tidak perlu disertakan akumulasi dari kolom non
makanan. Eliminasi dilakukan pada kolom
kebutuhan non makanan yang tidak akan
berpengaruh terhadap proses Data Mining yang akan
dilakukan;
2. 3. 4. Verify Data Quality
Tidak ada penomoran di kedua tabel tersebut,
misal untuk tabel pertama seharusnya ada kolom
untuk nomor sehngga memudahkan dalam
menemukan urutan dari suatu provinsi.
1494 Jurnal Teknik Informatika (JUTIF), Vol. 3, No. 6, Desember 2022, hlm. 1491-1500
2. 4. Data Preparation
Adapun ilustrasi mengenai tahapan ini
disajikan dalam bentuk gambar sebagaimana tampak
pada Gambar 4.
Gambar 4. Ilustrasi Data Preparation [12]
Tugas-tugas yang dilakukan pada data preparation
ini adalah sebagai berikut:
2. 4. 1. Select Data
Data yang telah diperoleh kemudian diseleksi,
dimana hanya kolom dan baris yang berpengaruh
terhadap proses Data Mining yang akan digunakan,
Adapun atribut-atribut yang ada dalam data
disajikan dalam bentuk tabel sebagaimana tampak
pada Tabel 1.
Tabel 1. Atribut Yang Digunakan
No
Atribut
Tipe
Atribut
1
2
3
4
Provinsi
Makanan
Non-Makanan
Tahun
Polyniminal
Polynominal
Polynominal
Integer
5
Jumlah
Integer
6
Golongan
pengeluaran per
kapita sebulan
(rupiah)
Rata-rata Per Kapita
Integer
7
Integer
Keterangan
Menampilkan nama daerah
Menampilkan jenis makanan
Menampilkan jenis non-makanan
Menampilkan
pengeluaran
berdasarkan tahun (2013-2019)
Menampilkan
akumulasi
perhitungan
Menampilkan pengeluaran mulai
kurang dari 10.000 s.d lebih dari
1.000.000
Menampilkan
pengeluaran per kapita
rata-rata
Tidak semua atribut yang terdapat pada Tabel
1. akan digunakan, hanya atribut-atribut yang
berpengaruh dalam proses Data Mining yang akan
digunakan. Adapun atribut-atribut yang digunakan
adalah sebagai berikut:
a. Provinsi;
b. Makanan;
c. Tahun;
d. Rata-rata per kapita.
dihilangkan untuk mendapatkan data yang relevan
[13].
Tabel 2. Pembersihan Data Kosong Pada Data Pengeluaran
Pangan
Provinsi
2013
2014
Nusa
Tenggara
316 656
366 885
Barat
Nusa
Tenggara
240 207
267 584
Timur
Kalimantan Barat
367 018
420 130
Kalimantan Tengah
418 274
495 159
Kalimantan Selatan
440 803
456 699
Kalimantan Timur
477 325
516 036
Kalimantan Utara
Sulawesi Utara
379 814
395 996
Sulawesi Tengah
320 823
360 961
Sulawesi Selatan
302 903
330 220
Sulawesi Tenggara
284 683
291 923
Gorontalo
276 334
338 353
Sulawesi Barat
278 355
280 751
.
Pada awalnya data pada Tabel 2. terdapat nilai
kosong yaitu pada Provinsi Kalimantan Utara.
Sehingga untuk mendapatkan nilai yang relevan
maka records Kalimantan Utara itu diambil nilai
rata-rata.
Tabel 3. Pembersihan Data Kosong Pada Data Jenis
Pangan
Nama Makanan
2013
Kurang dari 100.00
Padi-padian
29 722
Umbi-umbian
3 302
Ikan
5 300
Daging
Telur dan susu
263
Sayur-sayuran
6 430
Kacang-kacangan
1 303
Buah-buahan
1 931
Minyak dan lemak
2 505
Bahan minuman
1 527
Bumbu-bumbuan
1 466
Konsumsi lainnya
132
Makanan dan minuman jadi
2 839
Tembakau dan sirih
4 203
Pada Tabel 3. terdapat kekosongan pada bagian
Daging, sehingga untuk mendapatkan nilai yang
relevan, maka dilakukan pemberisihan pada records
Daging dengan cara mencari nilai rata-rata atau
Means.
Atribut-atribut tersebut dipilih berdasarkan
pertimbangan pada tujuan awal penelitian ini yaitu
klasterisasi ketahanan pangan Indonesia dimana kata
kunci utama dalam pemilihan atribut ini adalah
pangan atau makanan, sehingga golongan non
makanan tidak dimasukkan dalam proses Data
Mining ini.
2. 4. 3. Construct Data
Setelah tahap clean data dilakukan, maka tahap
ini menghasilkan struktur data baru untuk kedua
tabel tersebut. Adapun contoh struktur tabel tersebut
disajikan sebagaimana tampak pada Tabel 4 dan
Tabel 5.
2. 4. 2. Clean Data
Data akan dibersihkan dari data yang tidak
layak seperti halnya data kosong, seperti halnya
yang terdapat pada tabel rata-rata pengeluaran
makanan per kapita sebagaimana tampak pada Tabel
2. serta pada tabel jenis makanan sebagaimana
tampak pada Tabel 3. Data kosong tersebut akan
No
1
2
3
Tabel 4. Struktur Data Pengeluaran Untuk Makanan
Nama
2013
……….
2019
Provinsi
Aceh
371
……….
559 300
838
Sumatera
363
……….
576 323
Utara
363
Sumatera
419
……….
609 258
Barat
853
No
4
Nama
Provinsi
Riau
5
Jambi
…
34
……….
Papua
No
1
2
3
4
…
14
2013
468
503
377
133
……….
379 876
……….
Indri Tri Julianto, dkk, Data Mining Klasterisasi Pengeluaran Pangan …
2019
……….
621 748
……….
560 542
……….
……….
……….
665292
Tabel 5. Struktur Data Jenis Makanan
Jenis
Rata-Rata Pengeluaran Per Kapita
Makanan
2013
……….
2019
Padi-padian
62 449
……….
559 300
Umbi-umbian
3 886
……….
576 323
Ikan
26 150
……….
609 258
Telur
dan
14 168
……….
560 542
susu
……….
……….
……….
……….
Tembakau
41 323
……….
70 654
dan Sirih
2. 4. 4. Integrate Data
Tahapan ini menggabungkan kedua data pada
tabel menjadi satu tabel yang akan diproses. Adapun
hasil integrate data disajikan sebagaimana tampak
pada Tabel 6.
No
4
Nama
Provinsi
Aceh
Sumatera
Utara
Sumatera
Barat
Riau
5
Jambi
1
2
3
….
6
……….
Papua
Tabel 6. Hasil Integrate Data
Rata-Rata Pengeluaran Per Kapita
2013
……….
2019
371 838
363 363
……….
……….
559 300
576 323
419 853
……….
609 258
468
503
377
133
……….
379 876
621 748
560 542
……….
……….
……….
665292
2. 4. 5. Format Data
Format data dilakukan dengan menghasilkan
tabel berupa rata-rata keuangan yang dikeluarkan
masyarakat untuk makanan berdasarkan provinsi
dimana strukturnya berupa kolom provinsi dan
kolom rata-rata pengeluaran untuk makanan.
Adapun tabel tersebut disajikan sebagaimana tampak
pada Tabel 7.
No
1
2
3
4
5
……
34
Tabel 7. Hasil Format Data
Nama Provinsi
Rata-Rata Pengeluaran
Aceh
471 693
Sumatera Utara
471 784
Sumatera Barat
525 310
Riau
545 135
Jambi
477 357
…………………………..
……………………
Papua
544 694
2. 5. Modelling
Tahapan ini secara langsung melibatkan teknik
Data Mining. Pemilihan teknik Data Mining,
algoritma dan menentukan parameter dengan nilai
yang optimal [12]. Langkah-langkahnya pada
modelling sebagai berikut:
1495
2. 5. 1. Select Modelling Technique
Teknik Data Mining yang dipilih adalah
klasterisasi dimana algoritma yang digunakan adalah
K-Means dan K-Medoids;
2. 5. 2. Generate Test Design
Teknik clustering tidak memerlukan tahap
pembelajaran
kerena
clustering
bersifat
unsupervised
learning
dan
melakukan
pengelompokan secara alamiah berdasarkan
kemiripan atributnya, dimana berbeda dengan teknik
klasifikasi lainnya;
2. 5. 3. Build Model
Tahapan ini dilakukan dengan menggunakan
aplikasi Rapidminer dimana nantinya data akan
klaster dengan menggunakan 2 algoritma yakni KMeans dan K-Medoids;
2. 5. 4. Assess Model
Penilaian terhadap pusat klaster paling optimal
dilakukan menggunakan 2 algoritma K-Means dan
K-Medoids, dimana pusat klaster terbaiklah yang
akan digunakan.
2. 6. Evaluation
Tahapan ini adalah fase interpretasi terhadap
hasil Data Mining. Evaluasi dilakukan secara
mendalam dengan tujuan agar hasil pada tahap
modelling sesuai dengan sasaran yang ingin dicapai
dalam tahap business understanding [12]. Adapun
kegiatan yang dilakukan dalam tahapan ini adalah
sebagaimana berikut:
2. 6. 1. Evaluate Results
Tahapan ini menilai sejauh mana hasil
pemodelan Data Mining memenuhi tujuan data
mining yang ditentukan pada tahap business
understanding;
2. 6. 2. Review Process
Tahapan ini melakukan pemeriksaan kembali
tahapan dari awal untuk memastikan bahwa tidak
ada faktor penting dalam proses tersebut yang
terabaikan atau terlewati;
2. 6. 3. Determine Next Steps
Tahapan ini menentukan langkah apa yang
diambil. Ada 2 pilihan: Kembali ke tahap awal
(business understanding) atau melanjutkan ke tahap
akhir (deployment).
2. 7. Deployment
Tahapan membuat laporan hasil kegiatan data
mining. Laporan akhir mengenai pengatahuan yang
didapat atau pengenalan pola pada data dalam proses
data mining akan dijadikan acuan dalam
pengambilan keputusan untuk meningkatkan
ketahanan pangan di Indonesia.
1496 Jurnal Teknik Informatika (JUTIF), Vol. 3, No. 6, Desember 2022, hlm. 1491-1500
3.
HASIL DAN PEMBAHASAN
3. 1. Pengumpulan Data
Penelitian ini
mengambil data yang
dikeluarkan oleh Badan Pusat Statistik yang dirilis
pada tahun 2020 mengenai ketahanan pangan di
masing-masing wilayah di Indonesia. Data ini terdiri
dari dua tabel yaitu tabel pertama mengenai jumlah
rata-rata biaya yang dikeluarkan masyarakat untuk
kebutuhan makanan dan tabel kedua adalah
mengenai jenis dari makananya. Data ini dihimpun
dari rentang waktu 2013 sampai dengan 2019.
Adapun hasil dari tahapan pengumpulan data
disajikan dalam bentuk tabel sebagaimana tampak
pada Tabel 8.
Tabel 8. Hasil Tahapan Pengumpulan Data
Nama
Hasil tahapan
Keterangan
Tahapan
Data Ketahanan Data tersebut terdiri dari
Pangan
dua table yaitu:
Indonesia
1.
Tabel pertama
bersumber dari
Jumlah Fields = 22
Pengumpulan BPS dan
Jumlah
Records
Data
ditunjang
=770;
dengan jurnal2.
Tabel kedua
jurnal ilmiah
Jumlah Fields = 64
mengenai
Jumlah Records =
Pertanian, Data
1.600
Mining serta
Covid-19
3. 2. Business Understanding
Hasil dari tahapan ini adalah menggambarkan
tujuan dari penelitian ini, dimana tujuannya adalah
melakukan klasteriasi mengenai ketahanan pangan
di Indonesia selama masa pandemi covid-19. Data
yang digunakan merupakan data dari BPS, nantinya
dat tersebut akan di klaster menurut wilayah serta
akhirnya akan bermuara pada penentuan strategi
yang akan digunakan dalam rangka perkuatan
ketahanan pangan Indonesia. Detail mengenai
pembahasan dan turunan dari tahapan Business
Understanding telah dibahas pada sub.bab
sebelumnya.
3. 3. Data Understanding
Hasil dari tahapan ini adalah pemahaman
mengenai data yang telah diperoleh. Adapun hasil
tersebut disajikan dalam bentuk tabel sebagaimana
tampak pada Tabel 9.
No
1
2
3
4
5
6
7
Tabel 9. Hasil Tahapan Data Understanding
Nama Atribut
Tipe Atribut
Provinsi
Polynominal
Kebutuhan Makanan Berdasarkan
Polynominal
Tahun
Kebutuhan
Non
Makanan
Polynominal
Berdasarkan Tahun
Jumlah kebutuhan pangan dan non
Polynominal
pangan berdasarkan tahun
Kelompok barang
Polynominal
Rentang biaya yang dikeluarkan
Polynominal
masyarakat dalam satuan rupiah
Rata-rata pengeluaran per kapita
Polynominal
3. 4. Data Preparation
Data hasil dari tahapan Data Preparation
merupakan data akhir yang akan digunakan dalam
proses Data Mining. Adapun hasil tahapan ini
disajikan dalam bentuk tabel sebagaimana tampak
pada Tabel 10.
No
1
2
3
4
5
……
34
Tabel 10. Hasil Tahapan Data Preparation
Nama Provinsi
Rata-Rata
Pengeluaran
Aceh
471 693
Sumatera Utara
471 784
Sumatera Barat
525 310
Riau
545 135
Jambi
477 357
…………………………..
……………………
Papua
544 694
3. 5. Modelling
Tahapan ini langsung melibatkan aplikasi
Rapidminer untuk membantu dalam proses Data
Mining [14]. Tahap Modelling terdiri dari empat
tahapan dimana dua tahapan telah dibahasa
sebelumnya yaitu poin satu dan juga dua. Dua poin
lainnya yang akan dibahas adalah tahap build model
dan assess model.
2. 5. 1. Build Model
Model yang dikonstruksi dalam aplikasi
Rapidminer adalah pengolahan data ketahanan
pangan yang diklasterisasi menggunakan dua
algoritma Data Mining yaitu K-Means dan KMedoids. Adapun modelnya disajikan dalam bentuk
gambar, sebagaimana tampak pada Gambar 5.
Gambar 5. Model Data Mining Ketahanan Pangan
Proses konstruksi model pada Rapidminer,
pada awal mulanya adalah data yang digunakan itu
berekstensi .xlsx (file excel) kemudian masuk
melalui operator Nominal to Numerical dimana
fungsinya adalah merubah tipe data yang bukan
numerik menjadi numerik. Selanjutnya adalah
masuk ke operator Multiply yang berfungsi untuk
memproses lebih dari 1 algoritma, dimana yang
digunakan adalah K-Means dan K- Medoids.
Kemudian adapaun parameter yang digunakan untuk
algoritma K-Means disajikan pada Tabel 11
Indri Tri Julianto, dkk, Data Mining Klasterisasi Pengeluaran Pangan …
sedangkan untuk algoritma K-Medoids disajikan
pada Tabel 12.
Tabel 11. Parameter Algoritma K-Means
Parameter
Nilai
K
2 sampai dengan 10
Max runs
10 (default)
Measure type
Numerical measurement
Numerical measure
EuclideanDistance
Max optimization step
100 (default)
Tabel 12. Parameter Algoritma K-Medoids
Parameter
Nilai
K
2 sampai dengan 10
Max runs
10 (default)
Max Optimization Step
100
Measure type
Numerical Measurement
Numerical measure
EuclideanDistance
Max optimization step
100 (default)
1497
Tabel 13. Hasil Perhitungan Indeks Validitas Davies-Bouldin
No
1
2
3
4
5
6
7
8
9
Klaster
K=2
K=3
K=4
K=5
K=6
K=7
K=8
K=9
K=10
K-Means
0,583
0,528
0,460
0,409
0,384
0,341
0,361
0,420
0,459
K-Medoids
0,745
0,481
0,421
0,518
0,481
0,362
0,657
0,539
0,409
Hasil perhitungan yang tertera pada Tabel 13
ditranslasikan ke dalam bentuk grafik, sebagaimana
tampak pada Gambar 7.
2. 5. 2. Assess Model
Pemodelan dilakukan dari K=2 sampai dengan
K=10 agar dapat menilai pemodelan yang
menghasilkan pusat klaster akhir yang paling
optimal. Setelah itu maka tahapan selanjutnya adalah
mencari K yang paling optimal dengan cara
menggunakan indeks validitas Davies-Bouldin.
3. 6. Evaluation
Tahapan ini akan dilakukan evaluasi terhadap
model yang telah dibuat pada sub.bab sebelumnya,
dengan tujuan untuk mencari nilai K yang optimal,
lalu setelah ditemukan, akan dilakukan analisis yang
mencakup ciri-ciri dari setiap klaster yang telah
terbentuk.
3. 6. 1. Evaluate Results
Indeks Davies-Bouldin digunakan sebagai
indeks validitas untuk mengetahui nilai K yang
terbaik dari hasil pecobaan K=2 sampai dengan
K=10. Adapun penggunaan indeks Davies-Bouldin
ini disajikan dalam bentuk gambar, sebagaimana
tampak pada Gambar 6.
Gambar 7. Grafik Hasil Indeks Davies-Bouldin
Jumlah klaster terbaik dari indeks validitas
Davies-Bouldin ditunjukkan dengan nilai indeks
yang semakin kecil [15]. Berdasarkan Gambar 4.3,
maka klaster terbaik untuk Algoritma K-Means
adalah K=7 dengan nilai 0,341 dan untuk Algoritma
K-Medoids adalah K=7 dengan nilai 0,362. Pada
penelitian ini menghasilkan Algoritma terbaik yaitu
K-Means dengan nilai 0,341, dimana memiliki nilai
yang lebih kecil daripada K-Medoids dengan nilai
0,362. Maka model klaster untuk k=7 Algoritma KMeans disajikan dalam bentuk gambar sebagaimana
tampak pada Gambar 8.
Gambar 6. Indeks Validitas Davies-Bouldin
Gambar 8. Model Klaster K=7 K-Means
Berdasarkan Gambar 6, maka hasil
perhitungan indeks validitas Davies-Bouldin
disajikan dalam bentuk tabel, sebagaimana tampak
pada Tabel 13.
Setelah diketahui bahwa nilai K optimal adalah
7, maka langkah selanjutnya adalah menganalisis
ciri-ciri dari setiap klaster yang terbentuk. Adapun
1498 Jurnal Teknik Informatika (JUTIF), Vol. 3, No. 6, Desember 2022, hlm. 1491-1500
hasil analisis tersebut disajikan dalam bentuk tabel,
sebagaimana tampak pada Tabel 14.
Tabel 14. Hasil Analisis Ciri-Ciri Tiap Klaster
Rata-Rata Pengeluaran
Klaster
Nama Provinsi
Klaster 0
Aceh
Sumatera Utara
Jambi
Bengkulu
Jawa Barat
PerKapita
Rp. 476.472
Kalimantan
Barat
Sulawesi Utara
Klaster 1
Sumatera Barat
Riau
Banten
Bali
Kalimantan
Tengah
Kalimantan
Selatan
Papua Barat
Rata-Rata Pengeluaran Per
Kapita
Rp. 540.129
Papua
Klaster 2
Sumatera
Selatan
Lampung
DI Yogyakarta
Jawa Timur
Nusa Tenggara
Barat
Sulawesi
Tengah
Sulawesi
Selatan
Maluku
Rata-Rata Pengeluaran Per
Kapita
Rp. 425.678
Maluku Utara
Klaster 3
Klaster 4
Klaster 5
Klaster 6
Kalimantan
Timur
Kepulauan
Bangka
Belitung
Kepulauan Riau
DKI Jakarta
Jawa Tengah
Nusa Tenggara
Timur
Sulawesi
Tenggara
Gorontalo
Sulawesi Barat
Rata-Rata Pengeluaran Per
Kapita
Rp. 605.595
Rata-Rata Pengeluaran Per
Kapita
Rp. 648.914
Rata-Rata Pengeluaran Per
Kapita
Rp. 727.510
Rata-Rata Pengeluaran Per
Kapita
Rp. 366.455
Berdasarkan Tabel 14. maka diketahui
pengeluaran rata-rata masyarakat per kapita untuk
pangan tiap klaster dari yang tertinggi hingga yang
terendah nilainnya. Adapun ranking tiap klaster
disajikan dalam bentuk tabel sebagaimana tampak
pada Tabel 15.
Tabel 15. Ranking Klaster Berdasarkan Pengeluaran ( TertinggiTerendah )
No
Nama Klaster
1
2
3
4
5
6
7
Klaster 5
Klaster 4
Klaster 3
Klaster 1
Klaster 0
Klaster 2
Klaster 6
Rata-Rata
Pengeluaran
Rp. 727.510
Rp. 648.914
Rp. 605.595
Rp. 540.129
Rp. 476.472
Rp. 425.678
Rp. 366.455
Berdasarkan Tabel 15. dapat diketahui bahwa
klaster daerah dengan rata-rata pengeluaran untuk
makanan tertinggi adalah klaster 5 yang meliputi
daerah DKI Jakarta, sedangkan klaster dengan
pengeluaran terendah yaitu klaster 6 yang meliputi
Jawa Tengah, Nusa Tenggara Timur, Sulawesi
Tenggara, Gorontalo dan Sulawesi Barat. Pada
klaster 6 perlu dilakukan strategi peningkatan
ketahanan pangan melalui peningkatan kapasitas
produksi serta peningkatan cadangan pangan di
setiap daerah.
3. 6. 2. Review Process
Semua proses sudah dilakukan sesuai dengan
metodologi yang digunakan yaitu CRISP-DM,
sehingga dapat melanjutkan ke tahapan berikutnya.
3. 6. 3. Determine Next Step
Tahap ini akan menentukan apakah akan
dilanjutkan ke tahap selanjutnya atau ada beberapa
hal yang harus dikerjakan ulang. Semua proses telah
dilakukan dan menghasilkan data dan pengetahuan
baru terkait klasterisasi ketahanan pangan Indonesia
di masa pandemi Covid-19, sehingga diputuskan
penelitian ini dapat dilanjutkan ke tahap selanjutnya
yaitu Deployment.
3. 6. 4. Deployment
Tahapan ini adalah pembuatan laporan atau
dapat juga diartikan sebagai penerapan dari hasil
Data Mining. Hasil yang diperoleh adalah
“pengelompokan
Data
Pengeluaran
Pangan
menunjukkan bahwa klaster 6 merupakan klaster
dengan tingkat pengeluaran pangan terendah dimana
wilayahnya meliputi Jawa Tengah, NTT, Sulawesi
Tenggara, Gorontalo, dan Sulawesi Barat.
Strateginya adalah meningkatkan kapasitas produksi
dan menambah cadangan pangan di masing-masing
daerah”.
4.
KESIMPULAN
Indri Tri Julianto, dkk, Data Mining Klasterisasi Pengeluaran Pangan …
Berdasarkan hasil penelitian yang telah dilakukan,
maka dapat disimpulkan:
1. Penentuan nilai K optimum untuk algoritma KMeans dan K-Medoids dilakukan dengan
menggunakan Indeks Validitas Davies-Bouldin,
dimana algoritma K-Means merupakan algoritma
yang lebih baik dari algoritma K-Medoids,
dengan hasil optimal untuk K-Means = 0,341,
sedangkan untuk K-Medoids = 0,362;
2. Pengelompokan Pengeluaran Pangan Data
menunjukkan bahwa klaster 6 merupakan klaster
dengan tingkat pengeluaran pangan terendah
dimana wilayahnya meliputi Jawa Tengah, NTT,
Sulawesi Tenggara, Gorontalo, dan Sulawesi
Barat.
Strateginya
adalah
meningkatkan
kapasitas produksi dan menambah cadangan
pangan di masing-masing daerah.
[9]
[10]
[11]
[12]
[13]
DAFTAR PUSTAKA
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
R. Chaireni, D. Agustanto, R. Amriza
Wahyu, and P. Nainggolan, “Ketahanan
Pangan Berkelanjutan,” J. Kependud. dan
Pembang. Lingkung., vol. 1, no. 2, pp. 70–79,
2020,
[Online].
Available:
http://jkpl.ppj.unp.ac.id/index.php/JKPL/artic
le/view/13.
Z. R. S. Elsi et al., “Utilization of Data
Mining Techniques in National Food Security
during the Covid-19 Pandemic in Indonesia,”
J. Phys. Conf. Ser., pp. 1–7, 2020, doi:
10.1088/1742-6596/1594/1/012007.
Han and Kamber, Data Mining Concepts and
Technique. San Francisco: Diane Cerra,
2006.
C. C. Aggarwal, Data Mining : The Textbook.
New York: Springer, 2015.
N. Ye, Data Mining: Theories, Algorithms,
and Examples. New York: Taylor & Francis
Group, 2014.
K. Fatmawati and A. P. Windarto, “Data
Mining : Penerapan Rapidminer Dengan KMeans Cluster Pada Daerah Terjangkit
Demam Berdarah Dengue ( DBD )
Berdasarkan Provinsi,” CESS (Journal
Comput. Eng. Syst. Sci., vol. 3, no. 2, pp.
173–178, 2018.
X. Wu et al., Top 10 algorithms in data
mining, vol. 14, no. 1. Minnesota: Taylor &
Francis Group, LLC, 2009.
A. Alqurneh, A. Mustapha, and N. M. Sharef,
“A
Partitioning-based
Approach
for
Clustering COVID-19 Drugs and CoMedication for Safe Use,” Int. J. Integr. Eng.,
vol. 5, pp. 224–232, 2020.
[14]
[15]
1499
S. Sindi, W. R. O. Ningse, I. A. Sihombing,
P. P. P. A. N. . F. I. R.H.Zer, and D. Hartama,
“Analisis algoritma k-medoids clustering
dalam pengelompokan penyebaran covid-19
di indonesia,” J. Teknol. Inf., vol. 4, no. 1, pp.
166–173, 2020.
W. Yustanti, N. Rahmawati, and Y.
Yamasari,
“Klastering
Wilayah
Kota/Kabupaten
Berdasarkan
Data
Persebaran Covid-19 di Propinsi Jawa Timur
dengan Metode K-Means,” J. Inf. Eng. Educ.
Technol., vol. 04, no. 01, pp. 1–9, 2020.
A. Doroshenko, “Analysis of the Distribution
of COVID-19 in Italy Using Clustering
Algorithms,” IEEE Third Int. Conf. Data
Stream Min. Process., pp. 325–328, 2020.
I. Budiman, “Data Clustering Menggunakan
Metodologi CRISP-DM Untuk Pengenalan
Pola Proporsi Pelaksanaan TRIDHARMA,”
Iniversitas Diponegoro Semarang, 2012.
F. N. Dhewayani, D. Amelia, D. N. ALifah,
B. N. Sari, and M. Jajuli, “Implementasi KMeans Clustering untuk Pengelompokkan
Daerah
Rawan
Bencana
Kebakaran
Menggunakan Model,” J. Teknol. dan Inf.,
vol. 12, no. 1, pp. 64–77, 2022, doi:
10.34010/jati.v12i1.
I. T. Julianto, D. Kurniadi, M. R. Nashrulloh,
and A. Mulyani, “Comparison Of Data
Mining Algorithm For Forecasting Bitcoin
Crypto Currency Trends,” JUTIF, vol. 3, no.
2, pp. 245–248, 2022.
A. F. Khairati, A. A. Adlina, G. F. Hertono,
and B. D. Handari, “Kajian Indeks Validitas
pada Algoritma K-Means Enhanced dan KMeans MMCA,” Pros. Semin. Nas. Mat., vol.
2, pp. 161–170, 2019.
1500 Jurnal Teknik Informatika (JUTIF), Vol. 3, No. 6, Desember 2022, hlm. 1491-1500