Perbandingan Kinerja Metode Binary Relevance, Classifier Chains, dan Label Powerset dalam Klasifikasi Multi-Label Data Pengaduan
DOI:
https://doi.org/10.52436/1.jpti.796Kata Kunci:
aplikasi wargaku, binary relevance, classifier chains, F1 score, klasifikasi multi-label, label powerset, pengaduan masyarakatAbstrak
Di era digital, aplikasi pengaduan masyarakat menjadi sarana penting dalam meningkatkan komunikasi antara warga dan pemerintah. Aplikasi Wargaku memungkinkan masyarakat menyampaikan keluhan terkait layanan publik, yang menghasilkan data pengaduan bersifat multi-label. Oleh karena itu, diperlukan metode klasifikasi yang optimal untuk meningkatkan akurasi dalam pengelolaan pengaduan. Penelitian ini bertujuan untuk membandingkan tiga metode klasifikasi multi-label, yaitu Binary Relevance (BR), Classifier Chains (CC), dan Label Powerset (LP) dengan Random Forest sebagai base classifier. Metode penelitian mengacu pada kerangka CRISP-DM, yang mencakup pemahaman bisnis, pengolahan data, pemodelan, dan evaluasi. Eksperimen dilakukan dengan skenario pembagian data 80:20, 70:30, dan 60:40, serta preprocessing yang mencakup pembersihan teks dan normalisasi. Evaluasi model menggunakan F1 Score untuk mengukur kinerja klasifikasi. Hasil penelitian menunjukkan bahwa Binary Relevance memiliki performa paling stabil di berbagai skenario. Pada skenario 70:30, metode ini mencapai skor F1 tertinggi sebesar 0,76, diikuti oleh Classifier Chains (0,75) dan Label Powerset (0,74). Pada skenario 80:20, Label Powerset unggul dengan skor 0,75, sedangkan Binary Relevance dan Classifier Chains memperoleh 0,75 dan 0,73. Sementara itu, pada skenario 60:40, Binary Relevance kembali unggul dengan skor 0,74, diikuti Label Powerset (0,74) dan Classifier Chains (0,73). Penelitian ini menunjukkan bahwa tidak ada perbedaan signifikan dalam performa metode, namun Binary Relevance dengan Random Forest cenderung lebih stabil di berbagai skenario. Hasil ini dapat digunakan untuk meningkatkan efektivitas klasifikasi pengaduan masyarakat, sehingga mendukung layanan publik yang lebih responsif dan efisien.
Unduhan
Referensi
J. Read, B. Pfahringer, G. Holmes, dan E. Frank, “Classifier Chains: A Review and Perspectives,” arXiv preprint arXiv:1912.13405, 2019.
M. Arslan dan C. Cruz, “Imbalanced Multi-label Classification for Business-related Text with Moderately Large Label Spaces,” arXiv preprint arXiv:2306.07046, 2023.
F J. Wainer, “Comparison of 14 different families of classification algorithms on 115 binary datasets,” arXiv preprint arXiv:1606.00930, 2016.
N. B. Putri dan A. W. Wijayanto, “Analisis Komparasi Algoritma Klasifikasi Data Mining Dalam Klasifikasi Website Phishing,” Komputika: Jurnal Sistem Komputer, vol. 11, no. 1, pp. 59–66, 2022.
J. Read, B. Pfahringer, G. Holmes, dan E. Frank, “Classifier Chains for Multi-label Classification,” Machine Learning, vol. 85, no. 3, pp. 333–359, 2011.
R. Alifarahman, “Klasifikasi Multi-label Dokumen Pertanyaan Medis dengan Pendekatan Berbagai Macam Teknik Machine Learning,” Medium, 2020. [Online]. Available: https://riswandaali.medium.com/klasifikasi-multi-label-dengan-pendekatan-berbagai-macam-teknik-machine-learning-55d3bf8dee60.
I. Akbar, M. Faisal, and T. Chamidy, “Kinetik: Game Technology, Information System,” Computer Network, Computing, Electronics, and Control Journal, vol. 4, no. 3, pp. 119–128, 2019, [Online]. Available: https://kinetik.umm.ac.id/index.php/kinetik/article/view/1901
J. Zhang, K. Liu, X. Yang, H. Ju, and S. Xu, “Multi-label learning with Relief-based label-specific feature selection,” Applied Intelligence, vol. 53, no. 15, pp. 18517–18530, 2023, doi: 10.1007/s10489-022-04350-1.
A. Hanafi, A. Adiwijaya, and W. Astuti, “Klasifikasi Multi Label pada Hadis Bukhari Terjemahan Bahasa Indonesia Menggunakan Mutual Information dan k-Nearest Neighbor,” Jurnal Sisfokom (Sistem Informasi dan Komputer), vol. 9, no. 3, pp. 357–364, Sep. 2020, doi: 10.32736/sisfokom.v9i3.980.
Manueke, “Implementation of Multi-Label Classification to Determine Scientific Articles Keyword in Journals,” 2022. [Online]. Available: https://ejournal.unsrat.ac.id/index.php/informatika
S. Zhang, X. Li, M. Zong, X. Zhu, and R. Wang, “Efficient kNN classification with different numbers of nearest neighbors,” IEEE Transactions on Neural Networks and Learning Systems, vol. 29, no. 5, pp. 1774–1785, 2018.
G. Tsoumakas and I. Katakis, “Multi-label classification: An overview,” International Journal of Data Warehousing and Mining, vol. 3, no. 3, pp. 1–13, 2007.
M. L. Zhang and Z. H. Zhou, “A review on multi-label learning algorithms,” IEEE Transactions on Knowledge and Data Engineering, vol. 26, no. 8, pp. 1819–1837, 2014.
J. Fürnkranz, E. Hüllermeier, E. Loza Mencía, and K. Brinker, “Multilabel classification via calibrated label ranking,” Machine Learning, vol. 73, no. 2, pp. 133–153, 2008.
E. Spyromitros-Xioufis, G. Tsoumakas, W. Groves, and I. Vlahavas, “Multi-target regression via input space expansion: treating targets as inputs,” Machine Learning, vol. 104, no. 1, pp. 55–98, 2016.
Y. Zhang and J. G. Schneider, “Multi-label output codes using canonical correlation analysis,” in Proceedings of the 14th International Conference on Artificial Intelligence and Statistics, 2011, pp. 873–881.
A. Clare and R. D. King, “Knowledge discovery in multi-label phenotype data,” in European Conference on Principles of Data Mining and Knowledge Discovery, 2001, pp. 42–53.
R. E. Schapire and Y. Singer, “BoosTexter: A boosting-based system for text categorization,” Machine Learning, vol. 39, no. 2-3, pp. 135–168, 2000.
J. Read, B. Pfahringer, and G. Holmes, “Multi-label classification using ensembles of pruned sets,” in 2008 Eighth IEEE International Conference on Data Mining, 2008, pp. 995–1000.
M. R. Boutell, J. Luo, X. Shen, and C. M. Brown, “Learning multi-label scene classification,” Pattern Recognition, vol. 37, no. 9, pp. 1757–1771, 2004.