Optimasi Logistic Regression dan Random Forest untuk Deteksi Berita Hoax Berbasis TF-IDF
DOI:
https://doi.org/10.52436/1.jpti.602Kata Kunci:
deteksi hoax, hyperparameter tuning, logistic regression, nlp, random forest, tf-idfAbstrak
Penyebaran berita hoax di era digital menjadi tantangan serius yang memerlukan solusi berbasis teknologi untuk mengidentifikasi dan meminimalkan dampaknya. Penelitian ini bertujuan untuk mengevaluasi performa Logistic Regression (LR) dan Random Forest (RF) dalam mendeteksi berita hoax menggunakan representasi teks berbasis Term Frequency-Inverse Document Frequency (TF-IDF). Hyperparameter tuning diterapkan pada kedua algoritma untuk meningkatkan akurasi, precision, recall, dan F1-score. Dataset yang digunakan terdiri dari berita hoax dan valid dalam bahasa Indonesia, yang telah melalui tahapan preprocessing, termasuk pembersihan teks, penghapusan stopwords, dan stemming. Hasil evaluasi menunjukkan bahwa Logistic Regression, setelah tuning, mencapai akurasi sebesar 95.20%, precision 95.71%, recall 94.48%, dan F1-score 95.09%. Random Forest menunjukkan akurasi sebesar 92.39%, precision 94.39%, recall 89.87%, dan F1-score 92.08%. Logistic Regression unggul dalam keseimbangan antara precision dan recall, sementara Random Forest menunjukkan kekuatan pada precision dengan kemampuan menangani pola data yang lebih kompleks. Teknik TF-IDF terbukti efektif dalam memberikan bobot pada kata-kata yang relevan, membantu algoritma klasifikasi dalam mengenali pola dalam data teks. Penelitian ini juga memiliki dampak praktis dalam memberikan fondasi bagi pengembangan sistem deteksi hoax yang dapat digunakan di aplikasi berbasis NLP, baik untuk kebutuhan akademis maupun implementasi di industri. Penelitian ini berkontribusi pada pengembangan sistem deteksi hoax berbasis Natural Language Processing (NLP), khususnya untuk bahasa Indonesia. Untuk pengembangan lebih lanjut, disarankan memperluas dataset dengan sumber berita yang lebih beragam dan mengeksplorasi algoritma berbasis deep learning seperti LSTM atau Transformer. Secara ilmiah, penelitian ini memberikan kontribusi penting dengan menguji efektivitas hyperparameter tuning dalam meningkatkan akurasi model deteksi hoax. Hasil penelitian ini diharapkan dapat menjadi acuan dalam membangun sistem deteksi hoax yang lebih akurat dan andal.
Unduhan
Referensi
C. B. Devina, D. C. Iswari, G. C. B. Goni, dan D. K. Lirungan, “Tinjauan Hukum Kriminalisasi Berita Hoax: Menjaga Persatuan vs. Kebebasan Berpendapat,” Kosmik Huk., vol. 21, no. 1, hlm. 44, Feb 2021, doi: 10.30595/kosmikhukum.v21i1.8874.
J. E. Latupeirissa, J. D. Pasalbessy, E. Z. Leasa, dan C. Tuhumury, “Penyebaran Berita Bohong (HOAX) Pada Masa Pandemi Covid-19 dan Upaya Penanggulangannya di Provinsi Maluku,” J. BELO, vol. 6, no. 2, hlm. 179–194, Feb 2021, doi: 10.30598/belovol6issue2page179-194.
L. M. W. Pangestika dkk., “Identifikasi Potensi Desa dan Kebutuhan Pengajaran Anti Hoax (Studi Kasus Desa Pucanganom, DIY),” J. Atma Inovasia, vol. 1, no. 1, Art. no. 1, Jan 2021, doi: 10.24002/jai.v1i1.3915.
F. Farhan, R. Aziz, dan I. Nurdin, “Penggunaan media sosial selama pandemi COVID-19 dan dampaknya terhadap penyebaran hoax,” J. Media Sos. Dan Inf., vol. 7, no. 3, hlm. 95–110, 2022.
E. Susanti dan L. Nurmiati, “Pengaruh literasi digital terhadap kemampuan masyarakat dalam menyaring informasi hoax,” J. Teknol. Inf. Dan Komun., vol. 5, no. 1, hlm. 88–97, 2022.
H. Putra dan M. Patra, “Pengaruh hoax terhadap persepsi politik selama pemilu di Indonesia,” J. Polit. Dan Demokr., vol. 12, no. 3, hlm. 187–202, 2023.
D. Dharmansyah, H. Arifin, dan A. Suryadi, “Dampak psikologis dari informasi hoax mengenai vaksinasi COVID-19,” J. Psikol. Kesehat., vol. 10, no. 1, hlm. 123–140, 2023.
Naseer, “Sistem prediksi berita palsu tentang virus COVID-19 menggunakan algoritma support vector machine (SVM),” Naratif J. Nas. Ris. Apl. Dan Tek. Inform., 2023, doi: 10.53580/naratif.v5i1.187.
P. Pratiwi, “Penggunaan model klasifikasi bahasa Indonesia untuk deteksi hoax,” J. Pemrosesan Bhs. Alami, vol. 5, no. 4, hlm. 123–138, 2022.
Roshinta, “Sistem deteksi berita hoax berbahasa Indonesia bidang kesehatan,” Remik Ris. Dan E-J. Manaj. Inform. Komput., 2023, doi: 10.33395/remik.v7i2.12369.
R. Rifai, “Model hibrida untuk deteksi berita hoax dengan akurasi tinggi,” J. Sist. Inf., vol. 10, no. 3, hlm. 90–105, 2023.
I. M. K. Karo, “Hoax Detection on Indonesian Tweets Using Naïve Bayes Classifier With TF-IDF,” J. Inf. Syst. Res. Josh, vol. 4, no. 3, hlm. 914–919, 2023, doi: 10.47065/josh.v4i3.3317.
L. Holla, “An Improved Fake News Detection Model Using Hybrid Time Frequency-Inverse Document Frequency for Feature Extraction and AdaBoost Ensemble Model as a Classifier,” J. Adv. Inf. Technol., vol. 15, no. 2, hlm. 202–211, 2024, doi: 10.12720/jait.15.2.202-211.
D. P. Putra dan E. B. Setiawan, “Hoax Detection Using Long Short-Term Memory (LSTM) and Gate Recurrent Unit (GRU) on Social Media,” Build. Inform. Technol. Sci. Bits, vol. 4, no. 4, 2023, doi: 10.47065/bits.v4i4.3084.
H. B. Aji, “Detecting Hoax Content on Social Media Using Bi-LSTM and RNN,” Build. Inform. Technol. Sci. Bits, vol. 5, no. 1, 2023, doi: 10.47065/bits.v5i1.3585.
F. R. Tama, “Fake News (Hoaxes) Detection on Twitter Social Media Content Through Convolutional Neural Network (CNN) Method,” Jinav J. Inf. Vis., vol. 4, no. 1, hlm. 70–78, 2023, doi: 10.35877/454ri.jinav1525.
G. B. Firmanesha, “Detecting Hoax News Regarding the Covid-19 Vaccine Using Levenshtein Distance,” J. Bumigora Inf. Technol. Bite, vol. 4, no. 2, hlm. 133–142, 2022, doi: 10.30812/bite.v4i2.2023.
A. Y. Prayoga, A. I. Hadiana, dan F. R. Umbara, “Deteksi Hoax Pada Berita Online Bahasa Inggris Menggunakan Bernoulli Naïve Bayes Dengan Ekstraksi Fitur Tf-Idf,” J. Syntax Admiration, vol. 2, no. 10, hlm. 1808–1823, 2021, doi: 10.46799/jsa.v2i10.327.
I. Maulita dan A. Wahid, “Prediksi Magnitudo Gempa Menggunakan Random Forest, Support Vector Regression, XGBoost, LightGBM, dan Multi-Layer Perceptron Berdasarkan Data Kedalaman dan Geolokasi (Predicting Earthquake Magnitude Using Random Forest, Support Vector Regression, XGBoost, LightGBM, and Multi-Layer Perceptron Based on Depth and Geolocation Data),” J. Pendidik. Dan Teknol. Indones., vol. 4, hlm. 221–232, Mei 2024, doi: 10.52436/1.jpti.470.
A. M. Wahid, L. Afuan, dan F. S. Utomo, “ENHANCING COLLABORATION DATA MANAGEMENT THROUGH DATA WAREHOUSE DESIGN: MEETING BAN-PT ACCREDITATION AND KERMA REPORTING REQUIREMENTS IN HIGHER EDUCATION,” J. Tek. Inform. Jutif, vol. 5, no. 6, Art. no. 6, Des 2024, doi: 10.52436/1.jutif.2024.5.6.1747.
A. M. Wahid, T. Hariguna, dan G. Karyono, “Optimizing Feature Extraction for Website Visuals: A Comparative Study of AlexNet and Inception V3,” dalam 2024 12th International Conference on Cyber and IT Service Management (CITSM), Okt 2024, hlm. 1–6. doi: 10.1109/CITSM64103.2024.10775681.
A. D. Riyanto, A. M. Wahid, dan A. A. Pratiwi, “ANALYSIS OF FACTORS DETERMINING STUDENT SATISFACTION USING DECISION TREE, RANDOM FOREST, SVM, AND NEURAL NETWORKS: A COMPARATIVE STUDY,” J. Tek. Inform. Jutif, vol. 5, no. 4, Art. no. 4, Jul 2024, doi: 10.52436/1.jutif.2024.5.4.2188.
Berlilana dan A. M. Wahid, “Time Series Analysis of Bitcoin Prices Using ARIMA and LSTM for Trend Prediction,” J. Digit. Mark. Digit. Curr., vol. 1, no. 1, Art. no. 1, Mei 2024, doi: 10.47738/jdmdc.v1i1.1.
B. Berlilana, A. M. Wahid, D. Fortuna, A. N. A. Saputra, dan G. Bagaskoro, “Exploring the Impact of Discount Strategies on Consumer Ratings: An Analytical Study of Amazon Product Reviews,” J. Appl. Data Sci., vol. 5, no. 1, Art. no. 1, Jan 2024, doi: 10.47738/jads.v5i1.163.