Comparison of Classification Algorithms for Predicting Indonesian Fake News using Balanced and Imbalanced Datasets

Sayidati Karima(1*), Achmad Benny Mutiara(2)

(1) Gunadarma University
(2) Gunadarma University
(*) Corresponding Author

Abstract


Kemajuan teknologi informasi memberikan dampak yang besar, seperti penyebaran berita online. Namun, kabar yang tersebar belum tentu benar adanya. Dalam beberapa penelitian, pendeteksian berita hoax telah dilakukan. Namun, terdapat perbedaan hasil dari beberapa algoritma yang digunakan. Oleh karena itu, dalam penelitian ini dilakukan perbandingan antara algoritma Logistic Regression, Naïve Bayes, Random Forest dan Support Vector Machine untuk memprediksi berita hoax khusus Indonesia dengan dataset seimbang dan tidak seimbang. Tahapan perancangan sistem dimulai dari pengumpulan dataset, pelabelan data, pre-processing, pembobotan TF-IDF, klasifikasi model hingga pengujian. Hasil akurasi tertinggi baik dari jumlah dataset yang tidak seimbang maupun dataset yang seimbang didapatkan dari SVM dengan perbandingan 80:20. Dataset tidak seimbang memiliki akurasi 85,47% dan F1-score 90% dan dataset seimbang memiliki akurasi 84,36% dan F1-score 84,80%. Pada penelitian ini dataset tidak seimbang mendapatkan hasil akurasi yang lebih baik dengan menggunakan algoritma SVM dan jika jumlah dataset yang menjadi target kelas utama lebih banyak maka akan memberikan hasil yang lebih baik.

Full Text:

PDF

References


K. Poddar, et al “Comparison of Various Machine Learning Models for Accurate Detection of Fake News,” Innovations in Power and Advanced Computing Technologies, 2019, doi:10.1109/i-PACT44901.2019.8960044.

K. Gowthami, et al, “Identification of Fake News through SVM and Random Forest,” IJESC. Vol. 10 No. 10. ISSN 2321-3361, 2020.

M. Dhar, et al, “Detection of Fake News using Machine Learning Algorithms,” IJARIIE. Vol. 7 Issue 4. ISSN(O) 2395-4396, 2021, doi: 10.1109/ICAC3N53548.2021.9725560

R. Krishna, et al, “Survey on Fake News Detection using Machine Learning Algorithms,” International Journal of Engineering Research & Technology. ISSN 2278-0181, 2021, doi: 10.17577/IJERTCONV9IS08026.

Willy, et al, “Perbandingan Algoritma Random Forest Classifier, Support Vector Machine dan Logistic Regression Clasifier Pada Masalah High Dimension (Studi Kasus: Klasifikasi Fake News)”, Jurnal Media Informatika Budidarma, ISSN 2614-5278, Vol. 5, No. 4, Page 1720-1728, 2021, doi: 10.30865/mib.v5i4.3177.

Amanda, T., et al, “Deteksi Hoaks Pada Berita Berbahasa Indonesia Seputar COVID-19”, Jurnal Ilmiah Teknik Informatika Format. ISSN : 2089 – 5615, Vol. 10 Nomor 1, 2021, doi:10.22441/format.2021.v10.i1.007.

A. Thoha, “Respon Mahasiswa Jurusan Komunikasi UIN Suska Riau Terhadap Program Siaran Suskapucino di Radio Suska FM 107,9 Mhz Pekanbaru,” Indonesia, Universitas Islam Negeri Sultan Syarif Kasim Riau, 2018.

C. Juditha, “Interaksi Komunikasi Hoax di Media Sosial serta Antisipasinya Hoax Communication Interactivity in Social Media and Anticipation,” Jurnal Pekommas. Vol. 3 No.1:31-44, 2018, doi: 10.30818/jpkm.2018.2030104.

A. Kadir, “Logika Pemrograman Python”, Jakarta: PT. Elex Media Komputindo, 2019.

H. S. Simon, “Penentuan Posisi Objek Berbasis Image Processing Dengan Menggunakan Metode Convolutional Neural Network,” UIB: Universitas Internasional Batam, 2020.

M. S. Shell, An Introduction to Numpy and Scipy. USCB Engineering, 2019.

D. Dewanti, et al, Bootcamp Data Science (Machine Learning, Bogor : Inspira Pustaka Aksara, 2021.

E. J. Rifano, et al, “Text Summarization Menggunakan Library Natural Language Toolkit (NLTK) Berbasis Pemrograman Python,” ILKOMNIKA. Vol. 2 No.1:8-17. E-ISSN 2715-2731, 2020, doi: https://doi.org/10.28926/ilkomnika.v2i1.32

S. Wahyunita, “Analisa Sentimen Tweet Berbahasa Indonesia Dengan Menggunakan Metode Pembobotan Hybrid TF-IDF Pada Topik Transportasi Online,” UMM: Universitas Muhammadiyah Malang, 2018, doi:10.22219/repositor.v2i2.238.

D. F. Setiawan, et al, “Aplikasi Web Scraping Deskripsi Produk,” Jurnal TeknoInfo. Vol. 14 No. 1. ISSN: 2615-224X, 2020, doi: 10.33365/jti.v14i1.498.

L. Hermawan and M. Bellaniar, “Pembelajaran Text Preprocessing berbasis Simulator Untuk Mata Kuliah Information Retrieval,” Transformatika. Vol. 17 No. 2. ISSN: 1693-3656, 2020, doi: http://dx.doi.org/10.26623/transformatika.v17i2.1705

A. Hakim, “Klasifikasi Sentimen Terhadap Bukalapak Dengan Menggunakan Metode Naïve Bayes Classifier,” Fakultas Sains dan Teknologi. UIN Sultan Syarif Kasim Riau, 2018.

A. N. Assidyk, E. B. Setiawan, and I. Kurniawan, “Analisis Perbandingan Pembobotan TF-IDF dan TF-RF pada Trending Topic di Twitter dengan Menggunakan Klasifikasi K-Nearest Neighbor,” E-Proceeding of Engineering. Vol. 7 No. 2 Hal 7773. ISSN: 2355-9365, 2020, doi: https://doi.org/10.34818/eoe.v7i2.12794

D. T. Wisudawati, “Analisis Sentimen Terhadap Dampak COVID-19 pada Performa E-Commerce di Indonesia Menggunakan Support Vector Machine (Review Aplikasi Tokopedia Pada Google Play),” Seminar Nasional VARIANSI, 2020. ISBN: 978-602-53397-2-1.

H. F. Putro, et al, “Penerapan Metode Naive Bayes Untuk Klasifikasi Pelanggan,” Jurnal TIKomSiN, Vol. 8, No. 2. ISSN: 2620-7532, 2020, doi:10.30646/tikomsin.v8i2.500.

H. Nalatissifa, W. Gata, S. Diantika, K. Nisa, “Perbandingan Kinerja Algoritma Klasifikasi Naive Bayes, Support Vector Machine (SVM), dan Random Forest untuk Prediksi Ketidakhadiran di Tempat Kerja,” Jurnal Informatika Universitas Pamulang. Vol. 5 No. 4, Hal. 578-584. ISSN: 2541-1004, 2020, doi: http://dx.doi.org/10.32493/informatika.v5i4.7575

F. Ridzuan, et al, “A Review on Data Cleansing Methods for Big Data,” Procedia Computer Science 161(3):731-738, 2019.




DOI: http://dx.doi.org/10.30998/faktorexacta.v16i1.16486

Refbacks

  • There are currently no refbacks.




Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

template doaj grammarly tools mendeley crossref SINTA sinta faktor exacta   Garuda Garuda Garuda Garuda Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

Flag Counter

site
stats View Faktor Exacta Stats


pkp index