DETEKSI CYBERBULLYING PADA DATA TWEET MENGGUNAKAN METODE RANDOM FOREST DAN SELEKSI FITUR INFORMATION GAIN

Rachmad Masbadi Hatullah Nurnaryo; Mulaab Mulaab; Ika Oktavia Suzanti; Doni Abdul Fatah; Andharini Dwi Cahyani; Fifin Ayu Mufarroha

doi:10.21107/simantec.v11i1.17256

DETEKSI CYBERBULLYING PADA DATA TWEET MENGGUNAKAN METODE RANDOM FOREST DAN SELEKSI FITUR INFORMATION GAIN

Rachmad Masbadi Hatullah Nurnaryo, Mulaab Mulaab, Ika Oktavia Suzanti, Doni Abdul Fatah, Andharini Dwi Cahyani, Fifin Ayu Mufarroha

Abstract

Indonesia merupakan salah satu negara dengan pengguna media sosial terbanyak. Dengan banyaknya pengguna media sosial, hal ini dapat memicu munculnya cyberbullying. Cyberbullying adalah tindakan berulang yang melecehkan, mempermalukan, mengancam, atau mengganggu orang lain melalui komputer, ponsel, dan perangkat elektronik lainnya, termasuk situs web jejaring sosial online. Twitter merupakan salah satu media sosial yang sering digunakan untuk melakukan cyberbullying. Deteksi cyberbullying merupakan langkah penting untuk membuat lingkungan yang baik dalam interaksi media sosial. Penelitian ini mendeteksi cyberbullying yang berasal dari tweet berbahasa Indonesia dengan menggunakan metode Random Forest sebagai pengklasifikasi. Seleksi fitur information gain juga digunakan untuk menyeleksi fitur yang berupa atribut. Penelitian ini bertujuan untuk mengetahui akurasi deteksi cyberbullying dari metode Random Forest dan memilih fitur penting untuk meningkatkan kinerja metode. Dari hasil pengujian, didapatkan nilai Accuracy tertinggi sebesar 72.1% dengan atribut berjumlah 1295 dari 2277 atribut. Hal ini berarti, pemilihan fitur yang baik dapat meningkatkan performa dari metode machine learning.

Kata kunci: Cyberbullying, Information Gain, Random Forest, Tweet

Full Text:

PDF (Bahasa Indonesia)

References

T. Febriana and A. Budiarto, “Twitter Dataset for Hate Speech and Cyberbullying Detection in Indonesian Language,” Proc. 2019 Int. Conf. Inf. Manag. Technol. ICIMTech 2019, vol. 1, no. August, pp. 379–382, 2019, doi: 10.1109/ICIMTech.2019.8843722.

L. Anindyati, A. Purwarianti, and A. Nursanti, “Optimizing Deep Learning for Detection Cyberbullying Text in Indonesian Language,” Proc. - 2019 Int. Conf. Adv. Informatics Concepts, Theory, Appl. ICAICTA 2019, pp. 1–5, 2019, doi: 10.1109/ICAICTA.2019.8904108.

H. Nurrahmi and D. Nurjanah, “Indonesian Twitter Cyberbullying Detection using Text Classification and User Credibility,” 2018 Int. Conf. Inf. Commun. Technol. ICOIACT 2018, vol. 2018-Janua, pp. 543–548, 2018, doi: 10.1109/ICOIACT.2018.8350758.

H. K. Sharma, K. Kshitiz, and Shailendra, “NLP and Machine Learning Techniques for Detecting Insulting Comments on Social Networking Platforms,” 2018 Int. Conf. Adv. Comput. Commun. Eng., no. June, pp. 265–272, 2018.

M. A. Al-garadi, K. D. Varathan, and S. D. Ravana, “Computers in Human Behavior Cybercrime detection in online communications : The experimental case of cyberbullying detection in the Twitter network,” Comput. Human Behav., vol. 63, pp. 433–443, 2016, doi: 10.1016/j.chb.2016.05.051.

D. Ramachandran and R. Parvathi, “ScienceDirect Analysis Analysis of of Twitter Twitter Specific Specific Preprocessing Preprocessing Technique Technique for for Tweets Tweets,” Procedia Comput. Sci., vol. 165, pp. 245–251, 2020, doi: 10.1016/j.procs.2020.01.083.

E. Odhiambo Omuya, G. Onyango Okeyo, and M. Waema Kimwele, “Feature Selection for Classification using Principal Component Analysis and Information Gain,” Expert Syst. Appl., vol. 174, no. February, p. 114765, 2021, doi: 10.1016/j.eswa.2021.114765.

S. Chormunge and S. Jena, “Efficient feature subset selection algorithm for high dimensional data,” Int. J. Electr. Comput. Eng., vol. 6, no. 4, pp. 1880–1888, 2016, doi: 10.11591/ijece.v6i4.9800.

Y. Zhang, X. Ren, and J. Zhang, “Intrusion detection method based on information gain and ReliefF feature selection,” Proc. Int. Jt. Conf. Neural Networks, vol. 2019-July, no. July, pp. 1–5, 2019, doi: 10.1109/IJCNN.2019.8851756.

X. Ji, B. Yang, and Q. Tang, “Seabed sediment classification using multibeam backscatter data based on the selecting optimal random forest model,” Appl. Acoust., vol. 167, p. 107387, 2020, doi: 10.1016/j.apacoust.2020.107387.

R. R. Dalvi, S. Baliram Chavan, and A. Halbe, “Detecting A Twitter Cyberbullying Using Machine Learning,” Proc. Int. Conf. Intell. Comput. Control Syst. ICICCS 2020, no. Iciccs, pp. 297–301, 2020, doi: 10.1109/ICICCS48265.2020.9120893.

M. Fortunatus, P. Anthony, and S. Charters, “Combining textual features to detect cyberbullying in social media Combining textual features to detect cyberbullying in social media posts posts,” Procedia Comput. Sci., vol. 176, pp. 612–621, 2020, doi: 10.1016/j.procs.2020.08.063.

M. Z. Islam, J. Liu, J. Li, L. Liu, and W. Kang, “A Semantics Aware Random Forest for Text Classification,” CIKM, vol. 19, pp. 1061–1070, 2019, doi: 10.1145/3357384.3357891.

P. Jiang and J. Chen, “Neurocomputing Displacement prediction of landslide based on generalized regression neural networks with K -fold cross-validation,” Neurocomputing, pp. 1–8, 2016, doi: 10.1016/j.neucom.2015.08.118.

D. Kim, D. Seo, S. Cho, and P. Kang, “Multi-co-training for document classification using various document representations: TF–IDF, LDA, and Doc2Vec,” Inf. Sci. (Ny)., 2018, doi: 10.1016/j.ins.2018.10.006

DOI: https://doi.org/10.21107/simantec.v11i1.17256

Refbacks

There are currently no refbacks.

Indexed By

SIMANTEC JOURNAL: This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Username
Password
Remember me