Optimasi Klasifikasi Data Teks Menggunakan Algoritma Logistic Regression dengan TF-IDF dan SMOTE
Keywords:
data teks, klasifikasi teks, logistic regression, smote, tf-idfAbstract
Klasifikasi teks menggunakan algoritma machine learning merupakan bagian dari cabang ilmu Natural Language Processing (NLP). Klasifikasi ini dilakukan untuk mengkategorisasikan data tekstual secara otomatis dalam sekumpulan kategori yang telah ditetapkan. Klasifikasi teks ini menjadi salah satu alat yang berguna di berbagai bidang, diantaranya analisis sentimen, deteksi topik, dan penyaringan spam. Pemodelan klasifikasi teks sangat dipengaruhi preprocessing data yang teliti. Data teks merupakan jenis data tidak terstruktur yang perlu diolah dengan mengubah dan mentransformasikan data teks melalui metode yang relevan, sehingga data teks berubah menjadi bentuk yang dapat dikenali oleh algoritma machine learning untuk dianalisis. Berdasarkan hal tersebut, penelitian ini bertujuan untuk mengoptimasi klasifikasi otomatis teks menggunakan algoritma machine learning, yaitu logistic regression dengan ekstraksi fitur TF-IDF dan dibandingkan dengan metode SMOTE untuk penanganan imbalance class. Berdasarkan hasil evaluasi model, diperoleh bahwa model machine learning algoritma logistic regression dengan ektraksi fitur TF-IDF menghasilkan tingkat akurasi yang lebih baik, yaitu sebesar 76,9% dibandingkan dengan model yang dilengkapi dengan SMOTE. Hal tersebut dapat disimpulkan bahwa metode SMOTE tidak mempengaruhi, bahkan menurunkan tingkat akurasi model algoritma logistic regression pada data teks yang menjadi domain dalam penelitian ini.