What Is Branding?
Are you sure that you got it right?
Thursday, May 7, 2020
Sistem Analisis Sentimen pada Ulasan Produk Menggunakan Metode Naive Bayes
.
Abstract
Sistem analisis sentimen merupakan sistem yang digunakan untuk melakukan proses analisis otomatis pada ulasan produk online bahasa Indonesia untuk memperoleh informasi meliputi informasi sentimen yang merupakan bagian dari ulasan online.
Data tersebut diklasifikasikan menggunakan Naive Bayes.
Sistem analisis sentimen dibagi menjadi 5 (lima) tahap, yaitu crawling, pre-processing, pembobotan kata, pembentukan model dan klasifikasi sentimen.
Pada pembobotan kata digunakan metode TF-IDF (Term Frequency – Inverse Document Frequency).
Data yang ada akan diklasifikasikan ke dalam 5 (lima) kelas, yaitu sangat negatif, negatif, netral, positif dan sangat positif.
Data tersebut kemudian akan dievaluasi menggunakan pengujian confusion matrix dengan parameter akurasi, recall, dan precision.
Hasil pengujian menunjukkan pada pengujian 3 kelas (negatif, netral dan positif) hasil terbaik didapatkan pada 90% data latih dan 10% data uji dengan nilai akurasi 77.78%, recall 93.33% dan precision 77.78% dan pada pengujian 5 kelas hasil terbaik didapatkan pada 90% data latih dan 10% data uji dengan nilai akurasi 59.33 %, recall 58.33 % dan precision 59.33 %.
Hasil prediksi kelas data uji yang relevan dibandingkan antara kelas sentimen yang ditandai supervisor dan kelas sentimen yang dihasilkan oleh sistem analisis sentimen walaupun belum sepenuhnya akurat.
I. PENDAHULUAN
Pada zaman modern ini, sentimen atau opini masyarakat semakin bertambah luas dan bebas diungkapkan di berbagai media.
Sentimen dapat menjadi potensi besar bagi perusahaan yang ingin mengetahui umpan balik (feedback) dari masyarakat terhadap merk dagang mereka.
Merk telah dianggap sebagai salah satu asset tidak berwujud (intangible asset) yang paling berharga dan manajemen merk adalah prioritas penting bagi pihak manajemen perusahaan atau organisasi [1].
Jumlah pengguna (user) aktif dalam komunikasi online memiliki jumlah data yang sangat banyak sehingga memunculkan data besar (big data).
Munculnya teknologi big data yang merupakan himpunan data dalam jumlah yang sangat besar, rumit, dan tidak terstruktur menjadi salah satu sumber daya besar yang dapat diolah untuk memperoleh hasil sentimen yang lebih akurat.
Jumlah review dan opini sangat banyak sehingga akan menyulitkan dan memakan waktu untuk membaca secara keseluruhan.
Oleh karena itu dapat dirancang sistem yang secara otomatis akan mengelompokkan opini dan review yang ada sesuai kelasnya. Kelas sentimen dibagi menjadi kelas sangat positif, positif, netral, negatif, dan sangat negatif sehingga pengguna dapat membaca memilih ingin membaca opini sesuai yang diinginkan [2].
Sistem analisis sentimen yang dibangun menggunakan algoritma klasifikasi Naive Bayes.
Ciri utama dari algoritma Naive Bayes adalah asumsi yang sangat kuat (naif) akan independensi dari masing-masing kondisi atau kejadian [3].
Kelebihan dari Naive Bayes adalah proses klasifikasi data dapat disesuaikan dengan sifat dan kebutuhan masing-masing.
Dengan adanya sistem analisis sentimen ini diharapkan dapat membantu perusahaan mengetahui umpan balik terhadap merk dagangnya dan masyarakat dalam menilai sebuah produk berdasarkan opini dan review yang ada.
Penelitian Kristiyanti [4], pengkajian ulang tentang review produk kosmetik dengan cara pengklasifikasian review tersebut ke dalam class positif dan negatif.
Teknik klasifikasi yang digunakan untuk klasifikasi data adalah Support Vector Machine (SVM) dengan penggabungan metode pemilihan fitur Particle Swarm Optimization agar bisa meningkatkan akurasi.
Evaluasi pengukuran sebelum dan sesudah penambahan metode pemilihan fitur dilakukan menggunakan 10 Fold Cross Validation.
Sedangkan pengukuran akurasi diukur dengan Confusion Matrix dan Kurva ROC.
Hasil penelitian menunjukkan peningkatan akurasi Support Vector Machine dari 89.00 % menjadi 97.00 %.
Sipayung, Maharani dan Zefanya [5] membuat sistem analisis sentimen menggunakan metode Naive Bayes Classifier (NBC).
Komentar dibagi berdasarkan sentimen positif dan negatif, sehingga dapat dievaluasi kepuasan pelanggan terhadap produk dan jasa yang disediakan secara terkomputerisasi dan spesifik.
Hasil dari penelitian yang dilakukan mendapatkan enam kategori yang ditinjau dengan 55 keyword kata benda, terdapat 120 keyword sentimen dengan 66 kata sentimen positif dan 54 kata sentimen negatif.
Hasil pengolahan terhadap 175 data latih disimpulkan bahwa hasil klasifikasi sentimen yang didapat adalah sentimen positif sebanyak 155 komentar dan sentimen negatif sebanyak 20 komentar.
Kategori sentimen positif terbesar adalah kategori kamar sebesar 73 komentar dan kategori dengan sentimen negatif terbesar adalah kategori kamar sebesar 17 komentar.
Tingkat akurasi dalam penentuan kategori adalah sebesar 77.14% dan 75.42% dalam penentuan sentimen memiliki tingkat precision 99.12% dan recall 72.9%.
Budi [6] menyatakan ada beberapa algoritma yang di gunakan untuk penggalian dokumen untuk analisis sentimen, salah satunya adalah K-Means.
Didalam penelitian ini algoritma yang digunakan adalah K-Means dengan pembobotan kata TF-IDF.
Dengan tujuan untuk mengetahui kinerja algoritma K-Means tanpa seleksi fitur dan menggunakan seleksi fitur information gain.
Hasil penelitian menunjukkan bahwa akurasi K-Means dengan dataset digunakan 300 positif dan 300 negatif akurasinya 57.83%, 700 dokumen positif dan 700 negatif akurasinya 56.71%%, 1000 dokumen positif dan 1000 negatif akurasinya 50.40%%.
Dari hasil pengujian disimpulkan bahwa semakin besar dataset yang digunakan semakin rendah akurasi K-Means.
.
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment