Thursday, May 7, 2020

Sistem Analisis Sentimen pada Ulasan Produk Menggunakan Metode Naive Bayes


.
Abstract

Sistem analisis sentimen merupakan sistem yang digunakan untuk melakukan proses analisis otomatis pada ulasan produk online bahasa Indonesia untuk memperoleh informasi meliputi informasi sentimen yang merupakan bagian dari ulasan online.

Data tersebut diklasifikasikan menggunakan Naive Bayes.

Sistem analisis sentimen dibagi menjadi 5 (lima) tahap, yaitu crawling, pre-processing, pembobotan kata, pembentukan model dan klasifikasi sentimen.

Pada pembobotan kata digunakan metode TF-IDF (Term Frequency – Inverse Document Frequency).

Data yang ada akan diklasifikasikan ke dalam 5 (lima) kelas, yaitu sangat negatif, negatif, netral, positif dan sangat positif.

Data tersebut kemudian akan dievaluasi menggunakan pengujian confusion matrix dengan parameter akurasi, recall, dan precision.

Hasil pengujian menunjukkan pada pengujian 3 kelas (negatif, netral dan positif) hasil terbaik didapatkan pada 90% data latih dan 10% data uji dengan nilai akurasi 77.78%, recall 93.33% dan precision 77.78% dan pada pengujian 5 kelas hasil terbaik didapatkan pada 90% data latih dan 10% data uji dengan nilai akurasi 59.33 %, recall 58.33 % dan precision 59.33 %.

Hasil prediksi kelas data uji yang relevan dibandingkan antara kelas sentimen yang ditandai supervisor dan kelas sentimen yang dihasilkan oleh sistem analisis sentimen walaupun belum sepenuhnya akurat.

I. PENDAHULUAN

Pada  zaman  modern  ini,  sentimen  atau  opini masyarakat  semakin  bertambah  luas  dan  bebas diungkapkan  di  berbagai media. 

Sentimen  dapat  menjadi potensi  besar  bagi  perusahaan  yang  ingin  mengetahui umpan  balik  (feedback)  dari  masyarakat  terhadap  merk dagang  mereka. 

Merk  telah  dianggap  sebagai  salah  satu asset  tidak  berwujud  (intangible  asset)  yang  paling berharga  dan  manajemen  merk  adalah  prioritas  penting bagi pihak manajemen perusahaan atau organisasi [1].

Jumlah pengguna  (user) aktif dalam komunikasi online memiliki  jumlah  data  yang  sangat  banyak  sehingga memunculkan data  besar (big data).

Munculnya teknologi big  data  yang  merupakan  himpunan  data  dalam  jumlah yang  sangat  besar,  rumit,  dan  tidak  terstruktur  menjadi salah  satu  sumber  daya  besar  yang  dapat  diolah  untuk memperoleh hasil sentimen yang lebih akurat. 

Jumlah review  dan  opini sangat  banyak  sehingga  akan menyulitkan  dan  memakan  waktu  untuk  membaca  secara keseluruhan.

Oleh karena  itu  dapat dirancang sistem yang secara otomatis akan   mengelompokkan  opini dan review yang ada sesuai  kelasnya.  Kelas sentimen dibagi  menjadi kelas  sangat  positif,  positif,  netral,  negatif,  dan  sangat negatif sehingga pengguna dapat membaca memilih ingin membaca opini sesuai yang diinginkan [2].

Sistem analisis  sentimen  yang  dibangun  menggunakan algoritma  klasifikasi  Naive  Bayes. 

Ciri  utama  dari algoritma  Naive  Bayes  adalah  asumsi  yang  sangat  kuat (naif) akan  independensi  dari  masing-masing kondisi atau kejadian  [3]. 

Kelebihan  dari  Naive  Bayes  adalah  proses klasifikasi  data  dapat  disesuaikan  dengan  sifat  dan kebutuhan masing-masing. 

Dengan adanya sistem analisis sentimen ini diharapkan dapat  membantu  perusahaan  mengetahui  umpan  balik terhadap  merk  dagangnya  dan  masyarakat  dalam menilai sebuah produk berdasarkan opini dan review yang ada.

Penelitian  Kristiyanti  [4],  pengkajian  ulang  tentang review  produk  kosmetik  dengan  cara  pengklasifikasian review tersebut  ke dalam class  positif dan negatif.

Teknik klasifikasi  yang  digunakan  untuk  klasifikasi  data  adalah Support  Vector  Machine  (SVM)  dengan  penggabungan metode pemilihan fitur Particle Swarm Optimization  agar bisa meningkatkan akurasi.

Evaluasi pengukuran sebelum dan  sesudah  penambahan  metode  pemilihan  fitur dilakukan  menggunakan  10  Fold  Cross  Validation.

Sedangkan  pengukuran  akurasi diukur  dengan Confusion Matrix  dan  Kurva  ROC. 

Hasil  penelitian  menunjukkan peningkatan  akurasi  Support  Vector  Machine  dari 89.00 % menjadi 97.00 %.

Sipayung,  Maharani  dan  Zefanya  [5]  membuat  sistem analisis  sentimen  menggunakan  metode  Naive  Bayes Classifier (NBC). 

Komentar dibagi  berdasarkan  sentimen positif  dan  negatif,  sehingga  dapat  dievaluasi  kepuasan pelanggan  terhadap  produk  dan  jasa  yang  disediakan secara terkomputerisasi dan spesifik.

Hasil dari penelitian yang dilakukan mendapatkan  enam  kategori  yang ditinjau dengan  55  keyword  kata  benda,  terdapat  120  keyword sentimen  dengan  66  kata  sentimen  positif  dan  54  kata sentimen negatif.

Hasil pengolahan terhadap 175 data latih disimpulkan  bahwa  hasil  klasifikasi  sentimen  yang didapat  adalah  sentimen  positif  sebanyak  155  komentar dan  sentimen  negatif  sebanyak  20  komentar. 

Kategori sentimen positif terbesar adalah kategori kamar sebesar 73 komentar  dan  kategori  dengan  sentimen  negatif  terbesar adalah  kategori  kamar  sebesar  17  komentar. 

Tingkat akurasi  dalam  penentuan  kategori  adalah  sebesar  77.14% dan  75.42%  dalam  penentuan  sentimen  memiliki tingkat precision 99.12% dan recall 72.9%.

Budi  [6]  menyatakan  ada  beberapa  algoritma  yang  di gunakan  untuk  penggalian  dokumen  untuk  analisis sentimen,  salah  satunya  adalah  K-Means. 

Didalam penelitian  ini  algoritma yang  digunakan adalah  K-Means dengan  pembobotan  kata  TF-IDF. 

Dengan  tujuan  untuk mengetahui kinerja algoritma K-Means tanpa seleksi fitur dan  menggunakan  seleksi  fitur  information  gain. 

Hasil penelitian  menunjukkan  bahwa  akurasi  K-Means  dengan dataset digunakan 300  positif  dan 300 negatif   akurasinya 57.83%,  700 dokumen positif dan 700  negatif akurasinya 56.71%%,  1000  dokumen  positif  dan  1000    negatif akurasinya  50.40%%. 

Dari  hasil  pengujian  disimpulkan bahwa  semakin  besar  dataset  yang  digunakan  semakin rendah akurasi K-Means.
.

No comments:

Post a Comment