Thursday, May 28, 2020

Mengenal peran sentiment analysis dalam data media sosial beserta cara kerjanya


.
Mengenal peran sentiment analysis dalam data media sosial beserta cara kerjanya
Tsalis Annisa

19 January 2020


Sentiment analysis adalah proses penggunaan text analytics untuk mendapatkan berbagai sumber data dari internet dan beragam platform media sosial. Tujuannya adalah untuk memperoleh opini dari pengguna yang terdapat pada platform tersebut.

Setiap hari, internet dibanjiri oleh miliaran data dari berbagai sumber. Sentiment analysis berperan sebagai alat yang dapat menghubungkan seluruh data tersebut. Dengan begitu, perusahaan dapat memperoleh masukan inti dari pengguna atau konsumen secara efisien.

Sentiment analysis dan peran pentingnya

Dengan sentiment analysis kamu dapat mengetahui opini publik tentang brand kamu

Sentiment analysis merupakan salah satu bidang dari Natural Languange Processing (NLP) yang membangun sistem untuk mengenali dan mengekstraksi opini dalam bentuk teks.

Informasi berbentuk teks saat ini banyak terdapat di internet dalam format forum, blog, media sosial, serta situs berisi review. Dengan bantuan sentiment analysis, informasi yang tadinya tidak terstruktur dapat diubah menjadi data yang lebih terstruktur.

Data tersebut dapat menjelaskan opini masyarakat mengenai produk, merek, layanan, politik, atau topik lainnya. Perusahaan, pemerintah, maupun bidang lainnya kemudian memanfaatkan data-data tersebut untuk membuat analisis marketing, review produk, umpan-balik produk, dan layanan masyarakat.

Guna menghasilkan opini yang dibutuhkan, sentiment analysis tidak hanya harus bisa mengenali opini dari teks. Proses yang juga disebut sebagai opini mining ini juga perlu bekerja dengan mengenali tiga aspek berikut:

Subjek: topik apa yang sedang dibicarakan.
Polaritas: apakah opini yang diberikan bersifat positif atau negatif.
Pemegang opini: seseorang yang mengeluarkan opini tersebut.
Sentiment analysis kemudian akan membedakan teks menjadi dua kategori, yakni fakta dan opini. Fakta merupakan ekspresi objetif mengenai sesuatu. Sementara opini adalah ekpresi subjektif yang menggambarkan sentimen, perasaan, maupun penghargaan terhadap suatu hal.

Baca juga: Kenali macam-macam metode analisis data di sini

Tipe-tipe sentiment analysis


Ada beragam jenis analisis sentimen yang dapat digunakan untuk mengidentifikasi respon pengguna. Mulai untuk melihat polaritas pendapat hingga mengindentifikasi niat pengguna. Beberapa tipe sentiment analysis itu antara lain:

1. Fine-Grained Sentiment Analysis
Analisis sentimen yang satu ini merupakan salah satu jenis yang paling umum. Fokusnya ada pada tingkat polaritas pendapat.

Tipe analisis sentimen ini akan mengelompokkan respon atau pendapat ke dalam beberapa kategori seperti sangat positif, agak positif, netral, agak negatif, dan negatif.

2. Intent Sentiment Analysis
Tipe sentiment analysis berikut bertujuan untuk mengidentifikasi dan menggali lebih dalam motivasi  di balik pesan pengguna untuk melihat apakah itu termasuk keluhan, saran, pendapat, pertanyaan atau justru penghargaan terhadap produk atau layananmu.

3. Aspect - Based Sentiment Analysis
Pada tipe analisis sentimen ini kamu dapat berfokus pada elemen-elemen yang lebih spesifik dari produk atau layanan kamu.

Analisis sentimen berbasis aspek ini juga memungkinkanmu menghubungkan sentimen spesifik dengan berbagai aspek produk atau layananmu.

Cara kerja sentiment analysis

Klasifikasi, visualisasi, dan evaluasi adalah tiga cara kerja sentiment analysis dalam mengambil data

Cara kerja sentiment analysis dalam mengambil data dapat dibagi menjadi tiga langkah, yakni klasifikasi, evaluasi, dan visualisasi hasil.

1. Klasifikasi
Pertama, mesin perlu mengklasifikasikan data yang dinilai sebagai opini dari sebuah teks. Ada tiga klasifikasi dalam metode analisis sentimen yang dapat dilakukan, yakni:

Machine learning: fitur-fitur di dalamnya dapat mengenali sentimen (sudut pandang seseorang) dalam sebuah teks. Metode machine learning kini semakin bertambah populer karena dapat dinilai representatif.
Lexicon-based: menggunakan berbagai kata yang dinilai dengan skor polaritas untuk mengetahui tanggapan masyarakat/pengguna/konsumen mengenai suatu topik. Keunggulannya adalah tidak memerlukan data pelatihan, tapi kelemahannya adalah banyak kata yang belum termuat dalam leksikon.
Campuran: menggabungkan metode machine learning dan leksikon. Kendati jarang digunakan, metode ini biasanya memberikan hasil yang lebih menjanjikan.
2. Evaluasi

Setelah data terklasifikasi,metode analisis sentimen berikutnya adalah menggunakan metrik evaluasi seperti Precision, Recall, F-score, dan Accuracy. Proses ini juga melibatkan pengukuran rata-rata seperti makro, mikro, dan skor F1 tertimbang untuk menangani data yang masuk ke dalam dua klasifikasi atau lebih.

Metrik yang digunakan didasarkan pada keseimbangan klasifikasi set data. Secara umum, skemanya adalah sebagai berikut: tinjauan set data, pre-processing, tokenizer, penghapusan stopwords, transformasi, klasifikasi, dan evaluasi.

3. Visualisasi data
Langkah selanjutnya dalam metode analisis sentimen adalah visualisasi data. Visualisasi data dilakukan menggunakan bagan sesuai kebutuhan perusahaan atau siapa saja yang memanfaatkan data-data ini. Sebagian besar orang biasanya menggunakan teknik yang sudah dikenal, seperti grafik, histogram, atau matriks.

Namun, hasil akhir dari sentiment analysis bisa sangat bervariasi. Data yang ada dapat muncul disertai domain lain yang terlibat. Karena itulah, teknik visualisasi data berupa wordcloud, peta interaktif, dan gaya sparkline juga cukup efektif untuk menampilkan hasil analisis.

Baca juga: 5 Buku visualisasi data terbaik dari level pemula hingga profesional

Sentiment analysis adalah metode untuk memperoleh data dari berbagai platform yang tersedia di internet. Kemajuan teknologi memungkinkan mesin untuk mengenali suatu istilah yang dianggap sebagai opini positif maupun sebaliknya.

Data-data dan opini tersebut berperan penting sebagai umpan balik produk, layanan, dan topik lainnya. Tanpa perlu memperoleh opini secara langsung dari masyarakat, pihak penyedia telah mendapatkan evaluasi yang penting guna mengembangkan diri.
.
https://www.ekrut.com/media/sentiment-analysis-adalah

Friday, May 8, 2020

Malay sentiment analysis based on combined classification approaches and Senti-lexicon algorithm


.
Abstract
Sentiment analysis techniques are increasingly exploited to categorize the opinion text to one or more predefined sentiment classes for the creation and automated maintenance of review-aggregation websites.

In this paper, a Malay sentiment analysis classification model is proposed to improve classification performances based on the semantic orientation and machine learning approaches.

First, a total of 2,478 Malay sentiment-lexicon phrases and words are assigned with a synonym and stored with the help of more than one Malay native speaker, and the polarity is manually allotted with a score.

In addition, the supervised machine learning approaches and lexicon knowledge method are combined for Malay sentiment classification with evaluating thirteen features.

Finally, three individual classifiers and a combined classifier are used to evaluate the classification accuracy.

In experimental results, a wide-range of comparative experiments is conducted on a Malay Reviews Corpus (MRC), and it demonstrates that the feature extraction improves the performance of Malay sentiment analysis based on the combined classification.

However, the results depend on three factors, the features, the number of features and the classification approach.

.
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0194852

Perbandingan Metode Lexicon-based dan SVM untuk Analisis Sentimen Berbasis Ontologi pada Kampanye Pilpres Indonesia Tahun 2019 di Twitter


.
Abstrak 

Penggunaan media sosial semakin hari semakin meningkat.

Salah satu media sosial yang popular saat ini adalah Twitter. 

Menjelang  pemilihan Presiden Republik Indonesia semakin banyak tweet yang membahas tentang kegiatan tersebut.

Hal ini menyebabkan topik kampanye pemilu memiliki peluang yang baik untuk dilakukan proses analisis sentimen.

Saat ini, mayoritas analisis sentimen di Indonesia dilakukan hanya menilai sentimen dari kalimat tanpa mengetahui apa entitas yang ada dalam kalimat.

Tujuan penelitian ini yaitu  melakukan  analisis sentimen dengan pendekatan  berbasis ontologi. 

Ontologi  digunakan dalam menyaring data yang akan digunakan.

Ontologi dalam penelitian ini adalah ekonomi dengan atribut finansial, lapangan kerja, dan kesejahteraan.

Proses analisis sentimen dilakukan dengan metode Lexicon-based dan Support Vector  Machine (SVM).

Proses akuisisi data diperoleh sejumlah 700.000 tweet.

Koleksi tersebut diseleksi berdasarkan ontologi ekonomi menghasilkan 16.998 tweet dan dilakukan pelabelan manual sebanyak 1.600.

Kemudian dilakukan pengolahan data hingga diperoleh dataset final sejumlah 1.050 tweet.

Berdasarkan hasil penelitian yang dilakukan akurasi yang diperoleh berdasarkan metode Lexicon-based adalah 39% dan metode SVM sebesar 83%.

Dari penelitian ini diketahui bahwa SVM mempunyai performa yang lebih baik dibandingkan dengan Lexicon-based.

Hasil Lexicon-based menunjukkan bahwa sentimen pada mayoritas atribut berupa netral.

Sedangkan hasil SVM menunjukkan bahwa sentimen pada mayoritas atribut (finansial dan kesejahteraan) berupa positif, sisanya (lapangan kerja) berupa netral.

Selanjutnya, proses ekstraksi dan pembuatan ontologi Bahasa Indonesia secara semi-otomatis  pada dataset perlu untuk dikembangkan pada penelitian berikutnya untuk menyempurnakan ontologi. 

Kata kunci: Analisis Sentimen, Twitter, Ontology, SVM, Lexicon

.
https://www.researchgate.net/publication/337656037_Perbandingan_Metode_Lexicon-based_dan_SVM_untuk_Analisis_Sentimen_Berbasis_Ontologi_pada_Kampanye_Pilpres_Indonesia_Tahun_2019_di_Twitter

Meringkaskan Sentimen Netizen Menjelang Perbahasan Presiden Indonesia ke-1 menggunakan Analisis Sentimen Lexicon


.
Abstrak.

Twitter adalah salah satu platform media sosial yang popular di Indonesia.

Platform ini telah digunakan sebagai alat komunikasi media dan keterlibatan masyarakat untuk banyak tujuan, terutama dalam bidang politik dan pemerintahan.

Selama proses Pemilihan Presiden Indonesia 2019, banyak orang menggunakan Twitter untuk menyatakan pendapat / sentimen mereka terhadap proses pemilihan.

Dalam makalah ini, kami menyelidiki sifat pendapat orang terhadap Pilihan Raya Presiden Indonesia setelah perbahasan pertama.

Matlamat kajian ini adalah untuk melakukan analisis data Twitter berdasarkan sentimen eksplorasi, dan itu dikumpulkan setelah perbahasan pertama.

Kami menggunakan analisis sentimen leksikon untuk mengira sentimen tweet politik yang dikumpulkan selepas perbahasan pertama.

Pengenalpastian pendapat positif dan negatif dilakukan secara automatik menggunakan kamus yang ada.

Hasil kajian kami menunjukkan bahawa sentimen netizen terhadap perdebatan Presiden ke-1 kebanyakannya negatif.

Sebagai tambahan kepada hasil ini, model ramalan dihasilkan menggunakan CART dan regresi logistik untuk meramalkan sentimen netizen.

Eksperimen ini menunjukkan bahawa ketepatan model ramalan mencapai 90%.

Oleh itu, kajian kami menunjukkan bahawa data Twitter dapat digunakan untuk menganalisis sentimen warganegara terhadap Debat Presiden Indonesia dan dapat menghasilkan model untuk meramalkan sentimen masa depan warganegara menuju perdebatan berikutnya.

.
https://www.researchgate.net/publication/334047064_Summarizing_Netizens'_Sentiments_Towards_the_1_st_Indonesian_Presidential_Debate_using_Lexicon_Sentiment_Analysis

Analisis Sentimen Twitter Debat Calon Presiden Indonesia Menggunakan Metode Fined-Grained Sentiment Analysis


.
Abstrak:

Media sosial, Twitter, saat ini telah banyak memberikan dampak besar dalam membangun opini, pandangan, sentimen, dan preferensi politik publik (menjelang Pemilihan Umum) berlangsung.

Penelitian ini dilakukan untuk mengetahui percakapan di Twitter pada debat pertama calon presiden Republik Indonesia melalui hashtag dari kedua pasang calon.

Selain itu, juga untuk mengetahui tentang kecenderungan masyarakat di Twitter terkait dengan debat yang sedang berlangsung tersebut cenderung positif, negatif, atau netral.

Data percakapan di Twitter didapatkan melalui Twitter API yang diambil dengan bahasa Pemrograman R.

Proses analisis sentimen ini menggunakan metode Fined-grained Sentiment Analysis yaitu, Jika satu tweet berisi lebih banyak kalimat positif daripada negatif, maka hasil keseluruhan akan positif dan bernilai (+1).

Jika jumlah kalimat negatif lebih besar dari kalimat positif, maka hasil keseluruhan negatif dan bernilai (-1).

Jika ada jumlah yang sama dari kalimat positif dan negatif dalam paragraf, maka hasilnya adalah netral dan bernilai (0).

Hasil dari penelitian ini menunjukkan bahwa tweet sentimen dari kedua hashtag cenderung positif, lebih banyak daripada sentimen negatif dan netral.
.

Thursday, May 7, 2020

Analisis Sentimen Topik Viral Desa Penari Pada Media Sosial Twitter Dengan Metode Lexicon Based


.
Abstract :

The horror story of Dancer Village in Indonesia is a viral topic that has become a talk of citizens on Twitter social media.

Various responses and public opinions emerged related to the truth of the story of supernatural experiences of students during a Real Work Lecture in an East Java region of Indonesia.

This study conducted a sentiment analysis of community comments on Twitter social media on the viral topic using the Lexicon Based method.

Sentiment classification is divided into 3 classes namely positive, negative and neutral.

The research phase consists of data collection, pre-processing, processing (sentiment analysis) and visualization.

Data collection uses Twitter  Search  API  with  1000  Penari  Desa  keywords in  Indonesian.

The  lexicon  assessment results from 1000 tweets data obtained 33 positive, 767 neutral and 200 negative.

The percentage of tweets containing positive comments by 3.3%, neutral 76.7% and negative by 20%.

Keywords: Dancer Village, Sentiment Analysis, Lexicon Based, Twitter, WorldCloud

Abstrak  : 

Kisah  horor  Desa  Penari  di  Indonesia  merupakan  topik  viral  yang  menjadi perbincangan  warganet pada  media sosial  twitter.

Berbagai  tanggapan dan  opini masyarakat muncul terkait kebenaran cerita pengalaman supranatural mahasiswa saat Kuliah Kerja Nyata di sebuah wilayah Jawa Timur Indonesia.

Penelitian ini melakukan analisis sentimen dari komentar-komentar  masyarakat  pada  media  sosial  Twitter  terhadap  topik  viral  tersebut  menggunakan metode  Lexicon  Based.

Klasifikasi sentimen  dibagi  menjadi  3  kelas yaitu  positif,  negatif  dan netral.  Tahap  penelitian  terdiri dari  pengumpulan  data, prapengolahan,  pengolahan  (analisis sentimen)  dan  visualisasi.

Pengumpulan  data  menggunakan  API  Search  Twitter  dengan  kata kunci  Desa  Penari  sebanyak  1000  buah  komentar  (tweet)  dalam  bahasa  Indonesia.

Hasil penilaian  leksikon dari  1000 data  tweet diperoleh  33 tweet  bernilai positif,  767 tweet  bernilai netral dan  200 tweet negatif. Prosentase tweet berisi komentar positif sebesar 3.3 %, netral 76.7 % dan negatif sebesar 20%. 

Kata Kunci : Desa Penari, Analisis Sentimen, Lexicon Based, Twitter, WorldCloud
.
https://www.researchgate.net/publication/339232872_ANALISIS_SENTIMEN_TOPIK_VIRAL_DESA_PENARI_PADA_MEDIA_SOSIAL_TWITTER_DENGAN_METODE_LEXICON_BASED

Sistem Analisis Sentimen pada Ulasan Produk Menggunakan Metode Naive Bayes


.
Abstract

Sistem analisis sentimen merupakan sistem yang digunakan untuk melakukan proses analisis otomatis pada ulasan produk online bahasa Indonesia untuk memperoleh informasi meliputi informasi sentimen yang merupakan bagian dari ulasan online.

Data tersebut diklasifikasikan menggunakan Naive Bayes.

Sistem analisis sentimen dibagi menjadi 5 (lima) tahap, yaitu crawling, pre-processing, pembobotan kata, pembentukan model dan klasifikasi sentimen.

Pada pembobotan kata digunakan metode TF-IDF (Term Frequency – Inverse Document Frequency).

Data yang ada akan diklasifikasikan ke dalam 5 (lima) kelas, yaitu sangat negatif, negatif, netral, positif dan sangat positif.

Data tersebut kemudian akan dievaluasi menggunakan pengujian confusion matrix dengan parameter akurasi, recall, dan precision.

Hasil pengujian menunjukkan pada pengujian 3 kelas (negatif, netral dan positif) hasil terbaik didapatkan pada 90% data latih dan 10% data uji dengan nilai akurasi 77.78%, recall 93.33% dan precision 77.78% dan pada pengujian 5 kelas hasil terbaik didapatkan pada 90% data latih dan 10% data uji dengan nilai akurasi 59.33 %, recall 58.33 % dan precision 59.33 %.

Hasil prediksi kelas data uji yang relevan dibandingkan antara kelas sentimen yang ditandai supervisor dan kelas sentimen yang dihasilkan oleh sistem analisis sentimen walaupun belum sepenuhnya akurat.

I. PENDAHULUAN

Pada  zaman  modern  ini,  sentimen  atau  opini masyarakat  semakin  bertambah  luas  dan  bebas diungkapkan  di  berbagai media. 

Sentimen  dapat  menjadi potensi  besar  bagi  perusahaan  yang  ingin  mengetahui umpan  balik  (feedback)  dari  masyarakat  terhadap  merk dagang  mereka. 

Merk  telah  dianggap  sebagai  salah  satu asset  tidak  berwujud  (intangible  asset)  yang  paling berharga  dan  manajemen  merk  adalah  prioritas  penting bagi pihak manajemen perusahaan atau organisasi [1].

Jumlah pengguna  (user) aktif dalam komunikasi online memiliki  jumlah  data  yang  sangat  banyak  sehingga memunculkan data  besar (big data).

Munculnya teknologi big  data  yang  merupakan  himpunan  data  dalam  jumlah yang  sangat  besar,  rumit,  dan  tidak  terstruktur  menjadi salah  satu  sumber  daya  besar  yang  dapat  diolah  untuk memperoleh hasil sentimen yang lebih akurat. 

Jumlah review  dan  opini sangat  banyak  sehingga  akan menyulitkan  dan  memakan  waktu  untuk  membaca  secara keseluruhan.

Oleh karena  itu  dapat dirancang sistem yang secara otomatis akan   mengelompokkan  opini dan review yang ada sesuai  kelasnya.  Kelas sentimen dibagi  menjadi kelas  sangat  positif,  positif,  netral,  negatif,  dan  sangat negatif sehingga pengguna dapat membaca memilih ingin membaca opini sesuai yang diinginkan [2].

Sistem analisis  sentimen  yang  dibangun  menggunakan algoritma  klasifikasi  Naive  Bayes. 

Ciri  utama  dari algoritma  Naive  Bayes  adalah  asumsi  yang  sangat  kuat (naif) akan  independensi  dari  masing-masing kondisi atau kejadian  [3]. 

Kelebihan  dari  Naive  Bayes  adalah  proses klasifikasi  data  dapat  disesuaikan  dengan  sifat  dan kebutuhan masing-masing. 

Dengan adanya sistem analisis sentimen ini diharapkan dapat  membantu  perusahaan  mengetahui  umpan  balik terhadap  merk  dagangnya  dan  masyarakat  dalam menilai sebuah produk berdasarkan opini dan review yang ada.

Penelitian  Kristiyanti  [4],  pengkajian  ulang  tentang review  produk  kosmetik  dengan  cara  pengklasifikasian review tersebut  ke dalam class  positif dan negatif.

Teknik klasifikasi  yang  digunakan  untuk  klasifikasi  data  adalah Support  Vector  Machine  (SVM)  dengan  penggabungan metode pemilihan fitur Particle Swarm Optimization  agar bisa meningkatkan akurasi.

Evaluasi pengukuran sebelum dan  sesudah  penambahan  metode  pemilihan  fitur dilakukan  menggunakan  10  Fold  Cross  Validation.

Sedangkan  pengukuran  akurasi diukur  dengan Confusion Matrix  dan  Kurva  ROC. 

Hasil  penelitian  menunjukkan peningkatan  akurasi  Support  Vector  Machine  dari 89.00 % menjadi 97.00 %.

Sipayung,  Maharani  dan  Zefanya  [5]  membuat  sistem analisis  sentimen  menggunakan  metode  Naive  Bayes Classifier (NBC). 

Komentar dibagi  berdasarkan  sentimen positif  dan  negatif,  sehingga  dapat  dievaluasi  kepuasan pelanggan  terhadap  produk  dan  jasa  yang  disediakan secara terkomputerisasi dan spesifik.

Hasil dari penelitian yang dilakukan mendapatkan  enam  kategori  yang ditinjau dengan  55  keyword  kata  benda,  terdapat  120  keyword sentimen  dengan  66  kata  sentimen  positif  dan  54  kata sentimen negatif.

Hasil pengolahan terhadap 175 data latih disimpulkan  bahwa  hasil  klasifikasi  sentimen  yang didapat  adalah  sentimen  positif  sebanyak  155  komentar dan  sentimen  negatif  sebanyak  20  komentar. 

Kategori sentimen positif terbesar adalah kategori kamar sebesar 73 komentar  dan  kategori  dengan  sentimen  negatif  terbesar adalah  kategori  kamar  sebesar  17  komentar. 

Tingkat akurasi  dalam  penentuan  kategori  adalah  sebesar  77.14% dan  75.42%  dalam  penentuan  sentimen  memiliki tingkat precision 99.12% dan recall 72.9%.

Budi  [6]  menyatakan  ada  beberapa  algoritma  yang  di gunakan  untuk  penggalian  dokumen  untuk  analisis sentimen,  salah  satunya  adalah  K-Means. 

Didalam penelitian  ini  algoritma yang  digunakan adalah  K-Means dengan  pembobotan  kata  TF-IDF. 

Dengan  tujuan  untuk mengetahui kinerja algoritma K-Means tanpa seleksi fitur dan  menggunakan  seleksi  fitur  information  gain. 

Hasil penelitian  menunjukkan  bahwa  akurasi  K-Means  dengan dataset digunakan 300  positif  dan 300 negatif   akurasinya 57.83%,  700 dokumen positif dan 700  negatif akurasinya 56.71%%,  1000  dokumen  positif  dan  1000    negatif akurasinya  50.40%%. 

Dari  hasil  pengujian  disimpulkan bahwa  semakin  besar  dataset  yang  digunakan  semakin rendah akurasi K-Means.
.