Thursday, May 28, 2020

Mengenal peran sentiment analysis dalam data media sosial beserta cara kerjanya


.
Mengenal peran sentiment analysis dalam data media sosial beserta cara kerjanya
Tsalis Annisa

19 January 2020


Sentiment analysis adalah proses penggunaan text analytics untuk mendapatkan berbagai sumber data dari internet dan beragam platform media sosial. Tujuannya adalah untuk memperoleh opini dari pengguna yang terdapat pada platform tersebut.

Setiap hari, internet dibanjiri oleh miliaran data dari berbagai sumber. Sentiment analysis berperan sebagai alat yang dapat menghubungkan seluruh data tersebut. Dengan begitu, perusahaan dapat memperoleh masukan inti dari pengguna atau konsumen secara efisien.

Sentiment analysis dan peran pentingnya

Dengan sentiment analysis kamu dapat mengetahui opini publik tentang brand kamu

Sentiment analysis merupakan salah satu bidang dari Natural Languange Processing (NLP) yang membangun sistem untuk mengenali dan mengekstraksi opini dalam bentuk teks.

Informasi berbentuk teks saat ini banyak terdapat di internet dalam format forum, blog, media sosial, serta situs berisi review. Dengan bantuan sentiment analysis, informasi yang tadinya tidak terstruktur dapat diubah menjadi data yang lebih terstruktur.

Data tersebut dapat menjelaskan opini masyarakat mengenai produk, merek, layanan, politik, atau topik lainnya. Perusahaan, pemerintah, maupun bidang lainnya kemudian memanfaatkan data-data tersebut untuk membuat analisis marketing, review produk, umpan-balik produk, dan layanan masyarakat.

Guna menghasilkan opini yang dibutuhkan, sentiment analysis tidak hanya harus bisa mengenali opini dari teks. Proses yang juga disebut sebagai opini mining ini juga perlu bekerja dengan mengenali tiga aspek berikut:

Subjek: topik apa yang sedang dibicarakan.
Polaritas: apakah opini yang diberikan bersifat positif atau negatif.
Pemegang opini: seseorang yang mengeluarkan opini tersebut.
Sentiment analysis kemudian akan membedakan teks menjadi dua kategori, yakni fakta dan opini. Fakta merupakan ekspresi objetif mengenai sesuatu. Sementara opini adalah ekpresi subjektif yang menggambarkan sentimen, perasaan, maupun penghargaan terhadap suatu hal.

Baca juga: Kenali macam-macam metode analisis data di sini

Tipe-tipe sentiment analysis


Ada beragam jenis analisis sentimen yang dapat digunakan untuk mengidentifikasi respon pengguna. Mulai untuk melihat polaritas pendapat hingga mengindentifikasi niat pengguna. Beberapa tipe sentiment analysis itu antara lain:

1. Fine-Grained Sentiment Analysis
Analisis sentimen yang satu ini merupakan salah satu jenis yang paling umum. Fokusnya ada pada tingkat polaritas pendapat.

Tipe analisis sentimen ini akan mengelompokkan respon atau pendapat ke dalam beberapa kategori seperti sangat positif, agak positif, netral, agak negatif, dan negatif.

2. Intent Sentiment Analysis
Tipe sentiment analysis berikut bertujuan untuk mengidentifikasi dan menggali lebih dalam motivasi  di balik pesan pengguna untuk melihat apakah itu termasuk keluhan, saran, pendapat, pertanyaan atau justru penghargaan terhadap produk atau layananmu.

3. Aspect - Based Sentiment Analysis
Pada tipe analisis sentimen ini kamu dapat berfokus pada elemen-elemen yang lebih spesifik dari produk atau layanan kamu.

Analisis sentimen berbasis aspek ini juga memungkinkanmu menghubungkan sentimen spesifik dengan berbagai aspek produk atau layananmu.

Cara kerja sentiment analysis

Klasifikasi, visualisasi, dan evaluasi adalah tiga cara kerja sentiment analysis dalam mengambil data

Cara kerja sentiment analysis dalam mengambil data dapat dibagi menjadi tiga langkah, yakni klasifikasi, evaluasi, dan visualisasi hasil.

1. Klasifikasi
Pertama, mesin perlu mengklasifikasikan data yang dinilai sebagai opini dari sebuah teks. Ada tiga klasifikasi dalam metode analisis sentimen yang dapat dilakukan, yakni:

Machine learning: fitur-fitur di dalamnya dapat mengenali sentimen (sudut pandang seseorang) dalam sebuah teks. Metode machine learning kini semakin bertambah populer karena dapat dinilai representatif.
Lexicon-based: menggunakan berbagai kata yang dinilai dengan skor polaritas untuk mengetahui tanggapan masyarakat/pengguna/konsumen mengenai suatu topik. Keunggulannya adalah tidak memerlukan data pelatihan, tapi kelemahannya adalah banyak kata yang belum termuat dalam leksikon.
Campuran: menggabungkan metode machine learning dan leksikon. Kendati jarang digunakan, metode ini biasanya memberikan hasil yang lebih menjanjikan.
2. Evaluasi

Setelah data terklasifikasi,metode analisis sentimen berikutnya adalah menggunakan metrik evaluasi seperti Precision, Recall, F-score, dan Accuracy. Proses ini juga melibatkan pengukuran rata-rata seperti makro, mikro, dan skor F1 tertimbang untuk menangani data yang masuk ke dalam dua klasifikasi atau lebih.

Metrik yang digunakan didasarkan pada keseimbangan klasifikasi set data. Secara umum, skemanya adalah sebagai berikut: tinjauan set data, pre-processing, tokenizer, penghapusan stopwords, transformasi, klasifikasi, dan evaluasi.

3. Visualisasi data
Langkah selanjutnya dalam metode analisis sentimen adalah visualisasi data. Visualisasi data dilakukan menggunakan bagan sesuai kebutuhan perusahaan atau siapa saja yang memanfaatkan data-data ini. Sebagian besar orang biasanya menggunakan teknik yang sudah dikenal, seperti grafik, histogram, atau matriks.

Namun, hasil akhir dari sentiment analysis bisa sangat bervariasi. Data yang ada dapat muncul disertai domain lain yang terlibat. Karena itulah, teknik visualisasi data berupa wordcloud, peta interaktif, dan gaya sparkline juga cukup efektif untuk menampilkan hasil analisis.

Baca juga: 5 Buku visualisasi data terbaik dari level pemula hingga profesional

Sentiment analysis adalah metode untuk memperoleh data dari berbagai platform yang tersedia di internet. Kemajuan teknologi memungkinkan mesin untuk mengenali suatu istilah yang dianggap sebagai opini positif maupun sebaliknya.

Data-data dan opini tersebut berperan penting sebagai umpan balik produk, layanan, dan topik lainnya. Tanpa perlu memperoleh opini secara langsung dari masyarakat, pihak penyedia telah mendapatkan evaluasi yang penting guna mengembangkan diri.
.
https://www.ekrut.com/media/sentiment-analysis-adalah

Friday, May 8, 2020

Malay sentiment analysis based on combined classification approaches and Senti-lexicon algorithm


.
Abstract
Sentiment analysis techniques are increasingly exploited to categorize the opinion text to one or more predefined sentiment classes for the creation and automated maintenance of review-aggregation websites.

In this paper, a Malay sentiment analysis classification model is proposed to improve classification performances based on the semantic orientation and machine learning approaches.

First, a total of 2,478 Malay sentiment-lexicon phrases and words are assigned with a synonym and stored with the help of more than one Malay native speaker, and the polarity is manually allotted with a score.

In addition, the supervised machine learning approaches and lexicon knowledge method are combined for Malay sentiment classification with evaluating thirteen features.

Finally, three individual classifiers and a combined classifier are used to evaluate the classification accuracy.

In experimental results, a wide-range of comparative experiments is conducted on a Malay Reviews Corpus (MRC), and it demonstrates that the feature extraction improves the performance of Malay sentiment analysis based on the combined classification.

However, the results depend on three factors, the features, the number of features and the classification approach.

.
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0194852

Perbandingan Metode Lexicon-based dan SVM untuk Analisis Sentimen Berbasis Ontologi pada Kampanye Pilpres Indonesia Tahun 2019 di Twitter


.
Abstrak 

Penggunaan media sosial semakin hari semakin meningkat.

Salah satu media sosial yang popular saat ini adalah Twitter. 

Menjelang  pemilihan Presiden Republik Indonesia semakin banyak tweet yang membahas tentang kegiatan tersebut.

Hal ini menyebabkan topik kampanye pemilu memiliki peluang yang baik untuk dilakukan proses analisis sentimen.

Saat ini, mayoritas analisis sentimen di Indonesia dilakukan hanya menilai sentimen dari kalimat tanpa mengetahui apa entitas yang ada dalam kalimat.

Tujuan penelitian ini yaitu  melakukan  analisis sentimen dengan pendekatan  berbasis ontologi. 

Ontologi  digunakan dalam menyaring data yang akan digunakan.

Ontologi dalam penelitian ini adalah ekonomi dengan atribut finansial, lapangan kerja, dan kesejahteraan.

Proses analisis sentimen dilakukan dengan metode Lexicon-based dan Support Vector  Machine (SVM).

Proses akuisisi data diperoleh sejumlah 700.000 tweet.

Koleksi tersebut diseleksi berdasarkan ontologi ekonomi menghasilkan 16.998 tweet dan dilakukan pelabelan manual sebanyak 1.600.

Kemudian dilakukan pengolahan data hingga diperoleh dataset final sejumlah 1.050 tweet.

Berdasarkan hasil penelitian yang dilakukan akurasi yang diperoleh berdasarkan metode Lexicon-based adalah 39% dan metode SVM sebesar 83%.

Dari penelitian ini diketahui bahwa SVM mempunyai performa yang lebih baik dibandingkan dengan Lexicon-based.

Hasil Lexicon-based menunjukkan bahwa sentimen pada mayoritas atribut berupa netral.

Sedangkan hasil SVM menunjukkan bahwa sentimen pada mayoritas atribut (finansial dan kesejahteraan) berupa positif, sisanya (lapangan kerja) berupa netral.

Selanjutnya, proses ekstraksi dan pembuatan ontologi Bahasa Indonesia secara semi-otomatis  pada dataset perlu untuk dikembangkan pada penelitian berikutnya untuk menyempurnakan ontologi. 

Kata kunci: Analisis Sentimen, Twitter, Ontology, SVM, Lexicon

.
https://www.researchgate.net/publication/337656037_Perbandingan_Metode_Lexicon-based_dan_SVM_untuk_Analisis_Sentimen_Berbasis_Ontologi_pada_Kampanye_Pilpres_Indonesia_Tahun_2019_di_Twitter

Meringkaskan Sentimen Netizen Menjelang Perbahasan Presiden Indonesia ke-1 menggunakan Analisis Sentimen Lexicon


.
Abstrak.

Twitter adalah salah satu platform media sosial yang popular di Indonesia.

Platform ini telah digunakan sebagai alat komunikasi media dan keterlibatan masyarakat untuk banyak tujuan, terutama dalam bidang politik dan pemerintahan.

Selama proses Pemilihan Presiden Indonesia 2019, banyak orang menggunakan Twitter untuk menyatakan pendapat / sentimen mereka terhadap proses pemilihan.

Dalam makalah ini, kami menyelidiki sifat pendapat orang terhadap Pilihan Raya Presiden Indonesia setelah perbahasan pertama.

Matlamat kajian ini adalah untuk melakukan analisis data Twitter berdasarkan sentimen eksplorasi, dan itu dikumpulkan setelah perbahasan pertama.

Kami menggunakan analisis sentimen leksikon untuk mengira sentimen tweet politik yang dikumpulkan selepas perbahasan pertama.

Pengenalpastian pendapat positif dan negatif dilakukan secara automatik menggunakan kamus yang ada.

Hasil kajian kami menunjukkan bahawa sentimen netizen terhadap perdebatan Presiden ke-1 kebanyakannya negatif.

Sebagai tambahan kepada hasil ini, model ramalan dihasilkan menggunakan CART dan regresi logistik untuk meramalkan sentimen netizen.

Eksperimen ini menunjukkan bahawa ketepatan model ramalan mencapai 90%.

Oleh itu, kajian kami menunjukkan bahawa data Twitter dapat digunakan untuk menganalisis sentimen warganegara terhadap Debat Presiden Indonesia dan dapat menghasilkan model untuk meramalkan sentimen masa depan warganegara menuju perdebatan berikutnya.

.
https://www.researchgate.net/publication/334047064_Summarizing_Netizens'_Sentiments_Towards_the_1_st_Indonesian_Presidential_Debate_using_Lexicon_Sentiment_Analysis

Analisis Sentimen Twitter Debat Calon Presiden Indonesia Menggunakan Metode Fined-Grained Sentiment Analysis


.
Abstrak:

Media sosial, Twitter, saat ini telah banyak memberikan dampak besar dalam membangun opini, pandangan, sentimen, dan preferensi politik publik (menjelang Pemilihan Umum) berlangsung.

Penelitian ini dilakukan untuk mengetahui percakapan di Twitter pada debat pertama calon presiden Republik Indonesia melalui hashtag dari kedua pasang calon.

Selain itu, juga untuk mengetahui tentang kecenderungan masyarakat di Twitter terkait dengan debat yang sedang berlangsung tersebut cenderung positif, negatif, atau netral.

Data percakapan di Twitter didapatkan melalui Twitter API yang diambil dengan bahasa Pemrograman R.

Proses analisis sentimen ini menggunakan metode Fined-grained Sentiment Analysis yaitu, Jika satu tweet berisi lebih banyak kalimat positif daripada negatif, maka hasil keseluruhan akan positif dan bernilai (+1).

Jika jumlah kalimat negatif lebih besar dari kalimat positif, maka hasil keseluruhan negatif dan bernilai (-1).

Jika ada jumlah yang sama dari kalimat positif dan negatif dalam paragraf, maka hasilnya adalah netral dan bernilai (0).

Hasil dari penelitian ini menunjukkan bahwa tweet sentimen dari kedua hashtag cenderung positif, lebih banyak daripada sentimen negatif dan netral.
.

Thursday, May 7, 2020

Analisis Sentimen Topik Viral Desa Penari Pada Media Sosial Twitter Dengan Metode Lexicon Based


.
Abstract :

The horror story of Dancer Village in Indonesia is a viral topic that has become a talk of citizens on Twitter social media.

Various responses and public opinions emerged related to the truth of the story of supernatural experiences of students during a Real Work Lecture in an East Java region of Indonesia.

This study conducted a sentiment analysis of community comments on Twitter social media on the viral topic using the Lexicon Based method.

Sentiment classification is divided into 3 classes namely positive, negative and neutral.

The research phase consists of data collection, pre-processing, processing (sentiment analysis) and visualization.

Data collection uses Twitter  Search  API  with  1000  Penari  Desa  keywords in  Indonesian.

The  lexicon  assessment results from 1000 tweets data obtained 33 positive, 767 neutral and 200 negative.

The percentage of tweets containing positive comments by 3.3%, neutral 76.7% and negative by 20%.

Keywords: Dancer Village, Sentiment Analysis, Lexicon Based, Twitter, WorldCloud

Abstrak  : 

Kisah  horor  Desa  Penari  di  Indonesia  merupakan  topik  viral  yang  menjadi perbincangan  warganet pada  media sosial  twitter.

Berbagai  tanggapan dan  opini masyarakat muncul terkait kebenaran cerita pengalaman supranatural mahasiswa saat Kuliah Kerja Nyata di sebuah wilayah Jawa Timur Indonesia.

Penelitian ini melakukan analisis sentimen dari komentar-komentar  masyarakat  pada  media  sosial  Twitter  terhadap  topik  viral  tersebut  menggunakan metode  Lexicon  Based.

Klasifikasi sentimen  dibagi  menjadi  3  kelas yaitu  positif,  negatif  dan netral.  Tahap  penelitian  terdiri dari  pengumpulan  data, prapengolahan,  pengolahan  (analisis sentimen)  dan  visualisasi.

Pengumpulan  data  menggunakan  API  Search  Twitter  dengan  kata kunci  Desa  Penari  sebanyak  1000  buah  komentar  (tweet)  dalam  bahasa  Indonesia.

Hasil penilaian  leksikon dari  1000 data  tweet diperoleh  33 tweet  bernilai positif,  767 tweet  bernilai netral dan  200 tweet negatif. Prosentase tweet berisi komentar positif sebesar 3.3 %, netral 76.7 % dan negatif sebesar 20%. 

Kata Kunci : Desa Penari, Analisis Sentimen, Lexicon Based, Twitter, WorldCloud
.
https://www.researchgate.net/publication/339232872_ANALISIS_SENTIMEN_TOPIK_VIRAL_DESA_PENARI_PADA_MEDIA_SOSIAL_TWITTER_DENGAN_METODE_LEXICON_BASED

Sistem Analisis Sentimen pada Ulasan Produk Menggunakan Metode Naive Bayes


.
Abstract

Sistem analisis sentimen merupakan sistem yang digunakan untuk melakukan proses analisis otomatis pada ulasan produk online bahasa Indonesia untuk memperoleh informasi meliputi informasi sentimen yang merupakan bagian dari ulasan online.

Data tersebut diklasifikasikan menggunakan Naive Bayes.

Sistem analisis sentimen dibagi menjadi 5 (lima) tahap, yaitu crawling, pre-processing, pembobotan kata, pembentukan model dan klasifikasi sentimen.

Pada pembobotan kata digunakan metode TF-IDF (Term Frequency – Inverse Document Frequency).

Data yang ada akan diklasifikasikan ke dalam 5 (lima) kelas, yaitu sangat negatif, negatif, netral, positif dan sangat positif.

Data tersebut kemudian akan dievaluasi menggunakan pengujian confusion matrix dengan parameter akurasi, recall, dan precision.

Hasil pengujian menunjukkan pada pengujian 3 kelas (negatif, netral dan positif) hasil terbaik didapatkan pada 90% data latih dan 10% data uji dengan nilai akurasi 77.78%, recall 93.33% dan precision 77.78% dan pada pengujian 5 kelas hasil terbaik didapatkan pada 90% data latih dan 10% data uji dengan nilai akurasi 59.33 %, recall 58.33 % dan precision 59.33 %.

Hasil prediksi kelas data uji yang relevan dibandingkan antara kelas sentimen yang ditandai supervisor dan kelas sentimen yang dihasilkan oleh sistem analisis sentimen walaupun belum sepenuhnya akurat.

I. PENDAHULUAN

Pada  zaman  modern  ini,  sentimen  atau  opini masyarakat  semakin  bertambah  luas  dan  bebas diungkapkan  di  berbagai media. 

Sentimen  dapat  menjadi potensi  besar  bagi  perusahaan  yang  ingin  mengetahui umpan  balik  (feedback)  dari  masyarakat  terhadap  merk dagang  mereka. 

Merk  telah  dianggap  sebagai  salah  satu asset  tidak  berwujud  (intangible  asset)  yang  paling berharga  dan  manajemen  merk  adalah  prioritas  penting bagi pihak manajemen perusahaan atau organisasi [1].

Jumlah pengguna  (user) aktif dalam komunikasi online memiliki  jumlah  data  yang  sangat  banyak  sehingga memunculkan data  besar (big data).

Munculnya teknologi big  data  yang  merupakan  himpunan  data  dalam  jumlah yang  sangat  besar,  rumit,  dan  tidak  terstruktur  menjadi salah  satu  sumber  daya  besar  yang  dapat  diolah  untuk memperoleh hasil sentimen yang lebih akurat. 

Jumlah review  dan  opini sangat  banyak  sehingga  akan menyulitkan  dan  memakan  waktu  untuk  membaca  secara keseluruhan.

Oleh karena  itu  dapat dirancang sistem yang secara otomatis akan   mengelompokkan  opini dan review yang ada sesuai  kelasnya.  Kelas sentimen dibagi  menjadi kelas  sangat  positif,  positif,  netral,  negatif,  dan  sangat negatif sehingga pengguna dapat membaca memilih ingin membaca opini sesuai yang diinginkan [2].

Sistem analisis  sentimen  yang  dibangun  menggunakan algoritma  klasifikasi  Naive  Bayes. 

Ciri  utama  dari algoritma  Naive  Bayes  adalah  asumsi  yang  sangat  kuat (naif) akan  independensi  dari  masing-masing kondisi atau kejadian  [3]. 

Kelebihan  dari  Naive  Bayes  adalah  proses klasifikasi  data  dapat  disesuaikan  dengan  sifat  dan kebutuhan masing-masing. 

Dengan adanya sistem analisis sentimen ini diharapkan dapat  membantu  perusahaan  mengetahui  umpan  balik terhadap  merk  dagangnya  dan  masyarakat  dalam menilai sebuah produk berdasarkan opini dan review yang ada.

Penelitian  Kristiyanti  [4],  pengkajian  ulang  tentang review  produk  kosmetik  dengan  cara  pengklasifikasian review tersebut  ke dalam class  positif dan negatif.

Teknik klasifikasi  yang  digunakan  untuk  klasifikasi  data  adalah Support  Vector  Machine  (SVM)  dengan  penggabungan metode pemilihan fitur Particle Swarm Optimization  agar bisa meningkatkan akurasi.

Evaluasi pengukuran sebelum dan  sesudah  penambahan  metode  pemilihan  fitur dilakukan  menggunakan  10  Fold  Cross  Validation.

Sedangkan  pengukuran  akurasi diukur  dengan Confusion Matrix  dan  Kurva  ROC. 

Hasil  penelitian  menunjukkan peningkatan  akurasi  Support  Vector  Machine  dari 89.00 % menjadi 97.00 %.

Sipayung,  Maharani  dan  Zefanya  [5]  membuat  sistem analisis  sentimen  menggunakan  metode  Naive  Bayes Classifier (NBC). 

Komentar dibagi  berdasarkan  sentimen positif  dan  negatif,  sehingga  dapat  dievaluasi  kepuasan pelanggan  terhadap  produk  dan  jasa  yang  disediakan secara terkomputerisasi dan spesifik.

Hasil dari penelitian yang dilakukan mendapatkan  enam  kategori  yang ditinjau dengan  55  keyword  kata  benda,  terdapat  120  keyword sentimen  dengan  66  kata  sentimen  positif  dan  54  kata sentimen negatif.

Hasil pengolahan terhadap 175 data latih disimpulkan  bahwa  hasil  klasifikasi  sentimen  yang didapat  adalah  sentimen  positif  sebanyak  155  komentar dan  sentimen  negatif  sebanyak  20  komentar. 

Kategori sentimen positif terbesar adalah kategori kamar sebesar 73 komentar  dan  kategori  dengan  sentimen  negatif  terbesar adalah  kategori  kamar  sebesar  17  komentar. 

Tingkat akurasi  dalam  penentuan  kategori  adalah  sebesar  77.14% dan  75.42%  dalam  penentuan  sentimen  memiliki tingkat precision 99.12% dan recall 72.9%.

Budi  [6]  menyatakan  ada  beberapa  algoritma  yang  di gunakan  untuk  penggalian  dokumen  untuk  analisis sentimen,  salah  satunya  adalah  K-Means. 

Didalam penelitian  ini  algoritma yang  digunakan adalah  K-Means dengan  pembobotan  kata  TF-IDF. 

Dengan  tujuan  untuk mengetahui kinerja algoritma K-Means tanpa seleksi fitur dan  menggunakan  seleksi  fitur  information  gain. 

Hasil penelitian  menunjukkan  bahwa  akurasi  K-Means  dengan dataset digunakan 300  positif  dan 300 negatif   akurasinya 57.83%,  700 dokumen positif dan 700  negatif akurasinya 56.71%%,  1000  dokumen  positif  dan  1000    negatif akurasinya  50.40%%. 

Dari  hasil  pengujian  disimpulkan bahwa  semakin  besar  dataset  yang  digunakan  semakin rendah akurasi K-Means.
.

Analisis Sentimen Penilaian Tempat Tujuan Wisata Kota Tegal Berbasis Text Mining


.
Abstract

Mendapatkan sebuah informasi untuk meningkatkan pelayanan dan strategi dalam pengelolaan tempat kunjungan wisata masih sedikit dan sulit dikarenakan informasi yang didapatkan masih terbatas.

Media sosial memiliki peranan dalam memberikan sebuah data terhadap penilaian kunjungan wisata, sama halnya dengan tempat-tempat wisata yang berada di wilayah Tegal dan sekitarnya.

Pada penelitian ini model sentiment analysis diusulkan sebagai solusi untuk mengatasi permasalahan.

Tujuan dari penelitian ini adalah mencari model sistem untuk memberikan sebuah informasi pendukung keputusan bagi para wisatawan dan pengelola tempat wisata untuk dijadikan sumber informasi terhadap tempat wisata yang ada.

Metode penelitian yang digunakan adalah dengan melakukan eksperimen untuk mendapatkan model yang diharapkan.


Pada penelitian ini metode Naïve Bayes dan Decision Tree diterapkan untuk klasifikasi teks sehingga mendapatkan model terbaik yang dihasilkan untuk diimplementasikan pada sistem sehingga model yang didapatkan dapat dijadikan sebuah sistem pendukung keputusan untuk pengembangan sistem cerdas pada pihak terkait dalam upaya peningkatan nilai jual potensi daerah khususnya bidang pariwisata.

Hasil penelitian menunjukan bahwa model yang didapatkan setelah dilakukan eksperimen didapatkan tingkat akurasi naïve bayes menghasilkan 77,50% lebih baik dibandingkan dengan menggunakan Decision Tree yang menghasilkan tingkat akurasi 60,83%.
.
https://www.researchgate.net/publication/335016505_Analisis_Sentimen_Penilaian_Tempat_Tujuan_Wisata_Kota_Tegal_Berbasis_Text_Mining

Optimasi Suffix Tree Clustering dengan Wordnet dan Named Entity Recognition untuk Pengelompokan Dokumen


.
Abstrak

Semakin meningkatnya jumlah dokumen teks di dunia digital mempengaruhi banyaknya jumlah informasi dan menyebabkan kesulitan dalam proses temu kembali informasi (information retreival).

Clustering dokumen merupakan suatu bidang text mining yang penting dan dapat digunakan untuk mengefisienkan dalam pengelolaan teks serta peringkasan teks.

Namun beberapa permasalahan muncul dalam clustering dokumen teks terutama dalam dokumen berita seperti ambiguitas dalam content, overlapping cluster, dan struktur unik yang terdapat dalam dokumen berita.

Penelitian ini mengusulkan metode baru yaitu optimasi Suffix Tree Clustering (STC) dengan WordNet dan Named Entity Recognition (NER) untuk pengelompokan dokumen.

Metode ini memiliki beberapa tahap, yaitu prepocessing dokumen dengan mengekstraksi named entity serta melakukan deteksi sinonim berdasarkan WordNet.

Tahap kedua adalah pembobotan term dengan tfidf dan nerfidf.

Tahap ketiga adalah melakukan clustering dokumen dengan menggunakan Suffix Tree Clustering.

Berdasarkan pengujian didapatkan rata-rata nilai precision sebesar 79.83%, recall 77.25%, dan f-measure78.30 %.

Kata kunci: Clustering dokumen, Named Entity Recognition, Suffix Tree Clustering, WordNet
.
https://www.researchgate.net/publication/322735269_Optimasi_Suffix_Tree_Clustering_dengan_Wordnet_dan_Named_Entity_Recognition_untuk_Pengelompokan_Dokumen

Text Mining pada Sosial Media untuk Mendeteksi Emosi Pengguna Menggunakan Metode Support Vector Machine dan K-Nearest Neighbour


.
Twitter layanan jejaring sosial dan mikroblog yang memungkinkan penggunanya untuk mengirim dan membaca pesan berbasis teks hingga 140 karakter, yang dikenal dengan sebutan kicauan (tweet).

Sebuah teks pada tweet tidak hanya menyampaikan keterangan dari suatu informasi, tetapi juga berisi informasi tentang perilaku manusia termasuk emosi.

Untuk mendeteksi emosi dari teks pada layanan sosial media twitter dengan data yang tidak terstruktur maka perlu dilakukan analisis teks salah satunya dengan menggunakan Text Mining.

Pada penelitian ini mengusulkan melakukan penelitian text mining pada Sosial Media untuk mendeteksi emosi pengguna.

Deteksi emosi berbasis teks dapat digunakan dalam bisnis, pendidikan, psikologi, dan bidang lain mana pun yang paling penting untuk memahami dan menafsirkan emosi.

Tahapan penelitian ini melalui beberapa tahapan yaitu data. Dari Pengujian yang dilakukan dengan metode Support Vector Machine dan K-Nearest Neighbour dapat menghasilkan nilai rata-rata precision sebesar 0.45640904478933. nilai recall sebesar 0.50199332258158 dan pada nilai accuracy sebesar 0.8140589569161 sedangkan dari metode K-Nearest Neighbour nilai rata-rata precision sebesar 0.34210487225193. nilai recall sebesar 0.45954538381009 dan pada nilai accuracy sebesar 0.79705215419501. hasil dari pengujian dengan metode SVM-KNN menunjukkan bahwa kesesuaian klasifikasi emosi lebih baik daripada metode K-Nearest Neighbour dari keseluruhan kategori emosi.



I. PENDAHULUAN

Data tidak terstruktur banyak terdapat pada layanan sosial media. 

Layanan  sosial  media  merupakan  penyedia  sumber daya yang menyediakan data yang cukup besar.

Media sosial banyak menyita perhatian masyarakat karena dianggap dapat menjadi tempat untk berbagi karya, ide, opini tentang isu-isu yang terjadi  secara bebas, dan media untuk  mengungkapkan berbagai  hal  mengenai  kehidupan  pribadinya. 

Salah  satu media  sosial  yang  banyak  digunakan  masyarakat  adalah Twitter. 

Twitter  layanan  jejaring  sosial  dan  mikroblog  yang memungkinkan penggunanya untuk mengirim dan membaca pesan berbasis teks hingga 140 karakter, yang dikenal dengan sebutan kicauan (tweet)[1].

Sebuah  teks  pada  tweet  tidak  hanya  menyampaikan keterangan dari  suatu informasi,  tetapi  juga berisi informasi tentang perilaku manusia termasuk emosi.

Emosi merupakan keadaan  kompleks  dari  pikiran  yang  dipengaruhi  oleh peristiwa  eksternal,  perubahan  fisiologis,  atau  hubungan dengan orang lain. 

Dengan  tidak adanya kontak  tatap muka untuk  mendeteksi  ekspresi  wajah  dan intonasi  dalam  suara, opsi  alternatifnya  adalah  menguraikan  emosi  dari  teks  di layanan  sosial  media. 

Studi  penelitian  pendeteksian  emosi telah  menyelidiki  deteksi  emosi  dalam  prosodi,  perubahan keadaan  fisiologis,  ekspresi  wajah  dan  teks. 

Namun,  ada kekurangan  penelitian  dalam  mendeteksi  emosi  dari  teks dibandingkan dengan area lain dari deteksi emosi [2].

Untuk  mendeteksi  emosi  dari  teks  pada  layanan  sosial media twitter dengan data  yang tidak  terstruktur maka  perlu dilakukan  analisis  teks  salah  satunya  dengan  menggunakan Text  Mining.

Text  mining  mencoba  untuk  mengekstrak informasi yang berguna dari sumber data melalui identifikasi dan eksplorasi dari suatu pola menarik.

Sumber  data berupa sekumpulan dokumen dan pola menarik yang tidak ditemukan dalam  bentuk  database record,  tetapi  dalam  data  teks  yang tidak terstruktur.

Beberapa  penelititan  mengenai  deteksi  emosi  telah dilakukan contohnya padap enelitian yang dilakukan Chaitail G. Patil dan Sandip S.Patil  menyebutkan penggunaan metode Support Vector Machine dan dataset ISEAR memiliki akurasi tertinggi  yaitu  71.64%  sedangkan  Metode  Naive  Bayes Classifier akurasinya 60.8% dan yang terendah pada metode Vector Space Model 34.8% dalam untuk Ekstraksi Emosi dari Headline News [3].

Namun Pada penelitianm Arifin and Ketut Eddy  Purnama  melakukan  Klasifikasi  Emosi  Dalam  Teks Bahasa Indonesia menggunakan metode K-Nearest Neighbour.

Pada penelitian yang dilakukan penulis melakukan klasfikasi emosi  pada artikel  yang  ada  diinternet  kemudian dilakukan pengujian  antara  metode  Naïve  Bayes  dengan  K-Nearest Neighbour.

Hasil  dari penelitian tersebut  didapat metode K-Nearest Neighbour menghasilkan nilai akurasi 71.26% yang lebih tinggi daripada metode Naïve Bayes dengan nilai akurasi 58.01% [4].

Berdasarkan  latar  belakang  dan  beberapa  penelitian sebelumnya maka penulis melalui penelitian ini mengusulkan melakukan  penelitian  implementasi text  mining  pada  Sosial Media untuk mendeteksi emosi pengguna.

Metode klasifikasi yang digunakan yaitu metode Support Vector Machine untuk klasifikasi  kelas  emosi  dan  metode  K-Nearest  Neighbour untuk klasifikasi kategori emosi. 

Metode tersebut  digunakan karena metode Support Vector Machine memiliki nilai akurasi tertinggi  pada  penelitian  sebelumnya  serta  Support  Vector Machine  secara  teoritik  dikembangkan  untuk  problem klasifikasi  dengan  dua  class  yang  sangat  tepat  untuk klasifikasi  kelas  emosi[5].

Sedangkan  Metode  K-Nearest Neighbour digunakan  karena pada penelitian sebelumnya K-Nearest  Neighbour  memiliki  akurasi  yang  lebih  tinggi daripada  metode  Naive  Bayes  dan  Metode  K-Nearest Neighbour melakukan  pelatihannya sangat cepat dan  Efektif jika  data  pelatihan  besar  yang  sangat  cocok  dengan penggunaan ISEAR  dataset [6]. 

Deteksi emosi berbasis teks seperti  yang disebutkan sebelumnya dapat  digunakan  dalam bisnis, pendidikan, psikologi, dan bidang lain mana pun yang paling penting untuk memahami dan menafsirkan emosi.


.
https://www.researchgate.net/publication/333020467_Text_Mining_pada_Sosial_Media_untuk_Mendeteksi_Emosi_Pengguna_Menggunakan_Metode_Support_Vector_Machine_dan_K-Nearest_Neighbour

Analisis sentimen pemilihan presiden Indonesia 2019 di twitter dengan mesin vektor sokongan dan berasaskan leksikon (SVM)


.
Perkembangan media sosial saat ini sangat pesat, dan Twitter adalah media sosial yang banyak digunakan oleh orang dalam menyebarkan maklumat, bahkan dalam proses pemilihan presiden media sosial twitter memiliki peranan penting dalam penyebaran maklumat baik atau jahat untuk menjatuhkan seorang calon presiden.

Kajian ini bertujuan untuk menganalisis semua maklumat yang diperoleh dari Twitter untuk mendapatkan nilai positif dan negatif untuk mendapatkan ramalan elektabiliti calon presiden.

Dalam proses klasifikasi, penyelidikan ini menggunakan kaedah lexicon-base dan mesin sokongan vektor (SVM).

Tahap data pra-proses menggunakan penandaan bahagian-ucapan, ujian chi-square, dan mengumpulkan pendapat mengenai entiti (NN & NNP) yang bertujuan untuk mengelakkan penarikan balik yang rendah dari kaedah berasaskan leksikon.

Data yang digunakan mengambil tweet dalam bahasa Indonesia dan bahasa Inggeris dengan beberapa set data dari 2000 tweet dengan pemisahan dua pendapat dari setiap calon presiden.

Dari ketepatan kekutuban, dapatkan nilai dengan kata kunci jokowi untuk mendapatkan nilai positif 24.10%, negatif 38.30% dan neutral 38.30% sementara untuk kata kunci prabowo ia mendapat nilai positif 0.20%, negatif 0.10% dan neutral 0.70%.
.
https://www.researchgate.net/publication/340639755_Sentiment_analysis_of_Indonesian_presisential_election_2019_on_the_twitter_with_lexicon-based_and_support_vector_machine_SVM

Apa Itu Text Mining?


.
Text mining atau penambangan teks merupakan analisis teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang  dapat  mewakili  isi  dari  dokumen  sehingga  dapat  dilakukan  analisa keterhubungan,  keterkaitan  dan  kelas  antar  dokumen  (Leismester,  2015). 

Text mining melingkupi sebuah proses ekstraksi informasi yang terpola yang berasal dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipan teks, atau bahkan sms (Hartanto, 2017).

Dalam aplikasinya di media sosial, text mining di antaranya dapat berupa mencari frekuensi tiap kata dalam kumpulan teks, disebut dengan wordcloud,  dan mengindentifikasi  emosi dalam kumpulan teks,  disebut dengan analisis sentimen.

Pada wordcloud, perhitungan dilakukan  pada setiap kata yang kemudian ditampilkan  dalam  sebuah  gambar  kumpulan  teks  yang  mana  semakin  besar frekuensi suatu  kata, ukuran  kata dalam gambar  tadi juga  akan semakin besar.

Sementara analisis sentimen, yang merupakan bagian dari opinion mining, adalah
riset  komputasional  dari opini,  sentimen, dan  emosi yang  diekspresikan secara tekstual (Liu, 2010).

Setiap kata diidentifikasi dan diklasifikasikan dalam emosi netral, positif, dan negatif.

Analisis sentimen  dilakukan untuk melihat  pendapat terhadap  sebuah  masalah  atau  dapat  juga  digunakan  untuk  identifikasi kecenderungan hal di pasar (Pang, Lee, & Vaithyanathan, 2002).

Sehingga, suatu organisasi/perusahaan/perorangan  ingin  memperoleh  opini  publik  mengenai produk, citra, dan layanannya, maka tidak perlu melakukan survei konvensional dan fokus grup yang mahal biayanya (Putranti & Winarko, 2014).

Text mining sendiri mengacu pada penggunaan teknik data mining untuk menemukan pola-pola penting dalam teks.

Hanya saja, tidak seperti pada kasus-kasus penggunaan data mining, data pada penggunaan text mining lebih terstruktur (Azarbonyad, 2013).

Sementara EDUCBA (n.d.) menjelaskan bahwa data mining atau yang dikenal juga sebagai knowledge discovery of data (KDD) merujuk pada proses mengekstrak informasi dari kumpulan data berjumlah besar, seperti big data.

Data  mining  sering  digunakan  dalam  bidang  statistik,  machine  learning,  dan kecerdasan  buatan  (artificial  intelligence). 

Komponen-komponen  dalam  proses data mining terbagi ke dalam lima level, yaitu
1. pengekstrakan, pengubahan, dan memuat  data  ke  dalam  suatu  wadah; 
2.  penyimpanan  dan  pengelolaan; 
3. penyediaan akses data;
4. proses analisis; dan
5. presentasi hasil ke pengguna dalam sebuah user interface.

Kemudian, big data mengacu pada jumlah data yang sangat besar, baik terstruktur, semi-terstruktur, dan tidak terstruktur.

Big data terdiri atas lima V, yaitu:
1. volume, mengacu pada jumlah atau ukuran data yang bisa mencapai triliunan,
2. variety, mengacu pada tipe data yang tidak seperti  umumnya, seperti media sosial dan log server web,
3. velocity, mengacu pada kecepatan data tersebut untuk bertumbuh, big data akan selalu tumbuh secara eksponensial pada kecepatan yang sangat tinggi,
4. veracity, mengacu pada ketidakpastian data, sebagai contoh pada media sosial yang kebenaran datanya tidak bisa dipastikan, dan
5. value, mengacu pada data yang disimpan dan diproses harus berarti/berharga dan  bagaimana  analis  mendapatkan  manfaat  dari  jumlah  data  yang  besar tersebut.
.
https://www.researchgate.net/publication/334413557_Analisis_Text_Mining_terhadap_BPS_di_Twitter_Menggunakan_R

Thursday, January 16, 2020

A Systematic Review of Emoji: Current Research and Future Perspectives


.
Abstract
A growing body of research explores emoji, which are visual symbols in computer mediated communication (CMC). In the 20 years since the first set of emoji was released, research on it has been on the increase, albeit in a variety of directions. We reviewed the extant body of research on emoji and noted the development, usage, function, and application of emoji. In this review article, we provide a systematic review of the extant body of work on emoji, reviewing how they have developed, how they are used differently, what functions they have and what research has been conducted on them in different domains. Furthermore, we summarize directions for future research on this topic.
.

.


Computer Science

Research in the field has focused on using emoji for emotional analysis of UGC data, the conversion of emoji to other expression modality, and using emoji for optimizing computer systems.

UGC=User-Generated Content.

Sentiment Analysis

With the significant growth of UGC data on the Internet, sentiment analysis which aims at changing this data into valuable asset for decision making, has become increasingly important (Al-Azani et al., 2018). As emoji are widely used in expressing emotions, they have become an effective means of sentiment analysis (Hogenboom et al., 2013; Cappallo et al., 2015). A number of studies have confirmed the effective performance of emoji in sentiment analysis (Sari et al., 2014; Cahyaningtyas et al., 2017; Felbo et al., 2017; LeCompte and Chen, 2017). Besides, emoji-based sentiment analysis is language-independent and exhibits cross-language validity (Guthier et al., 2017), for example, Al-Azani et al. (2018) found that emoji can also be used in analyzing the sentiment of Arabic tweets. However, other studies have shown that using emoji in sentiment analysis leads to higher emotional scores, and that this effect is more pronounced in positive comments (Ayvaz and Shiha, 2017).

Many studies have provided algorithms and models for emoji-based sentiment analysis, which mainly uses two kinds of techniques, sentiment lexicon, and machine learning.

The sentiment lexicon method

The sentiment lexicon approach focuses on building an emoji emotional lexicon to support text sentiment analysis. By human annotating, Petra et al. (2015) has classified 751 commonly used emoji and built an emoji lexicon based on the positivity of emoji. But because there are so many emoji, some researchers have come up with ways to build emoji dictionaries automatically.

Jiang et al. (2015) proposed an emoticon space model to automatically match emotional tags for emoji. Kimura and Katsurai (2017) assigned multi-dimensional emotional vectors to emoji by calculating the co-occurrence frequency of emoji and emotional words in WordNet-Affect. Aoki and Uchida (2011) have also automatically generated emoji vectors based on the relationship between emotional words and emoji. By using the Word2Vec clustering method, Mayank et al. (2016) divided emoji into clusters which represent different human emotions.

The machine learning method

The machine learning method refers to train sentiment classifiers based on a corpus in order to analyze the sentiments of text (Wang et al., 2012). Machine learning can be divided into supervised learning and unsupervised learning. They are different in that the former needs a human annotated corpus while the latter doesn’t.

The effectiveness of using emoji as a way of training classifiers has been proven (Hallsmar and Palm, 2016) and furthermore it has been shown that emoji outperform emoticons (Redmond et al., 2017). An example of supervised learning is the emoticon smoothed language model (ESLAM) proposed by Liu et al. (2012), which classifies twitter based on a model trained by a human annotated corpus.

A lot of research has focused on unsupervised learning (Li et al., 2018), and constructed sentiment analysis models trained automatically using emoji data sets. Chen Y. et al. (2018) trained sentiment classifiers by via bi-sense emoji embedding and attention-based long short-term memory network (LSTM) in order to analyze the sentiment of messages on Twitter. Wang et al. (2016) designed a hybrid sentimental entity recognition model (HSERM), which classifies emoji into four different emotional categories, and then categorizes the emotional data based on the model. Some research has focused on the ironic features of emoji and developed an irony detection model for emoji in order to improve the accuracy of sentiment analysis of tweets (Reyes et al., 2013; Prasad et al., 2017; Singh et al., 2019).

Modality Transitions


The visual features and Unicode basis of emoji make them anindependent expressive modality that is different from text andpictures (Cappallo et al., 2019). A lot of research focuses onconversion between emoji and other modalities such as text,picture and video.

For example, Emoji2Video offers a way to search for videosusing emoji (Cappallo et al., 2015). Later research has focusedon the shift from other modalities to emoji. Because of thecorrelation between emotional categories in text and users’ emojiselections, Hayati and Muis (2019) and Zanzotto and Santilli(2018) proposed two different ways to predict emoji based ontext. Kim et al. (2019) developed Reeboc, which can analyze chatcontent, extract different emotions or topics, and then, based onthis, recommend emoji to users. The practice of text-based emojiprediction has also been validated in other languages, such asHebrew (Liebeskind et al., 2019).

System Optimization

Emoji have played a role in improving the performance of computer hardware and software. For example, emoji can be used to achieve diverse in-car interaction design. In order to optimize the functions of the central rear-view mirror, researchers suggest that passengers emotions can be fed back to the driver through emoji and other elements, which can enhance mutual understanding between driver and back-seat passenger (Chao et al., 2019).

Furthermore, emoji can also be applied in the area of password security. Kraus et al. (2017) came up with the EmojiAuth project, exploring how the use of emoji affects the availability of mobile authentication and user experience by adding emoji into passwords. Compared with the Standard PIN (Personal Identification Number) input, a password containing emoji is easier to remember and, thus, emoji-based authentication is a practical alternative to traditional PIN authentication.
.
https://www.researchgate.net/publication/336561000_A_Systematic_Review_of_Emoji_Current_Research_and_Future_Perspectives

What is ideograms


.
What is ideograms?
An ideogram or ideograph (from Greek ἰδέα idéa "idea" and γράφω gráphō "to write") is a graphic symbol that represents an idea or concept, independent of any particular language, and specific words or phrases. Some ideograms are comprehensible only by familiarity with prior convention; others convey their meaning through pictorial resemblance to a physical object, and thus may also be referred to as pictograms.

.
https://en.wikipedia.org/wiki/Ideogram