NotaRazzi: May 2020

Thursday, May 28, 2020

Mengenal peran sentiment analysis dalam data media sosial beserta cara kerjanya

.
Mengenal peran sentiment analysis dalam data media sosial beserta cara kerjanya
Tsalis Annisa

19 January 2020

Sentiment analysis adalah proses penggunaan text analytics untuk mendapatkan berbagai sumber data dari internet dan beragam platform media sosial. Tujuannya adalah untuk memperoleh opini dari pengguna yang terdapat pada platform tersebut.

Setiap hari, internet dibanjiri oleh miliaran data dari berbagai sumber. Sentiment analysis berperan sebagai alat yang dapat menghubungkan seluruh data tersebut. Dengan begitu, perusahaan dapat memperoleh masukan inti dari pengguna atau konsumen secara efisien.

Sentiment analysis dan peran pentingnya

Dengan sentiment analysis kamu dapat mengetahui opini publik tentang brand kamu

Sentiment analysis merupakan salah satu bidang dari Natural Languange Processing (NLP) yang membangun sistem untuk mengenali dan mengekstraksi opini dalam bentuk teks.

Informasi berbentuk teks saat ini banyak terdapat di internet dalam format forum, blog, media sosial, serta situs berisi review. Dengan bantuan sentiment analysis, informasi yang tadinya tidak terstruktur dapat diubah menjadi data yang lebih terstruktur.

Data tersebut dapat menjelaskan opini masyarakat mengenai produk, merek, layanan, politik, atau topik lainnya. Perusahaan, pemerintah, maupun bidang lainnya kemudian memanfaatkan data-data tersebut untuk membuat analisis marketing, review produk, umpan-balik produk, dan layanan masyarakat.

Guna menghasilkan opini yang dibutuhkan, sentiment analysis tidak hanya harus bisa mengenali opini dari teks. Proses yang juga disebut sebagai opini mining ini juga perlu bekerja dengan mengenali tiga aspek berikut:

Subjek: topik apa yang sedang dibicarakan.
Polaritas: apakah opini yang diberikan bersifat positif atau negatif.
Pemegang opini: seseorang yang mengeluarkan opini tersebut.
Sentiment analysis kemudian akan membedakan teks menjadi dua kategori, yakni fakta dan opini. Fakta merupakan ekspresi objetif mengenai sesuatu. Sementara opini adalah ekpresi subjektif yang menggambarkan sentimen, perasaan, maupun penghargaan terhadap suatu hal.

Baca juga: Kenali macam-macam metode analisis data di sini

Tipe-tipe sentiment analysis

Ada beragam jenis analisis sentimen yang dapat digunakan untuk mengidentifikasi respon pengguna. Mulai untuk melihat polaritas pendapat hingga mengindentifikasi niat pengguna. Beberapa tipe sentiment analysis itu antara lain:

1. Fine-Grained Sentiment Analysis
Analisis sentimen yang satu ini merupakan salah satu jenis yang paling umum. Fokusnya ada pada tingkat polaritas pendapat.

Tipe analisis sentimen ini akan mengelompokkan respon atau pendapat ke dalam beberapa kategori seperti sangat positif, agak positif, netral, agak negatif, dan negatif.

2. Intent Sentiment Analysis
Tipe sentiment analysis berikut bertujuan untuk mengidentifikasi dan menggali lebih dalam motivasi di balik pesan pengguna untuk melihat apakah itu termasuk keluhan, saran, pendapat, pertanyaan atau justru penghargaan terhadap produk atau layananmu.

3. Aspect - Based Sentiment Analysis
Pada tipe analisis sentimen ini kamu dapat berfokus pada elemen-elemen yang lebih spesifik dari produk atau layanan kamu.

Analisis sentimen berbasis aspek ini juga memungkinkanmu menghubungkan sentimen spesifik dengan berbagai aspek produk atau layananmu.

Cara kerja sentiment analysis

Klasifikasi, visualisasi, dan evaluasi adalah tiga cara kerja sentiment analysis dalam mengambil data

Cara kerja sentiment analysis dalam mengambil data dapat dibagi menjadi tiga langkah, yakni klasifikasi, evaluasi, dan visualisasi hasil.

1. Klasifikasi
Pertama, mesin perlu mengklasifikasikan data yang dinilai sebagai opini dari sebuah teks. Ada tiga klasifikasi dalam metode analisis sentimen yang dapat dilakukan, yakni:

Machine learning: fitur-fitur di dalamnya dapat mengenali sentimen (sudut pandang seseorang) dalam sebuah teks. Metode machine learning kini semakin bertambah populer karena dapat dinilai representatif.
Lexicon-based: menggunakan berbagai kata yang dinilai dengan skor polaritas untuk mengetahui tanggapan masyarakat/pengguna/konsumen mengenai suatu topik. Keunggulannya adalah tidak memerlukan data pelatihan, tapi kelemahannya adalah banyak kata yang belum termuat dalam leksikon.
Campuran: menggabungkan metode machine learning dan leksikon. Kendati jarang digunakan, metode ini biasanya memberikan hasil yang lebih menjanjikan.
2. Evaluasi

Setelah data terklasifikasi,metode analisis sentimen berikutnya adalah menggunakan metrik evaluasi seperti Precision, Recall, F-score, dan Accuracy. Proses ini juga melibatkan pengukuran rata-rata seperti makro, mikro, dan skor F1 tertimbang untuk menangani data yang masuk ke dalam dua klasifikasi atau lebih.

Metrik yang digunakan didasarkan pada keseimbangan klasifikasi set data. Secara umum, skemanya adalah sebagai berikut: tinjauan set data, pre-processing, tokenizer, penghapusan stopwords, transformasi, klasifikasi, dan evaluasi.

3. Visualisasi data
Langkah selanjutnya dalam metode analisis sentimen adalah visualisasi data. Visualisasi data dilakukan menggunakan bagan sesuai kebutuhan perusahaan atau siapa saja yang memanfaatkan data-data ini. Sebagian besar orang biasanya menggunakan teknik yang sudah dikenal, seperti grafik, histogram, atau matriks.

Namun, hasil akhir dari sentiment analysis bisa sangat bervariasi. Data yang ada dapat muncul disertai domain lain yang terlibat. Karena itulah, teknik visualisasi data berupa wordcloud, peta interaktif, dan gaya sparkline juga cukup efektif untuk menampilkan hasil analisis.

Baca juga: 5 Buku visualisasi data terbaik dari level pemula hingga profesional

Sentiment analysis adalah metode untuk memperoleh data dari berbagai platform yang tersedia di internet. Kemajuan teknologi memungkinkan mesin untuk mengenali suatu istilah yang dianggap sebagai opini positif maupun sebaliknya.

Data-data dan opini tersebut berperan penting sebagai umpan balik produk, layanan, dan topik lainnya. Tanpa perlu memperoleh opini secara langsung dari masyarakat, pihak penyedia telah mendapatkan evaluasi yang penting guna mengembangkan diri.
.
https://www.ekrut.com/media/sentiment-analysis-adalah

Friday, May 8, 2020

Malay sentiment analysis based on combined classification approaches and Senti-lexicon algorithm

.
Abstract
Sentiment analysis techniques are increasingly exploited to categorize the opinion text to one or more predefined sentiment classes for the creation and automated maintenance of review-aggregation websites.

In this paper, a Malay sentiment analysis classification model is proposed to improve classification performances based on the semantic orientation and machine learning approaches.

First, a total of 2,478 Malay sentiment-lexicon phrases and words are assigned with a synonym and stored with the help of more than one Malay native speaker, and the polarity is manually allotted with a score.

In addition, the supervised machine learning approaches and lexicon knowledge method are combined for Malay sentiment classification with evaluating thirteen features.

Finally, three individual classifiers and a combined classifier are used to evaluate the classification accuracy.

In experimental results, a wide-range of comparative experiments is conducted on a Malay Reviews Corpus (MRC), and it demonstrates that the feature extraction improves the performance of Malay sentiment analysis based on the combined classification.

However, the results depend on three factors, the features, the number of features and the classification approach.

.
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0194852

Perbandingan Metode Lexicon-based dan SVM untuk Analisis Sentimen Berbasis Ontologi pada Kampanye Pilpres Indonesia Tahun 2019 di Twitter

.
Abstrak

Penggunaan media sosial semakin hari semakin meningkat.

Salah satu media sosial yang popular saat ini adalah Twitter.

Menjelang pemilihan Presiden Republik Indonesia semakin banyak tweet yang membahas tentang kegiatan tersebut.

Hal ini menyebabkan topik kampanye pemilu memiliki peluang yang baik untuk dilakukan proses analisis sentimen.

Saat ini, mayoritas analisis sentimen di Indonesia dilakukan hanya menilai sentimen dari kalimat tanpa mengetahui apa entitas yang ada dalam kalimat.

Tujuan penelitian ini yaitu melakukan analisis sentimen dengan pendekatan berbasis ontologi.

Ontologi digunakan dalam menyaring data yang akan digunakan.

Ontologi dalam penelitian ini adalah ekonomi dengan atribut finansial, lapangan kerja, dan kesejahteraan.

Proses analisis sentimen dilakukan dengan metode Lexicon-based dan Support Vector Machine (SVM).

Proses akuisisi data diperoleh sejumlah 700.000 tweet.

Koleksi tersebut diseleksi berdasarkan ontologi ekonomi menghasilkan 16.998 tweet dan dilakukan pelabelan manual sebanyak 1.600.

Kemudian dilakukan pengolahan data hingga diperoleh dataset final sejumlah 1.050 tweet.

Berdasarkan hasil penelitian yang dilakukan akurasi yang diperoleh berdasarkan metode Lexicon-based adalah 39% dan metode SVM sebesar 83%.

Dari penelitian ini diketahui bahwa SVM mempunyai performa yang lebih baik dibandingkan dengan Lexicon-based.

Hasil Lexicon-based menunjukkan bahwa sentimen pada mayoritas atribut berupa netral.

Sedangkan hasil SVM menunjukkan bahwa sentimen pada mayoritas atribut (finansial dan kesejahteraan) berupa positif, sisanya (lapangan kerja) berupa netral.

Selanjutnya, proses ekstraksi dan pembuatan ontologi Bahasa Indonesia secara semi-otomatis pada dataset perlu untuk dikembangkan pada penelitian berikutnya untuk menyempurnakan ontologi.

Kata kunci: Analisis Sentimen, Twitter, Ontology, SVM, Lexicon

.
https://www.researchgate.net/publication/337656037_Perbandingan_Metode_Lexicon-based_dan_SVM_untuk_Analisis_Sentimen_Berbasis_Ontologi_pada_Kampanye_Pilpres_Indonesia_Tahun_2019_di_Twitter

Meringkaskan Sentimen Netizen Menjelang Perbahasan Presiden Indonesia ke-1 menggunakan Analisis Sentimen Lexicon

.
Abstrak.

Twitter adalah salah satu platform media sosial yang popular di Indonesia.

Platform ini telah digunakan sebagai alat komunikasi media dan keterlibatan masyarakat untuk banyak tujuan, terutama dalam bidang politik dan pemerintahan.

Selama proses Pemilihan Presiden Indonesia 2019, banyak orang menggunakan Twitter untuk menyatakan pendapat / sentimen mereka terhadap proses pemilihan.

Dalam makalah ini, kami menyelidiki sifat pendapat orang terhadap Pilihan Raya Presiden Indonesia setelah perbahasan pertama.

Matlamat kajian ini adalah untuk melakukan analisis data Twitter berdasarkan sentimen eksplorasi, dan itu dikumpulkan setelah perbahasan pertama.

Kami menggunakan analisis sentimen leksikon untuk mengira sentimen tweet politik yang dikumpulkan selepas perbahasan pertama.

Pengenalpastian pendapat positif dan negatif dilakukan secara automatik menggunakan kamus yang ada.

Hasil kajian kami menunjukkan bahawa sentimen netizen terhadap perdebatan Presiden ke-1 kebanyakannya negatif.

Sebagai tambahan kepada hasil ini, model ramalan dihasilkan menggunakan CART dan regresi logistik untuk meramalkan sentimen netizen.

Eksperimen ini menunjukkan bahawa ketepatan model ramalan mencapai 90%.

Oleh itu, kajian kami menunjukkan bahawa data Twitter dapat digunakan untuk menganalisis sentimen warganegara terhadap Debat Presiden Indonesia dan dapat menghasilkan model untuk meramalkan sentimen masa depan warganegara menuju perdebatan berikutnya.

.
https://www.researchgate.net/publication/334047064_Summarizing_Netizens'_Sentiments_Towards_the_1_st_Indonesian_Presidential_Debate_using_Lexicon_Sentiment_Analysis

Analisis Sentimen Twitter Debat Calon Presiden Indonesia Menggunakan Metode Fined-Grained Sentiment Analysis

.
Abstrak:

Media sosial, Twitter, saat ini telah banyak memberikan dampak besar dalam membangun opini, pandangan, sentimen, dan preferensi politik publik (menjelang Pemilihan Umum) berlangsung.

Penelitian ini dilakukan untuk mengetahui percakapan di Twitter pada debat pertama calon presiden Republik Indonesia melalui hashtag dari kedua pasang calon.

Selain itu, juga untuk mengetahui tentang kecenderungan masyarakat di Twitter terkait dengan debat yang sedang berlangsung tersebut cenderung positif, negatif, atau netral.

Data percakapan di Twitter didapatkan melalui Twitter API yang diambil dengan bahasa Pemrograman R.

Proses analisis sentimen ini menggunakan metode Fined-grained Sentiment Analysis yaitu, Jika satu tweet berisi lebih banyak kalimat positif daripada negatif, maka hasil keseluruhan akan positif dan bernilai (+1).

Jika jumlah kalimat negatif lebih besar dari kalimat positif, maka hasil keseluruhan negatif dan bernilai (-1).

Jika ada jumlah yang sama dari kalimat positif dan negatif dalam paragraf, maka hasilnya adalah netral dan bernilai (0).

Hasil dari penelitian ini menunjukkan bahwa tweet sentimen dari kedua hashtag cenderung positif, lebih banyak daripada sentimen negatif dan netral.
.

Thursday, May 7, 2020

Analisis Sentimen Topik Viral Desa Penari Pada Media Sosial Twitter Dengan Metode Lexicon Based

.
Abstract :

The horror story of Dancer Village in Indonesia is a viral topic that has become a talk of citizens on Twitter social media.

Various responses and public opinions emerged related to the truth of the story of supernatural experiences of students during a Real Work Lecture in an East Java region of Indonesia.

This study conducted a sentiment analysis of community comments on Twitter social media on the viral topic using the Lexicon Based method.

Sentiment classification is divided into 3 classes namely positive, negative and neutral.

The research phase consists of data collection, pre-processing, processing (sentiment analysis) and visualization.

Data collection uses Twitter Search API with 1000 Penari Desa keywords in Indonesian.

The lexicon assessment results from 1000 tweets data obtained 33 positive, 767 neutral and 200 negative.

The percentage of tweets containing positive comments by 3.3%, neutral 76.7% and negative by 20%.

Keywords: Dancer Village, Sentiment Analysis, Lexicon Based, Twitter, WorldCloud

Abstrak :

Kisah horor Desa Penari di Indonesia merupakan topik viral yang menjadi perbincangan warganet pada media sosial twitter.

Berbagai tanggapan dan opini masyarakat muncul terkait kebenaran cerita pengalaman supranatural mahasiswa saat Kuliah Kerja Nyata di sebuah wilayah Jawa Timur Indonesia.

Penelitian ini melakukan analisis sentimen dari komentar-komentar masyarakat pada media sosial Twitter terhadap topik viral tersebut menggunakan metode Lexicon Based.

Klasifikasi sentimen dibagi menjadi 3 kelas yaitu positif, negatif dan netral. Tahap penelitian terdiri dari pengumpulan data, prapengolahan, pengolahan (analisis sentimen) dan visualisasi.

Pengumpulan data menggunakan API Search Twitter dengan kata kunci Desa Penari sebanyak 1000 buah komentar (tweet) dalam bahasa Indonesia.

Hasil penilaian leksikon dari 1000 data tweet diperoleh 33 tweet bernilai positif, 767 tweet bernilai netral dan 200 tweet negatif. Prosentase tweet berisi komentar positif sebesar 3.3 %, netral 76.7 % dan negatif sebesar 20%.

Kata Kunci : Desa Penari, Analisis Sentimen, Lexicon Based, Twitter, WorldCloud
.
https://www.researchgate.net/publication/339232872_ANALISIS_SENTIMEN_TOPIK_VIRAL_DESA_PENARI_PADA_MEDIA_SOSIAL_TWITTER_DENGAN_METODE_LEXICON_BASED

Sistem Analisis Sentimen pada Ulasan Produk Menggunakan Metode Naive Bayes

.
Abstract

Sistem analisis sentimen merupakan sistem yang digunakan untuk melakukan proses analisis otomatis pada ulasan produk online bahasa Indonesia untuk memperoleh informasi meliputi informasi sentimen yang merupakan bagian dari ulasan online.

Data tersebut diklasifikasikan menggunakan Naive Bayes.

Sistem analisis sentimen dibagi menjadi 5 (lima) tahap, yaitu crawling, pre-processing, pembobotan kata, pembentukan model dan klasifikasi sentimen.

Pada pembobotan kata digunakan metode TF-IDF (Term Frequency – Inverse Document Frequency).

Data yang ada akan diklasifikasikan ke dalam 5 (lima) kelas, yaitu sangat negatif, negatif, netral, positif dan sangat positif.

Data tersebut kemudian akan dievaluasi menggunakan pengujian confusion matrix dengan parameter akurasi, recall, dan precision.

Hasil pengujian menunjukkan pada pengujian 3 kelas (negatif, netral dan positif) hasil terbaik didapatkan pada 90% data latih dan 10% data uji dengan nilai akurasi 77.78%, recall 93.33% dan precision 77.78% dan pada pengujian 5 kelas hasil terbaik didapatkan pada 90% data latih dan 10% data uji dengan nilai akurasi 59.33 %, recall 58.33 % dan precision 59.33 %.

Hasil prediksi kelas data uji yang relevan dibandingkan antara kelas sentimen yang ditandai supervisor dan kelas sentimen yang dihasilkan oleh sistem analisis sentimen walaupun belum sepenuhnya akurat.

I. PENDAHULUAN

Pada zaman modern ini, sentimen atau opini masyarakat semakin bertambah luas dan bebas diungkapkan di berbagai media.

Sentimen dapat menjadi potensi besar bagi perusahaan yang ingin mengetahui umpan balik (feedback) dari masyarakat terhadap merk dagang mereka.

Merk telah dianggap sebagai salah satu asset tidak berwujud (intangible asset) yang paling berharga dan manajemen merk adalah prioritas penting bagi pihak manajemen perusahaan atau organisasi [1].

Jumlah pengguna (user) aktif dalam komunikasi online memiliki jumlah data yang sangat banyak sehingga memunculkan data besar (big data).

Munculnya teknologi big data yang merupakan himpunan data dalam jumlah yang sangat besar, rumit, dan tidak terstruktur menjadi salah satu sumber daya besar yang dapat diolah untuk memperoleh hasil sentimen yang lebih akurat.

Jumlah review dan opini sangat banyak sehingga akan menyulitkan dan memakan waktu untuk membaca secara keseluruhan.

Oleh karena itu dapat dirancang sistem yang secara otomatis akan mengelompokkan opini dan review yang ada sesuai kelasnya. Kelas sentimen dibagi menjadi kelas sangat positif, positif, netral, negatif, dan sangat negatif sehingga pengguna dapat membaca memilih ingin membaca opini sesuai yang diinginkan [2].

Sistem analisis sentimen yang dibangun menggunakan algoritma klasifikasi Naive Bayes.

Ciri utama dari algoritma Naive Bayes adalah asumsi yang sangat kuat (naif) akan independensi dari masing-masing kondisi atau kejadian [3].

Kelebihan dari Naive Bayes adalah proses klasifikasi data dapat disesuaikan dengan sifat dan kebutuhan masing-masing.

Dengan adanya sistem analisis sentimen ini diharapkan dapat membantu perusahaan mengetahui umpan balik terhadap merk dagangnya dan masyarakat dalam menilai sebuah produk berdasarkan opini dan review yang ada.

Penelitian Kristiyanti [4], pengkajian ulang tentang review produk kosmetik dengan cara pengklasifikasian review tersebut ke dalam class positif dan negatif.

Teknik klasifikasi yang digunakan untuk klasifikasi data adalah Support Vector Machine (SVM) dengan penggabungan metode pemilihan fitur Particle Swarm Optimization agar bisa meningkatkan akurasi.

Evaluasi pengukuran sebelum dan sesudah penambahan metode pemilihan fitur dilakukan menggunakan 10 Fold Cross Validation.

Sedangkan pengukuran akurasi diukur dengan Confusion Matrix dan Kurva ROC.

Hasil penelitian menunjukkan peningkatan akurasi Support Vector Machine dari 89.00 % menjadi 97.00 %.

Sipayung, Maharani dan Zefanya [5] membuat sistem analisis sentimen menggunakan metode Naive Bayes Classifier (NBC).

Komentar dibagi berdasarkan sentimen positif dan negatif, sehingga dapat dievaluasi kepuasan pelanggan terhadap produk dan jasa yang disediakan secara terkomputerisasi dan spesifik.

Hasil dari penelitian yang dilakukan mendapatkan enam kategori yang ditinjau dengan 55 keyword kata benda, terdapat 120 keyword sentimen dengan 66 kata sentimen positif dan 54 kata sentimen negatif.

Hasil pengolahan terhadap 175 data latih disimpulkan bahwa hasil klasifikasi sentimen yang didapat adalah sentimen positif sebanyak 155 komentar dan sentimen negatif sebanyak 20 komentar.

Kategori sentimen positif terbesar adalah kategori kamar sebesar 73 komentar dan kategori dengan sentimen negatif terbesar adalah kategori kamar sebesar 17 komentar.

Tingkat akurasi dalam penentuan kategori adalah sebesar 77.14% dan 75.42% dalam penentuan sentimen memiliki tingkat precision 99.12% dan recall 72.9%.

Budi [6] menyatakan ada beberapa algoritma yang di gunakan untuk penggalian dokumen untuk analisis sentimen, salah satunya adalah K-Means.

Didalam penelitian ini algoritma yang digunakan adalah K-Means dengan pembobotan kata TF-IDF.

Dengan tujuan untuk mengetahui kinerja algoritma K-Means tanpa seleksi fitur dan menggunakan seleksi fitur information gain.

Hasil penelitian menunjukkan bahwa akurasi K-Means dengan dataset digunakan 300 positif dan 300 negatif akurasinya 57.83%, 700 dokumen positif dan 700 negatif akurasinya 56.71%%, 1000 dokumen positif dan 1000 negatif akurasinya 50.40%%.

Dari hasil pengujian disimpulkan bahwa semakin besar dataset yang digunakan semakin rendah akurasi K-Means.
.

Analisis Sentimen Penilaian Tempat Tujuan Wisata Kota Tegal Berbasis Text Mining

.
Abstract

Mendapatkan sebuah informasi untuk meningkatkan pelayanan dan strategi dalam pengelolaan tempat kunjungan wisata masih sedikit dan sulit dikarenakan informasi yang didapatkan masih terbatas.

Media sosial memiliki peranan dalam memberikan sebuah data terhadap penilaian kunjungan wisata, sama halnya dengan tempat-tempat wisata yang berada di wilayah Tegal dan sekitarnya.

Pada penelitian ini model sentiment analysis diusulkan sebagai solusi untuk mengatasi permasalahan.

Tujuan dari penelitian ini adalah mencari model sistem untuk memberikan sebuah informasi pendukung keputusan bagi para wisatawan dan pengelola tempat wisata untuk dijadikan sumber informasi terhadap tempat wisata yang ada.

Metode penelitian yang digunakan adalah dengan melakukan eksperimen untuk mendapatkan model yang diharapkan.

Pada penelitian ini metode Naïve Bayes dan Decision Tree diterapkan untuk klasifikasi teks sehingga mendapatkan model terbaik yang dihasilkan untuk diimplementasikan pada sistem sehingga model yang didapatkan dapat dijadikan sebuah sistem pendukung keputusan untuk pengembangan sistem cerdas pada pihak terkait dalam upaya peningkatan nilai jual potensi daerah khususnya bidang pariwisata.

Hasil penelitian menunjukan bahwa model yang didapatkan setelah dilakukan eksperimen didapatkan tingkat akurasi naïve bayes menghasilkan 77,50% lebih baik dibandingkan dengan menggunakan Decision Tree yang menghasilkan tingkat akurasi 60,83%.
.
https://www.researchgate.net/publication/335016505_Analisis_Sentimen_Penilaian_Tempat_Tujuan_Wisata_Kota_Tegal_Berbasis_Text_Mining

Optimasi Suffix Tree Clustering dengan Wordnet dan Named Entity Recognition untuk Pengelompokan Dokumen

.
Abstrak

Semakin meningkatnya jumlah dokumen teks di dunia digital mempengaruhi banyaknya jumlah informasi dan menyebabkan kesulitan dalam proses temu kembali informasi (information retreival).

Clustering dokumen merupakan suatu bidang text mining yang penting dan dapat digunakan untuk mengefisienkan dalam pengelolaan teks serta peringkasan teks.

Namun beberapa permasalahan muncul dalam clustering dokumen teks terutama dalam dokumen berita seperti ambiguitas dalam content, overlapping cluster, dan struktur unik yang terdapat dalam dokumen berita.

Penelitian ini mengusulkan metode baru yaitu optimasi Suffix Tree Clustering (STC) dengan WordNet dan Named Entity Recognition (NER) untuk pengelompokan dokumen.

Metode ini memiliki beberapa tahap, yaitu prepocessing dokumen dengan mengekstraksi named entity serta melakukan deteksi sinonim berdasarkan WordNet.

Tahap kedua adalah pembobotan term dengan tfidf dan nerfidf.

Tahap ketiga adalah melakukan clustering dokumen dengan menggunakan Suffix Tree Clustering.

Berdasarkan pengujian didapatkan rata-rata nilai precision sebesar 79.83%, recall 77.25%, dan f-measure78.30 %.

Kata kunci: Clustering dokumen, Named Entity Recognition, Suffix Tree Clustering, WordNet
.
https://www.researchgate.net/publication/322735269_Optimasi_Suffix_Tree_Clustering_dengan_Wordnet_dan_Named_Entity_Recognition_untuk_Pengelompokan_Dokumen

Text Mining pada Sosial Media untuk Mendeteksi Emosi Pengguna Menggunakan Metode Support Vector Machine dan K-Nearest Neighbour

.
Twitter layanan jejaring sosial dan mikroblog yang memungkinkan penggunanya untuk mengirim dan membaca pesan berbasis teks hingga 140 karakter, yang dikenal dengan sebutan kicauan (tweet).

Sebuah teks pada tweet tidak hanya menyampaikan keterangan dari suatu informasi, tetapi juga berisi informasi tentang perilaku manusia termasuk emosi.

Untuk mendeteksi emosi dari teks pada layanan sosial media twitter dengan data yang tidak terstruktur maka perlu dilakukan analisis teks salah satunya dengan menggunakan Text Mining.

Pada penelitian ini mengusulkan melakukan penelitian text mining pada Sosial Media untuk mendeteksi emosi pengguna.

Deteksi emosi berbasis teks dapat digunakan dalam bisnis, pendidikan, psikologi, dan bidang lain mana pun yang paling penting untuk memahami dan menafsirkan emosi.

Tahapan penelitian ini melalui beberapa tahapan yaitu data. Dari Pengujian yang dilakukan dengan metode Support Vector Machine dan K-Nearest Neighbour dapat menghasilkan nilai rata-rata precision sebesar 0.45640904478933. nilai recall sebesar 0.50199332258158 dan pada nilai accuracy sebesar 0.8140589569161 sedangkan dari metode K-Nearest Neighbour nilai rata-rata precision sebesar 0.34210487225193. nilai recall sebesar 0.45954538381009 dan pada nilai accuracy sebesar 0.79705215419501. hasil dari pengujian dengan metode SVM-KNN menunjukkan bahwa kesesuaian klasifikasi emosi lebih baik daripada metode K-Nearest Neighbour dari keseluruhan kategori emosi.

I. PENDAHULUAN

Data tidak terstruktur banyak terdapat pada layanan sosial media.

Layanan sosial media merupakan penyedia sumber daya yang menyediakan data yang cukup besar.

Media sosial banyak menyita perhatian masyarakat karena dianggap dapat menjadi tempat untk berbagi karya, ide, opini tentang isu-isu yang terjadi secara bebas, dan media untuk mengungkapkan berbagai hal mengenai kehidupan pribadinya.

Salah satu media sosial yang banyak digunakan masyarakat adalah Twitter.

Twitter layanan jejaring sosial dan mikroblog yang memungkinkan penggunanya untuk mengirim dan membaca pesan berbasis teks hingga 140 karakter, yang dikenal dengan sebutan kicauan (tweet)[1].

Sebuah teks pada tweet tidak hanya menyampaikan keterangan dari suatu informasi, tetapi juga berisi informasi tentang perilaku manusia termasuk emosi.

Emosi merupakan keadaan kompleks dari pikiran yang dipengaruhi oleh peristiwa eksternal, perubahan fisiologis, atau hubungan dengan orang lain.

Dengan tidak adanya kontak tatap muka untuk mendeteksi ekspresi wajah dan intonasi dalam suara, opsi alternatifnya adalah menguraikan emosi dari teks di layanan sosial media.

Studi penelitian pendeteksian emosi telah menyelidiki deteksi emosi dalam prosodi, perubahan keadaan fisiologis, ekspresi wajah dan teks.

Namun, ada kekurangan penelitian dalam mendeteksi emosi dari teks dibandingkan dengan area lain dari deteksi emosi [2].

Untuk mendeteksi emosi dari teks pada layanan sosial media twitter dengan data yang tidak terstruktur maka perlu dilakukan analisis teks salah satunya dengan menggunakan Text Mining.

Text mining mencoba untuk mengekstrak informasi yang berguna dari sumber data melalui identifikasi dan eksplorasi dari suatu pola menarik.

Sumber data berupa sekumpulan dokumen dan pola menarik yang tidak ditemukan dalam bentuk database record, tetapi dalam data teks yang tidak terstruktur.

Beberapa penelititan mengenai deteksi emosi telah dilakukan contohnya padap enelitian yang dilakukan Chaitail G. Patil dan Sandip S.Patil menyebutkan penggunaan metode Support Vector Machine dan dataset ISEAR memiliki akurasi tertinggi yaitu 71.64% sedangkan Metode Naive Bayes Classifier akurasinya 60.8% dan yang terendah pada metode Vector Space Model 34.8% dalam untuk Ekstraksi Emosi dari Headline News [3].

Namun Pada penelitianm Arifin and Ketut Eddy Purnama melakukan Klasifikasi Emosi Dalam Teks Bahasa Indonesia menggunakan metode K-Nearest Neighbour.

Pada penelitian yang dilakukan penulis melakukan klasfikasi emosi pada artikel yang ada diinternet kemudian dilakukan pengujian antara metode Naïve Bayes dengan K-Nearest Neighbour.

Hasil dari penelitian tersebut didapat metode K-Nearest Neighbour menghasilkan nilai akurasi 71.26% yang lebih tinggi daripada metode Naïve Bayes dengan nilai akurasi 58.01% [4].

Berdasarkan latar belakang dan beberapa penelitian sebelumnya maka penulis melalui penelitian ini mengusulkan melakukan penelitian implementasi text mining pada Sosial Media untuk mendeteksi emosi pengguna.

Metode klasifikasi yang digunakan yaitu metode Support Vector Machine untuk klasifikasi kelas emosi dan metode K-Nearest Neighbour untuk klasifikasi kategori emosi.

Metode tersebut digunakan karena metode Support Vector Machine memiliki nilai akurasi tertinggi pada penelitian sebelumnya serta Support Vector Machine secara teoritik dikembangkan untuk problem klasifikasi dengan dua class yang sangat tepat untuk klasifikasi kelas emosi[5].

Sedangkan Metode K-Nearest Neighbour digunakan karena pada penelitian sebelumnya K-Nearest Neighbour memiliki akurasi yang lebih tinggi daripada metode Naive Bayes dan Metode K-Nearest Neighbour melakukan pelatihannya sangat cepat dan Efektif jika data pelatihan besar yang sangat cocok dengan penggunaan ISEAR dataset [6].

Deteksi emosi berbasis teks seperti yang disebutkan sebelumnya dapat digunakan dalam bisnis, pendidikan, psikologi, dan bidang lain mana pun yang paling penting untuk memahami dan menafsirkan emosi.

.
https://www.researchgate.net/publication/333020467_Text_Mining_pada_Sosial_Media_untuk_Mendeteksi_Emosi_Pengguna_Menggunakan_Metode_Support_Vector_Machine_dan_K-Nearest_Neighbour

Analisis sentimen pemilihan presiden Indonesia 2019 di twitter dengan mesin vektor sokongan dan berasaskan leksikon (SVM)

.
Perkembangan media sosial saat ini sangat pesat, dan Twitter adalah media sosial yang banyak digunakan oleh orang dalam menyebarkan maklumat, bahkan dalam proses pemilihan presiden media sosial twitter memiliki peranan penting dalam penyebaran maklumat baik atau jahat untuk menjatuhkan seorang calon presiden.

Kajian ini bertujuan untuk menganalisis semua maklumat yang diperoleh dari Twitter untuk mendapatkan nilai positif dan negatif untuk mendapatkan ramalan elektabiliti calon presiden.

Dalam proses klasifikasi, penyelidikan ini menggunakan kaedah lexicon-base dan mesin sokongan vektor (SVM).

Tahap data pra-proses menggunakan penandaan bahagian-ucapan, ujian chi-square, dan mengumpulkan pendapat mengenai entiti (NN & NNP) yang bertujuan untuk mengelakkan penarikan balik yang rendah dari kaedah berasaskan leksikon.

Data yang digunakan mengambil tweet dalam bahasa Indonesia dan bahasa Inggeris dengan beberapa set data dari 2000 tweet dengan pemisahan dua pendapat dari setiap calon presiden.

Dari ketepatan kekutuban, dapatkan nilai dengan kata kunci jokowi untuk mendapatkan nilai positif 24.10%, negatif 38.30% dan neutral 38.30% sementara untuk kata kunci prabowo ia mendapat nilai positif 0.20%, negatif 0.10% dan neutral 0.70%.
.
https://www.researchgate.net/publication/340639755_Sentiment_analysis_of_Indonesian_presisential_election_2019_on_the_twitter_with_lexicon-based_and_support_vector_machine_SVM

Apa Itu Text Mining?

.
Text mining atau penambangan teks merupakan analisis teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan, keterkaitan dan kelas antar dokumen (Leismester, 2015).

Text mining melingkupi sebuah proses ekstraksi informasi yang terpola yang berasal dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipan teks, atau bahkan sms (Hartanto, 2017).

Dalam aplikasinya di media sosial, text mining di antaranya dapat berupa mencari frekuensi tiap kata dalam kumpulan teks, disebut dengan wordcloud, dan mengindentifikasi emosi dalam kumpulan teks, disebut dengan analisis sentimen.

Pada wordcloud, perhitungan dilakukan pada setiap kata yang kemudian ditampilkan dalam sebuah gambar kumpulan teks yang mana semakin besar frekuensi suatu kata, ukuran kata dalam gambar tadi juga akan semakin besar.

Sementara analisis sentimen, yang merupakan bagian dari opinion mining, adalah
riset komputasional dari opini, sentimen, dan emosi yang diekspresikan secara tekstual (Liu, 2010).

Setiap kata diidentifikasi dan diklasifikasikan dalam emosi netral, positif, dan negatif.

Analisis sentimen dilakukan untuk melihat pendapat terhadap sebuah masalah atau dapat juga digunakan untuk identifikasi kecenderungan hal di pasar (Pang, Lee, & Vaithyanathan, 2002).

Sehingga, suatu organisasi/perusahaan/perorangan ingin memperoleh opini publik mengenai produk, citra, dan layanannya, maka tidak perlu melakukan survei konvensional dan fokus grup yang mahal biayanya (Putranti & Winarko, 2014).

Text mining sendiri mengacu pada penggunaan teknik data mining untuk menemukan pola-pola penting dalam teks.

Hanya saja, tidak seperti pada kasus-kasus penggunaan data mining, data pada penggunaan text mining lebih terstruktur (Azarbonyad, 2013).

Sementara EDUCBA (n.d.) menjelaskan bahwa data mining atau yang dikenal juga sebagai knowledge discovery of data (KDD) merujuk pada proses mengekstrak informasi dari kumpulan data berjumlah besar, seperti big data.

Data mining sering digunakan dalam bidang statistik, machine learning, dan kecerdasan buatan (artificial intelligence).

Komponen-komponen dalam proses data mining terbagi ke dalam lima level, yaitu
1. pengekstrakan, pengubahan, dan memuat data ke dalam suatu wadah;
2. penyimpanan dan pengelolaan;
3. penyediaan akses data;
4. proses analisis; dan
5. presentasi hasil ke pengguna dalam sebuah user interface.

Kemudian, big data mengacu pada jumlah data yang sangat besar, baik terstruktur, semi-terstruktur, dan tidak terstruktur.

Big data terdiri atas lima V, yaitu:
1. volume, mengacu pada jumlah atau ukuran data yang bisa mencapai triliunan,
2. variety, mengacu pada tipe data yang tidak seperti umumnya, seperti media sosial dan log server web,
3. velocity, mengacu pada kecepatan data tersebut untuk bertumbuh, big data akan selalu tumbuh secara eksponensial pada kecepatan yang sangat tinggi,
4. veracity, mengacu pada ketidakpastian data, sebagai contoh pada media sosial yang kebenaran datanya tidak bisa dipastikan, dan
5. value, mengacu pada data yang disimpan dan diproses harus berarti/berharga dan bagaimana analis mendapatkan manfaat dari jumlah data yang besar tersebut.
.
https://www.researchgate.net/publication/334413557_Analisis_Text_Mining_terhadap_BPS_di_Twitter_Menggunakan_R

NotaRazzi

What Is Branding?

Are you sure that you got it right?