Thursday, May 7, 2020

Apa Itu Text Mining?


.
Text mining atau penambangan teks merupakan analisis teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang  dapat  mewakili  isi  dari  dokumen  sehingga  dapat  dilakukan  analisa keterhubungan,  keterkaitan  dan  kelas  antar  dokumen  (Leismester,  2015). 

Text mining melingkupi sebuah proses ekstraksi informasi yang terpola yang berasal dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipan teks, atau bahkan sms (Hartanto, 2017).

Dalam aplikasinya di media sosial, text mining di antaranya dapat berupa mencari frekuensi tiap kata dalam kumpulan teks, disebut dengan wordcloud,  dan mengindentifikasi  emosi dalam kumpulan teks,  disebut dengan analisis sentimen.

Pada wordcloud, perhitungan dilakukan  pada setiap kata yang kemudian ditampilkan  dalam  sebuah  gambar  kumpulan  teks  yang  mana  semakin  besar frekuensi suatu  kata, ukuran  kata dalam gambar  tadi juga  akan semakin besar.

Sementara analisis sentimen, yang merupakan bagian dari opinion mining, adalah
riset  komputasional  dari opini,  sentimen, dan  emosi yang  diekspresikan secara tekstual (Liu, 2010).

Setiap kata diidentifikasi dan diklasifikasikan dalam emosi netral, positif, dan negatif.

Analisis sentimen  dilakukan untuk melihat  pendapat terhadap  sebuah  masalah  atau  dapat  juga  digunakan  untuk  identifikasi kecenderungan hal di pasar (Pang, Lee, & Vaithyanathan, 2002).

Sehingga, suatu organisasi/perusahaan/perorangan  ingin  memperoleh  opini  publik  mengenai produk, citra, dan layanannya, maka tidak perlu melakukan survei konvensional dan fokus grup yang mahal biayanya (Putranti & Winarko, 2014).

Text mining sendiri mengacu pada penggunaan teknik data mining untuk menemukan pola-pola penting dalam teks.

Hanya saja, tidak seperti pada kasus-kasus penggunaan data mining, data pada penggunaan text mining lebih terstruktur (Azarbonyad, 2013).

Sementara EDUCBA (n.d.) menjelaskan bahwa data mining atau yang dikenal juga sebagai knowledge discovery of data (KDD) merujuk pada proses mengekstrak informasi dari kumpulan data berjumlah besar, seperti big data.

Data  mining  sering  digunakan  dalam  bidang  statistik,  machine  learning,  dan kecerdasan  buatan  (artificial  intelligence). 

Komponen-komponen  dalam  proses data mining terbagi ke dalam lima level, yaitu
1. pengekstrakan, pengubahan, dan memuat  data  ke  dalam  suatu  wadah; 
2.  penyimpanan  dan  pengelolaan; 
3. penyediaan akses data;
4. proses analisis; dan
5. presentasi hasil ke pengguna dalam sebuah user interface.

Kemudian, big data mengacu pada jumlah data yang sangat besar, baik terstruktur, semi-terstruktur, dan tidak terstruktur.

Big data terdiri atas lima V, yaitu:
1. volume, mengacu pada jumlah atau ukuran data yang bisa mencapai triliunan,
2. variety, mengacu pada tipe data yang tidak seperti  umumnya, seperti media sosial dan log server web,
3. velocity, mengacu pada kecepatan data tersebut untuk bertumbuh, big data akan selalu tumbuh secara eksponensial pada kecepatan yang sangat tinggi,
4. veracity, mengacu pada ketidakpastian data, sebagai contoh pada media sosial yang kebenaran datanya tidak bisa dipastikan, dan
5. value, mengacu pada data yang disimpan dan diproses harus berarti/berharga dan  bagaimana  analis  mendapatkan  manfaat  dari  jumlah  data  yang  besar tersebut.
.
https://www.researchgate.net/publication/334413557_Analisis_Text_Mining_terhadap_BPS_di_Twitter_Menggunakan_R

No comments:

Post a Comment