Dalam preprocessing sebuah berita, terdapat proses tokenisasi dan removal stopword. Tokenisasi adalah pemotongan kata dalam tiap kalimat. Hal ini dilakukan agar tiap kata dapat diketahui frekuensi kemunculan pada suatu berita. Sedangkan stopword removal adalah penghapusan stopword untuk membersihkan hasil tokenisasi dari stopword.
screenshot:
silahkan lihat demonya di sini
download programnya di sini
9 comments:
makasih ya,tulisannya sangat bermanfaat...
^^
mas saya ingin bertanya. bagaimana dengan kata kata majemuk?? sebagai contoh kambing hitam, kupu-kupu malam, kutu loncat dsb... dalam tokenisasi terpisah menjadi 2 bagian kambing dan hitam.. seharusnya kan tetap tergabung 1 kata..
klo kata majemuk seperti itu harus dimasukkan dalam database dulu, dan dibuat pengecualiannya ketika akan ditoken...
Gan, programnya ane kembangin buat skripsi ane ya?
mantab mas...
nmr 2 di gugel
Mas, link nya sudah tidak bisa didownload..
mohon bantuan..
terimakasih
verykurniabakti@gmail.com
mas, link nya tidak bisa di download.. mohon bantuannya.. terima kasih sebelumnya.. titamichi2@gmail.com
link mati
mas... link nya ga bisa dibuka...
mohon bantuannya untuk koding programnya..
bisa di bantu ke email unsera.diky@gmail.com
Post a Comment