Friday, July 15, 2011

Sistem Temu Balik Informasi - Tokenisasi dan Removal Stopword in PHP

Dalam preprocessing sebuah berita, terdapat proses tokenisasi dan removal stopword. Tokenisasi adalah pemotongan kata dalam tiap kalimat. Hal ini dilakukan agar tiap kata dapat diketahui frekuensi kemunculan pada suatu berita. Sedangkan stopword removal adalah penghapusan stopword untuk membersihkan hasil tokenisasi dari stopword.
screenshot:




silahkan lihat demonya di sini

download programnya di sini

9 comments:

makasih ya,tulisannya sangat bermanfaat...
^^

mas saya ingin bertanya. bagaimana dengan kata kata majemuk?? sebagai contoh kambing hitam, kupu-kupu malam, kutu loncat dsb... dalam tokenisasi terpisah menjadi 2 bagian kambing dan hitam.. seharusnya kan tetap tergabung 1 kata..

klo kata majemuk seperti itu harus dimasukkan dalam database dulu, dan dibuat pengecualiannya ketika akan ditoken...

Gan, programnya ane kembangin buat skripsi ane ya?

mantab mas...
nmr 2 di gugel

Mas, link nya sudah tidak bisa didownload..
mohon bantuan..
terimakasih
verykurniabakti@gmail.com

mas, link nya tidak bisa di download.. mohon bantuannya.. terima kasih sebelumnya.. titamichi2@gmail.com

mas... link nya ga bisa dibuka...
mohon bantuannya untuk koding programnya..
bisa di bantu ke email unsera.diky@gmail.com