Sistem Temu Balik Informasi - Tokenisasi dan Removal Stopword in PHP

Friday, July 15, 2011

Sistem Temu Balik Informasi - Tokenisasi dan Removal Stopword in PHP

11:32 PM Moh Nugroho Wibowo 9 comments

Dalam preprocessing sebuah berita, terdapat proses tokenisasi dan removal stopword. Tokenisasi adalah pemotongan kata dalam tiap kalimat. Hal ini dilakukan agar tiap kata dapat diketahui frekuensi kemunculan pada suatu berita. Sedangkan stopword removal adalah penghapusan stopword untuk membersihkan hasil tokenisasi dari stopword.
screenshot:

silahkan lihat demonya di sini

download programnya di sini

9 comments:

@nabarianfany says:

Thursday, 24 November, 2011

makasih ya,tulisannya sangat bermanfaat...
^^

Charis says:

Wednesday, 21 December, 2011

mas saya ingin bertanya. bagaimana dengan kata kata majemuk?? sebagai contoh kambing hitam, kupu-kupu malam, kutu loncat dsb... dalam tokenisasi terpisah menjadi 2 bagian kambing dan hitam.. seharusnya kan tetap tergabung 1 kata..