Saturday, July 16, 2011

Sistem Temu Balik Informasi - Membuat Search Engine (Mbah Gugel)

Dalam membangun search engine, terdapat beberapa proses yaitu: tokenisasi, removal stopword, pembobotan, stemming dan pengambilan keyword. Tokenisasi dan removal stopword sudah saya bahas pada artikel sebelumnya. Pembobotan yang akan digunakan di sini menggunakan TF-IDF (Term Frekuensi - Index Document Frekuensi). Stemming yang akan dilakukan di sini menggunakan algoritma Nazief. Sedangkan pengambilan keyword dilakukan dengan cara mengambil sejumlah persentase kemunculan kata terbesar dari berita.
Program ini adalah program untuk tugas akhir saya dalam mata kuliah STBI. Belum 100% fix, tapi sudah layak memenuhi kriteria sebagai search engine. Keterangan program sudah saya comment pada script PHPnya. Oke, berikut screenshotnya:





Lihat demonya di sini

sumber referensi:
pembobotan TF-IDF: di sini
tampilan Mbah Gugel: di sini
Source code tidak tersedia. Jika berminat bisa hubungi saya di 0856-4948-7381, Pin BB: 314136C0 (digit terakhir angka nol)