Thursday, August 16, 2012

Implementasi dan Demo Pohon Keputusan ID3 dan C4.5 menggunakan PHP

DATA MINING
Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basis data.
Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar.
Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika.
Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Berawal dari beberapa disiplin ilmu, data mining bertujuan untuk memperbaiki teknik tradisional sehingga bisa menangani:
- Jumlah data yang sangat besar
- Dimensi data yang tinggi
- Data yang heterogen dan berbeda bersifat

Menurut para ahli, data mining merupakan sebuah analisa dari observasi data dalam jumlah besar untuk menemukan hubungan yang tidak diketahui sebelumnya dan metode baru untuk meringkas data agar mudah dipahami serta kegunaannya untuk pemilik data.
Data-data yang ada, tidak dapat langsung diolah dengan menggunakan sistem data mining. Data-data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses persiapan data ini sendiri dapat mencapai 60 % dari keseluruhan proses dalam data mining. Adapun tahapan-tahapan yang harus dilalui dalam proses data mining antara lain:
1. Data cleaning, untuk membersihkan data dari noise data dan data yang tidak konsiten.
2. Data integration, mengkombinasikan atau mengintegrasikan beberapa sumber data.
3. Data selection, mengambil data-data yang relevan dari database untuk dianalisis.
4. Data transformation, mentransformasikan data summary ataupun operasi agregasi.
5. Data mining, merupakan proses yang esensial dimana metode digunakan untuk mengekstrak pola data yang tersembunyi.
6. Pattern evaluation, untuk mengidentifikasi pola sehingga mereperesentasikan pengetahuan berdasarkan nilai-nilai yang menarik
7. Knowledge presentation, dimana teknik representasi dan visualisasi data digunakan untuk mempresentasikan pengetahuan yang didadapat kepada user.
Gambar: Tahap-tahap Data Mining

Teknik Data mining
Ada banyak jenis teknik analisa yang dapat digolongkan dalam data mining. Namun ada tiga teknik data mining yang popular, yaitu:
1. Association Rule Mining
Association rule mining adalah teknik mining untuk menemukan aturan asosiatif antara suatu kombinasi atribut. Contoh dari aturan asosiatif dari analisa pembelian di suatu pasar swalayan diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang strategi pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu.
2. Klasifikasi
Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa pohon keputusan, formula matematis atau neural network.
Proses klasifikasi biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.
3. Clustering
Berbeda dengan association rule mining dan klasifikasi dimana kelas data telah ditentukan sebelumnya, clustering melakukan pengelompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar cluster. Clustering dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.

POHON KEPUTUSAN
Salah satu metode data mining yang umum digunakan adalah pohon keputusan. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan rule. Pohon keputusan adalah salah satu metode klasifikasi yang paling popular karena mudah untuk diinterpretasi oleh manusia. Konsep dari pohon keputusan adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan.

Gambar: Konsep Pohon Keputusan

Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan tree
Gambar: Konsep Data dalam Pohon Keputusan

Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule. Manfaat utama dari penggunaan pohon keputusan adalah kemampuannya untuk membreak down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan. Pohon Keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.
Pohon keputusan merupakan himpunan aturan IF...THEN. Setiap path dalam tree dihubungkan dengan sebuah aturan, di mana premis terdiri atas sekumpulan node-node yang ditemui, dan kesimpulan dari aturam terdiri atas kelas yang terhubung dengan leaf dari path.
Gambar: Konsep Dasar Pohon Keputusan

Bagian awal dari pohon keputusan ini adalah titik akar (root), sedangkan setiap cabang dari pohon keputusan merupakan pembagian berdasarkan hasil uji, dan titik akhir (leaf) merupakan pembagian kelas yang dihasilkan.
Pohon keputusan mempunyai 3 tipe simpul yaitu:
1. Simpul akar, dimana tidak memiliki cabang yang masuk dan memiliki cabang lebih dari satu, terkadang tidak memiliki cabang sama sekali. Simpul ini biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu.
2. Simpul internal, dimana hanya memiliki 1 cabang yang masuk, dan memiliki lebih dari 1 cabang yang keluar.
3. Simpul daun, atau simpul akhir dimana hanya memiliki 1 cabang yang masuk, dan tidak memiliki cabang sama sekali dan menandai bahwa simpul tersebut merupakan label kelas.

Tahap awal dilakukan pengujian simpul akar, jika pada pengujian simpul akar menghasilkan sesuatu maka proses pengujian juga dilakukan pada setiap cabang berdasarkan hasil dari pengujian. Hal ini berlaku juga untuk simpul internal dimana suatu kondisi pengujian baru akan diterapkan pada simpul daun. Pada umumnya proses dari sistem pohon keputusan adalah mengadopsi strategi pencarian top-down untuk solusi ruang pencariannya. Pada proses mengklasifikasikan sampel yang tidak diketahui, nilai atribut akan diuji pada pohon keputusan dengan cara melacak jalur dari titik akar sampai titik akhir, kemudian akan diprediksikan kelas yang ditempati sampel baru tersebut.
Pohon keputusan banyak digunakan dalam proses data mining karena memiliki beberapa kelebihan, yaitu:
1. Tidak memerlukan biaya yang mahal saat membangun algoritma.
2. Mudah untuk diinterpetasikan.
3. Mudah mengintegrasikan dengan sistem basis data.
4. Memiliki nilai ketelitian yang lebih baik.
5. Dapat menemukan hubungan tak terduga dan suatu data.
6. Dapat menggunakan data pasti/mutlak atau data kontinu.
7. Mengakomodasi data yang hilang.

Berikut contoh penerapan pohon keputusan dalam memprediksi kelayakan kredit:

Dari pohon tersebut diketahui bahwa pemohon yang layak menerima kredit adalah pemohon yang penghasilannya sama dengan 2- 3x angsuran dan kepemilikan rumahnya milik sendiri.
Pohon keputusan banyak mengalami perkembangan, beberapa algoritma yang populer dan sering dipakai adalah Pohon Keputusan ID3 dan C4.5. Tabel berikut menunjukkan frekuensi pemakaian dari bermacam-macam algoritma pohon keputusan:
Tabel: Frekuensi Penggunaan Algoritma Pohon Keputusan

Pohon Keputusan ID3
Algoritma Pohon Keputusan ID3 atau Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang digunakan untuk membuat pohon keputusan yang telah dikembangkan oleh J. Ross Quinlan sejak tahun 1986. Algoritma pada metode ini menggunakan konsep dari entropy informasi. Algoritma ini melakukan pencarian secara rakus/menyeluruh (greedy) pada semua kemungkinan pohon keputusan.
Secara ringkas, langkah kerja Algoritma ID3 dapat digambarkan sebagai berikut:
1. Hitung Entropy dan Information gain dari setiap atribut dengan menggunakan rumus:


Dimana:
S = ruang (data) sample yang digunakan untuk training.
P+ = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu.
P- = jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu.


Dimana:
S = ruang (data) sample yang digunakan untuk training.
A = atribut.
V = suatu nilai yang mungkin untuk atribut A.
Nilai(A) = himpunan yang mungkin untuk atribut A.
|Sv| = jumlah sample untuk nilai V.
|S| = jumlah seluruh sample data.
Entropy(Sv) = entropy untuk sample-sample yang memiliki nilai V.
Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang akan dijadikan cabang pada pembentukan pohon keputusan. Pilih atribut yang memiliki nilai information gain terbesar.
2. Bentuk simpul yang berisi atribut tersebut.
3. Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai semua data telah termasuk dalam kelas yang sama. Atribut yang telah dipilih tidak diikutkan lagi dalam perhitungan nilai information gain.

ID3 berhenti jika atribut sempurna mengklasifikasikan training sets. Atau secara rekursif mengoperasikan nilai n, dimana n adalah banyaknya nilai kemungkinan dari suatu untuk mendapatkan atribut terbaik.
Adapun sample data yang digunakan oleh ID3 memiliki beberapa syarat, yaitu:
- Deskripsi atribut-nilai. Atribut yang sama harus mendeskripsikan tiap contoh dan memiliki jumlah nilai yang sudah ditentukan.
- Kelas yang sudah didefinisikan sebelumnya. Suatu atribut contoh harus sudah didefinisikan, karena mereka tidak dipelajari oleh ID3.
- Kelas-kelas yang diskrit. Kelas harus digambarkan dengan jelas. Kelas yang kontinu dipecah-pecah menjadi kategori-kategori yang relatif, misalnya saja metal dikategorikan menjadi “hard, quite hard, flexible, soft, quite soft”.
- Jumlah contoh (example) yang cukup. Karena pembangkitan induktif digunakan, maka dibutuhkan test case yang cukup untuk membedakan pola yang valid dari peluang suatu kejadian.

Pohon Keputusan C4.5
Algoritma Pohon Keputusan C4.5 atau Classification version 4.5 adalah pengembangan dari algoritma ID3. Oleh karena pengembangan tersebut, algoritma C4.5 mempunyai prinsip dasar kerja yang sama dengan algoritma ID3. Perbedaan utama C4.5 dari ID3 adalah:
- C4.5 dapat menangani atribut kontinyu dan diskrit.
- C4.5 dapat menangani training data dengan missing value.
- Hasil pohon keputusan C4.5 akan dipangkas setelah dibentuk.
- Pemilihan atribut yang dilakukan dengan menggunakan Gain Ratio.
Information gain pada ID3 lebih mengutamakan pengujian yang menghasilkan banyak keluaran. Dengan kata lain, atribut yang memiliki banyak nilailah yang dipilih sebagai splitting atribut. Sebagai contoh, pembagian terhadap atribut yang berfungsi sebagai unique identifier, seperti product_ID¸ akan menghasilkan keluaran dalam jumlah yang banyak, di mana setiap keluaran hanya terdiri dari satu tuple. Partisi semacam ini tentu saja bersifat pure, sehingga informasi yang dibutuhkan untuk mengklasifikasi D berdasarkan partisi seperti ini adalah sebesar Infoproduct_ID(D) = 0. Sebagai akibatnya, information gain yang dimiliki atribut product_ID menjadi maksimal. Padahal, jelas sekali terlihat bahwa partisi semacam ini tidaklah berguna.

Karena itu algoritma C4.5 yang merupakan suksesor dari ID3 menggunakan gain ratio untuk memperbaiki information gain, dengan rumus gain ratio:


Dimana:
S = ruang (data) sample yang digunakan untuk training.
A = atribut.
Gain(S,A) = information gain pada atribut A
SplitInfo(S,A) = split information pada atribut A
Atribut dengan nilai Gain Ratio tertinggi dipilih sebagai atribut test untuk simpul. Dengan gain adalah information gain. Pendekatan ini menerapkan normalisasi pada information gain dengan menggunakan apa yang disebut sebagai split information. SplitInfo menyatakan entropy atau informasi potensial dengan rumus:


Dimana:
S = ruang (data) sample yang digunakan untuk training.
A = atribut.
Si = jumlah sample untuk atribut i

Pada saat pembangunan pohon keputusan, banyaknya cabang mungkin mencerminkan adanya noise atau outlier pada training data. Pemangkasan pohon dapat dilakukan untuk mengenali dan menghapus cabang-cabang tersebut. Pohon yang dipangkas akan menjadi lebih kecil dan lebih mudah dipahami. Pohon semacam itu biasanya juga menjadi lebih cepat dan lebih baik dalam melakukan klasifikasi.
Ada dua metode dalam melakukan pemangkasan dalam pohon keputusan, yaitu:
a. Prepruning yaitu menghentikan pembangunan suatu subtree lebih awal, yaitu dengan memutuskan untuk tidak lebih jauh mempartisi data training. Pada pendekatan prepruning, sebuah pohon dipangkas dengan cara menghentikan pembangunannya jika partisi yang akan dibuat dianggap tidak signifikan.
b. Postpruning yaitu menyederhanakan pohon dengan cara membuang beberapa cabang subtree setelah pohon selesai dibangun. Metode postpruning ini merupakan metode standard untuk algoritma C4.5.
Gambar: Pohon keputusan sebelum dan setelah dipangkas

Pemangkasan pohon juga dapat digunakan untuk mengatasi overfitting. Overfitting terjadi karena ada noise data training, yaitu data yang tidak relevan sehingga mengakibatkan pohon memiliki subtree yang panjang dan tidak seimbang. Misal internal node memiliki kelas YA = 5 dan TIDAK = 1. Data yang berada pada kelas TIDAK merupakan noise, sehingga apabila data tersebut diolah akan menghasilkan pohon dengan subtree yang panjang. Overfitting juga dapat terjadi karena data training yang sedikit.

Post Pruning - Reduced Error Prunning (REP)
Reduced Error Pruning merupakan salah satu algoritma postpruning. Algoritma ini membagi data menjadi dua, yaitu training data dan test data. Training data adalah data yang digunakan untuk membentuk pohon keputusan, sedangkan test data digunakan untuk menghitung nilai error rate pada pohon setelah dipangkas.
Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node paling bawah ke atas. Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node yang memiliki kelas yang dominan muncul. Setelah itu test data diproses menggunakan rule hasil pemangkasan, kemudian dihitung nilai error ratenya. Test data juga diproses dengan rule awal, yaitu rule yang terbentuk sebelum pohon dipangkas, kemudian dihitung nilai error ratenya. Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil, maka pemangkasan dilakukan.

Pre Prunning
Prepruning yaitu menghentikan pembangunan suatu subtree lebih awal, yaitu dengan memutuskan untuk tidak lebih jauh mempartisi data training. Rumus prepruning:

IMPLEMENTASI POHON KEPUTUSAN ID3 DAN C4.5
Program sederhana yang saya buat ini menggunakan bahasa pemrograman PHP dengan studi kasus untuk identifikasi kelayakan kredit. Contoh yang saya buat menggunakan data survey (data training) sebanyak 14 record dengan atribut: penghasilan, pekerjaan, sikap di lingkungan, dan kepemilikan rumah. Kelas dari data tersebut adalah layak dan tidak layak. Berikut data surveynya:

Program yang saya buat ini sudah saya bandingkan  dengan menggunakan software WEKA dan hasilnya 100% akurat.   Berikut screenshot perbandingannya:
Gambar: Pohon Keputusan ID3 dan C4.5 yang digenerate oleh Aplikasi

Gambar: Pohon Keputusan ID3 yang digenerate oleh WEKA

Gambar: Pohon Keputusan C4.5 yang digenerate oleh WEKA

Implementasi program ini dapat diakses online di: Demo Pohon Keputusan ID3 dan C4.5. (Link Download tidak tersedia)
Jurnal dan paper bisa dilihat di: Materi dan Jurnal Pohon Keputusan

Menerima jasa pembuatan skripsi tugas akhir informatika menggunakan Pohon Keputusan ID3 dan C4.5. Jika berminat bisa hubungi saya di 0856-4948-7381, Pin BB: 314136C0 (digit terakhir angka nol) atau cek di http://www.kaskus.co.id/post/525d43c0a1cb17a447000005

Beberapa Aplikasi yang pernah saya kerjakan diantaranya :
1. Identifikasi Kelayakan Kredit menggunakan Pohon Keputusan ID3 dan C4.5 (Juni 2012)
2. Pemilihan Beasiswa menggunakan metode SMARTER dan Pohon Keputusan ID3 (Januari 2013)
3. Pengukuran Kinerja menggunakan Kriteria CRM Scorecard dan Metode ANP (Januari 2013)
4. Pengelompokan Tingkatan Kelas Siswa menggunakan Indeks Davies-Bouldin SOM (Self Organizing Map) (Januari 2013)
5. Klasifikasi Data Medis dengan Algoritma Classification And Regression Trees (CART) (Mei 2013)
6. Klasifikasi Jamur Beracun menggunakan Pohon Keputusan ID3 (November 2013)
7. Identifikasi Ketepatan Kelulusan Mahasiswa menggunakan Pohon Keputusan C4.5 (Januari 2014)
8. Identifikasi Penyakit Diabetes menggunakan Pohon Keputusan C4.5 (Januari 2014)
9. Sistem Pendukung Keputusan MPASI menggunakan Pohon Keputusan C4.5 (Januari 2014)
10. Klasifikasi Prestasi Akademik menggunakan Pohon Keputusan ID3 (Februari 2014)
11. Decision Support Systems in Diabetes using C4.5 Decision Tree (Maret 2014)
12. Sistem Pendukung Keputusan Pemberian Kredit KPR menggunakan Pohon Keputusan C4.5 (Maret 2014)
13. Klasifikasi Jadwal Kerja Karyawan Menggunakan Pohon Keputusan C4.5 (Maret 2014)
14. Prediksi Pasien Rawat Inap Menggunakan Naive Bayes (Maret 2014)
15. Sistem Pendukung Keputusan Klasifikasi Mutasi Karyawan Menggunakan C4.5 (April 2014)
16. Identifikasi Breast Cancer menggunakan Pohon Keputusan C4.5 (April 2014)
17. Multimedia Pembelajaran Interaktif dengan Menerapkan Algoritma ID3 (April 2014)
18. Klasifikasi Lokasi Prakerin Menggunakan Pohon Keputusan C4.5 (Mei 2014)
19. Implementasi Pohon Keputusan ID3 dalam Menentukan Siswa Berprestasi (Mei 2014)
20. SPK Penentuan Kelayakan Pengambilan MK Prasyarat menggunakan Pohon Keputusan C4.5 (Mei 2014)
21. Identifikasi Penyakit Hipertensi Menggunakan Pohon Keputusan C4.5 (Mei 2014)
22. SPK Penilaian Kinerja Guru Menggunakan Pohon Keputusan ID3 (Mei 2014)
23. Rekomendasi Beasiswa Menggunakan Pohon Keputusan C4.5 (Juni 2014)
24. Prediksi Jenis Wisata Menggunakan Naive Bayes (Juli 2014)
25. SPK Rekomendasi Peringkat Jasa Layanan Asuransi Kesehatan menggunakan Metode (ANP) (Juli 2014)
26. SPK Rekomendasi Bonus Tahunan Pegawai Menggunakan Pohon Keputusan ID3 dan CART (Juli 2014)
27. SPK Klasifikasi Hasil Padi Menggunakan Pohon Keputusan ID3 (Juli 2014)
28. Prediksi Kemacetan Menggunakan Naive Bayes (Juli 2014)
29. SPK Pemilihan Mobil menggunakan AHP (Agustus 2014)
30. Pemilihan Beasiswa Menggunakan Pohon Keputusan C4.5 (Agustus 2014)
31. Klasifikasi Diskon Barang Menggunakan Pohon Keputusan C4.5 (Agustus 2014)
32. Prediksi Tingkat Ketidakdisiplinan Siswa menggunakan Naive Bayes (September 2014)
33. Klasifikasi Hasil Produksi Benih Ikan Menggunakan Pohon Keputusan C4.5 (September 2014)
34. Sistem Pengukuran Kinerja RSUD Natuna menggunakan ANP (September 2014)
35. Prediksi Registrasi Menggunakan Naive Bayes (Oktober 2014)
36. Identifikasi Kanker Menggunakan Pohon Keputusan C4.5 (Oktober 2014)
37. Prediksi Kelulusan Menggunakan Pohon Keputusan C4.5 (November 2014)
38. SPK Identifikasi Kelayakan Kredit Menggunakan Pohon Keputusan ID3 dan C4.5 (Desember 2014)
39. SPK Rekomendasi Beasiswa Menggunakan Pohon Keputusan C4.5 (Desember 2014)
40. SPK Prediksi KPR Menggunakan Pohon Keputusan C4.5 (Desember 2014)
41. SPK Prediksi Kelulusan Menggunakan Pohon Keputusan C4.5 (Desember 2014)
42. SPK Diagnose Malaria dengan Metode AHP (Januari 2015)
43. Prediksi Waktu Menggunakan Pohon Keputusan C4.5 (Februari 2015)
44. Sistem Pakar PILATES 36 (Maret 2015)
45. SPK Prediksi Kelulusan Menggunakan Pohon Keputusan C4.5 (Maret 2015)
46. Sistem Pemilihan Vendor PT Meshindo menggunakan ANP (April 2015)
47. Sistem Pemilihan Supplier menggunakan ANP (April 2015)
48. SPK Kelayakan Kredit Koperasi BMT Maslahah Menggunakan Pohon Keputusan C4.5 (April 2015)
49. SPK Penilaian Kinerja Karyawan Pohon Keputusan ID3 (April 2015)
50. SPK Prediksi Penyakit Katarak Menggunakan Pohon Keputusan C4.5 (Mei 2015)
51. SPK Karyawan Menggunakan Pohon Keputusan ID3 (Mei 2015)
52. Strategi Marketing menggunakan ANP (Mei 2015)
53. SPK Prediksi Calon Pegawai Menggunakan Pohon Keputusan C4.5 (Mei 2015)
54. SPK Prediksi Tempat Kos Menggunakan Pohon Keputusan ID3 (Juni 2015)
55. Prediksi Dosen Menggunakan Naive Bayes (Juni 2015)
56. Identifikasi Gizi Menggunakan Pohon Keputusan C4.5 (Juli 2015)
57. Identifikasi Hipertensi Menggunakan Pohon Keputusan C4.5 (Juli 2015)
58. Prediksi Hipertensi Menggunakan Naive Bayes (Juli 2015)
59. Prediksi Kelayakan Mesin menggunakan Pohon Keputusan ID3 (Juli 2015)
60. Prediksi Pasien ADHD Menggunakan Naive Bayes (Juli 2015)
61. Prediksi Kecerdasan Menggunakan Naive Bayes (Juli 2015)
62. Sistem Informasi RS Bunda (Juli 2015)
63. SPK Prediksi Kelulusan Mahasiswa Menggunakan Pohon Keputusan C4.5 (Agustus 2015)
64. Prediksi Kelayakan Kredit Menggunakan Naive Bayes (Agustus 2015)
65. Identifikasi Jenis Beasiswa Menggunakan Pohon Keputusan C4.5 (Oktober 2015)
66. SPK Prediksi Diabetes Menggunakan Pohon Keputusan C4.5 dan Naive Bayes (Oktober 2015)
67. SPK Prediksi Registrasi Mahasiswa Menggunakan Pohon Keputusan C4.5 (Oktober 2015)
68. Prediksi Penerimaan Mahasiswa Menggunakan Naive Bayes (Desember 2015)
69. Identifikasi Penyakit Hama Ikan Menggunakan Pohon Keputusan C4.5 (Desember 2015)
70. Prediksi Produksi Telur menggunakan Naive Bayes Naive Bayes (Desember 2015)
71. Prediksi Waktu Studi menggunakan ID3 (Desember 2015)
72. Prediksi Kelayakan Mesin Menggunakan Pohon Keputusan C4.5 (Januari 2016)
73. Prediksi Penyakit DBD Menggunakan Pohon Keputusan C5 (Februari 2016)
74. Klasifikasi Biaya Menggunakan Pohon Keputusan ID3 dan C4.5 (Maret 2016)
75. Sistem Pakar Klasifikasi Penyakit Menggunakan Naive Bayes (Maret 2016)
76. Sistem Pakar Klasifikasi Mobil Menggunakan Naive Bayes (Maret 2016)
77. Prediksi Kelayakan Kredit menggunakan Pohon Keputusan C4.5 (Maret 2016)
78. Identifikasi Jenis Kemacetan Menggunakan Pohon Keputusan C4.5 (Maret 2016)

Perbandingan Kinerja Pohon Keputusan ID3 dan C4.5 dalam Identifikasi Kelayakan Kredit

Alhamdulillah, akhirnya saya dinyatakan lulus dalam Tugas Akhir yang saya ambil di semester 8 ini. Dan Alhamdulillah saya bisa lulus tepat waktu yaitu 4 tahun. Judul TA saya: Perbandingan Kinerja Pohon Keputusan ID3 dan C4.5 dalam Identifikasi Kelayakan Kredit. Saya dapat ide utk memakai metode pohon keputusan saat saya kuliah semester 6 ketika mengikuti mata kuliah Data Mining dengan dosen Pak Mulaab. Pada waktu itu belum terpikirkan studi kasus yang saya ambil. Sampai akhirnya saya pilih studi kasus untuk mengidentifikasi kelayakan kredit di suatu leasing.

Dalam TA saya ini saya memakai 100 data survey dimana data tersebut akan dipartisi menjadi 3 bagian, yaitu partisi 70 data training : 30 data testing, 50 data training : 50 data testing dan 30 data training : 70 data testing.

Metode C4.5 yang digunakan ada 3 yaitu C4.5 (tanpa pruning), C4.5 pre pruning dan C4.5 post pruning. Perbandingan kinerja diukur dengan menghitung nilai presisi, recall dan akurasi.

Oke, berikut perbandingan kedua algoritma tersebut:
Grafik Precision:

Grafik Recall:

Grafik Accuracy:

Kesimpulan:
Dari pengukuran kinerja kedua algoritma yang telah dilakukan, dapat disimpulkan algoritma C4.5 memiliki kinerja (precision, recall, dan accuracy) yang lebih baik dibandingkan algoritma ID3. Pada umumnya, algoritma C4.5 memiliki nilai tertinggi pada partisi data 70:30, sedangkan ID3 memiliki nilai tertinggi rata-rata pada partisi data 30:70 dan pada partisi data 50:50 kedua algoritma mengalami penurunan akurasi.
Metode post pruning merupakan metode pruning yang lebih baik daripada pre pruning, hal ini dapat dilihat pada partisi data 70:30 dan partisi data 30:70 dimana post pruning memiliki nilai yang lebih baik daripada pre pruning. Partisi data 30:70 merupakan partisi terbaik karena memiliki nilai precision, recall, dan accuracy yang paling tinggi daripada partisi lainnya.

Thursday, August 4, 2011

Sistem Informasi PNPM - Mandiri



Program Nasional Pemberdayaan Masyarakat (PNPM) Mandiri merupakan program pemerintah yang mewadahi berbagai program penanggulangan kemiskinan yang berbasis pemberdayaan masyarakat. Secara umum PNPM Mandiri bertujuan untuk meningkatkan keberdayaan masyarakat dalam mengentaskan dirinya dari kemiskinan.
PNPM dalam kecamatan kamal diwujudkan dalam bentuk “Simpan Pinjam Perempuan”, yaitu program simpan pinjam yang dikhususkan untuk kaum perempuan. Selama ini data-data PNPM di setiap kecamatan dikelola dengan manual, yaitu semua data ditulis dalam kertas. Hal ini tentu dapat menimbulkan ketidak-akuratan dalam melakukan pengelolaan karena faktor kesalahan manusia (human error). Dengan data yang sedemikian banyak, “Simpan Pinjam Perempuan” memerlukan sistem informasi untuk memantau dan memastikan program berjalan secara benar dalam sisi keakuratan data.
Sistem Informasi PNPM - Mandiri ini saya buat dalam memenuhi Kerja Praktek di Kecamatan Kamal. Berikut Screenshotnya:

Halaman Utama

Halaman Data Pinjaman

Halaman Cetak Data

Dalam sistem informasi ini ada beberapa fasilitas yang dapat digunakan, yaitu:
- Halaman Login Admin
- Halaman Home
- CRUD Data Kelompok
- CRUD Data Anggota
- CRUD Data Pinjaman
- CRUD Data Setoran
- CRUD Data Perkembangan
- Cetak Data
- Pencarian Data
CRUD adalah Create, Read, Update dan Delete data.

Sistem Informasi ini bersifat komersil, bagi yang berminat silahkan kontak saya di nugikkool@gmail.com

Taman Sesat - VRML




TAMAN SESAT adalah sebuah taman dimana di dalamnya terdapat banyak jalan sehingga dapat membingungkan dan menyesatkan bagi orang-orang yang masuk ke taman ini. Taman ini banyak dijumpai di tempat-tempat hiburan, seperti: Jatim Park.
Taman sesat ini saya buat dalam memenuhi tugas mata kuliah IMK saya menggunakan bahasa pemrograman VRML (Virtual Reality Modelling Language). VRML hanya dapat dirunning dalam browser, seperti firefox, opera, dll. Sebelum menjalankan aplikasi VRML ini, terlebih dahulu anda harus menginstall program Cosmo Player
Berikut screenshotnya:



Item-item yang ada pada Taman Sesat:
Alas Taman
Dalam objek ini, terdapat geometry Box yang ditranslasikan sehingga membentuk alas dan diberi texture:

Isi Taman
Dalam objek ini, terdapat geometry Box yang discaling dan ditranslasikan sehingga membentuk isi yang berbeda panjangnya dan diberi texture:

Batas Taman
Dalam objek ini, terdapat geometry Box yang discaling dan ditranslasikan sehingga membentuk batas kanan, kiri, depan dan belakang

Pohon
Dalam objek ini, terdapat 2 shape geometry, yaitu geometry Cylinder dan geometry Cone, yang discaling dan ditranslasikan sehingga membentuk batang pohon dan daun pohon.

Matahari
Dalam objek ini, terdapat geometry Sphere yang ditranslasikan dan diberi animasi berupa rotasi berdasarkan sumbu Y.

Background
Background yang digunakan adalah background berwana biru

Source Code:

Program Pascal - Penyelesaian Sistem Persamaan Linear Dengan Metode Invers




Untuk menyelesaikan persamaan linier, ada beberapa cara salah satunya adalah dengan cara menerjemahkan angka-angka pada persamaan linier tersebut ke dalam matriks kemudian menyelesaikannya dengan cara mencari invers dari matriks tersebut. Semakin tinggi nilai ordo suatu matriks, maka akan semakin panjang penyelesaiannya.

screenshot:

Sunday, July 17, 2011

Membuat Blog Sederhana Menggunakan PHP

Pada kuliah Pemrograman Basis Data Web dulu, saya diberi tugas untuk membuat blog sederhana. Blog yang saya buat berikut ini memiliki fitur CRUD (Create, Read, Update dan Delete) data. Masih sangat sederhana, karena hanya berisi judul blog, isi blog, dan gambar.



script PHP selengkapnya bisa anda download di sini. Lihat demonya di sini