Dataset Klinis DiaBD (2025)
📊 Spesifikasi Data
Sistem ini dilatih menggunakan dataset DiaBD yang dipublikasikan di jurnal Data in Brief (2025). Data dikumpulkan dari 5.288 pasien di 63 wilayah Bangladesh, merepresentasikan demografi klinis Asia yang relevan.
- Total Sampel 5.288 Rekam Medis
- Rentang Usia 21 - 80 Tahun
- Atribut Klinis 14 Parameter (Tekanan Darah, BMI, dll)
- Rasio Gender 29% Pria : 71% Wanita
- Distribusi Kelas (Asli) Imbalance (6.5% Diabetes)
🛠️ Preprocessing: Mengapa SMOTE?
Berdasarkan analisis data, ditemukan ketimpangan ekstrem: 93.5% pasien Sehat vs 6.5% Diabetes.
Solusi: Kami menerapkan Synthetic Minority Over-sampling Technique (SMOTE) untuk menyeimbangkan jumlah data latih secara sintetis, sehingga model belajar mengenali pola diabetes dengan adil.
Algoritma Decision Tree (CART)
🧠 Logika "Recursive Partitioning"
Kami menggunakan algoritma CART (Classification and Regression Tree). Algoritma ini bekerja seperti dokter yang mengajukan pertanyaan bertingkat (Misal: "Apakah Gula Darah > 140?").
Setiap "pertanyaan" (Split) dipilih berdasarkan perhitungan matematika untuk memisahkan pasien Sehat dan Sakit seefektif mungkin.
📐 Rumus Penentu Keputusan
Bagaimana sistem memilih atribut terbaik (misal: Hipertensi vs BMI) sebagai akar masalah? Sistem menghitung Entropy dan Information Gain.
Validasi & Akurasi (Benchmark)
🏆 Akurasi: 99.26%
Angka ini bukan kebetulan. Ini adalah skor benchmark tertinggi yang dicapai pada dataset DiaBD menggunakan metode klasifikasi modern, sebagaimana dipublikasikan dalam jurnal referensi.
🔑 Faktor Dominan (Feature Importance)
Berdasarkan perhitungan Information Gain, sistem menemukan bahwa Hipertensi adalah indikator risiko terbesar, sejalan dengan temuan medis bahwa tekanan darah tinggi berkorelasi kuat dengan resistensi insulin.
- 1. Status Hipertensi 32.8% (Sangat Tinggi)
- 2. Glukosa Puasa 14.7% (Tinggi)
- 3. Body Mass Index (BMI) 11.2% (Sedang)
- 4. Faktor Usia 9.4% (Sedang)