CONTOH KASUS DATA
MINING
Sebuah
rumah sakit ingin ingin menekan biaya
perawatan pasien tanpa mengurangi kualitas pelayanan. Salahsatu potensi yang
dapat dimanfaatkan pada penerapan data
mining di rumah sakit adalah mengidentifikasi atribut-atribut penentu
biaya pasien rawat inap. Dengan mengetahui atribut penentu biaya rawat,
diharapkan pihak manajemen rumah sakit dapat melakukan kontrol terhadap biaya,
sehingga ongkos perawatan pasien dapat ditekan tanpa mengurangi kualitas
pelayanan.
Untuk
mengidentifikasi atribut penentu biaya pasien rawat inap, digunakan data
kunjungan pasien rawat inap RSUP Dr. Cipto Mangunkusumo dengan jaminan
Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 dari database SIMRS
sebanyak 2022 kunjungan (jumlah sebelum dilakukan data cleaning 8383).
Dengan teknik analisa Atttibute Importance (AI) didapatkan atribut-atribut
penentu biaya dengan urutan sebagai berikut: prosedur medis 1 (AI=0,16),
prosedur medis 4 (AI=0,15), prosedur medis 3 (AI=0,14), LOS (AI=0,13), prosedur
medis 2 (AI=0,13), organisasi (AI=0.10), diagnosa utama (AI=0,08), jenis
kelamin (AI=0.02) dan status kawin (AI=0.01). Hasil klasifikasi dengan teknik
Algoritma Naive Bayes menunjukkan model yang dibuat memiliki predictive
confidence sebesar 50,41%.
I.
Pendahuluan
Perkembangan
teknologi informasi yang pesat terutama di sektor kesehatan memungkinkan data
dalam jumlah besar terakumulasi dengan cepat. Saat ini berbagai rumah sakit
sudah mulai menerapkan sistem informasi rumah sakit berbasis komputer untuk
mendukung manajemen keuangan (khususnya billing systems) [1]. Untuk rumah sakit
yang sudah mapan sistem informasinya bahkan mulai memperluas kebutuhannya untuk
membangun sistem informasi klinik. Pertumbuhan yang pesat dari akumulasi data
itu telah menciptakan kondisi yang sering disebut sebagai “rich of data
but poor of knowledge”, karena data yang terkumpul itu hanya digunakan
untuk kebutuhan operasional saja, bahkan tidak jarang kumpulan data itu
dibiarkan begitu saja seakan-akan menjadi “kuburan data” (data tombs). Untuk
melakukan analisa data dalam jumlah besar yang tersimpan pada database,
biasanya digunakan teknik data mining. Meski telah umum digunakan
pada industri keuangan dan telekomunikasi, teknik data mining mulai
diterapkan secara intensif di sektor kesehatan. Sebagai contoh, Mayo Clinic
bekerja sama dengan IBM menerapkan teknik data mining pada pasien dengan
kesamaan jenis kelamin, usia dan riwayat kesehatan untuk mengetahui respon
terhadap pengobatan tertentu .[2] Teknis data mining dapat kita lihat
sebagai hasil dari evolusi alamiah teknologi informasi.
2.
PROSES DATA MAINING
Pada bagian ini
akan dijelaskan proses data mining yang terdiri dari beberapa tahap .
1. Pembersihan
data (data cleaning), untuk membersihkan noise dan data yang
tidak konsisten. Dalam kasus ini membersihkan data-data pasien yang sudah dihapus
dan identitas yang tidak lengkap (misal: umur, status marital, pendidikan,
diagnosa, dan sebagainya).
2. Integrasi data, penggabungan data dari
berbagai sumber;
3. Transformasi data, data diubah menjadi bentuk
yang sesuai untuk di mining;
4. Aplikasi teknik data mining, proses
inti dimana teknikdata mining diterapkan untuk mengekstrak pola-pola
tertentu pada data;
5. Evaluasi pola yang ditemukan;
6. Presentasi pengetahuan, menggunakan
teknik visualisasi untuk menampilkan
hasil data
Mining kepadapengguna
(user).
3.
Data dan Perangkat Pendukung
3.1
Data
Untuk
mengidentifikasi atribut-atribut penentu biaya pasien rawat inap, digunakan
data kunjungan pasien rawat inap RSUP Dr. Cipto Mangunkusumo dengan jaminan
Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 yang diambil dari database
SIMRS sebanyak 8383 kunjungan pasien. Setelah dilakukan data cleaning,
didapatkan 2022 kunjungan pasien yang layak untuk dianalisa.
3.2.
Perangkat Lunak
Untuk analisa data
mining digunakan perangkat lunak Oracle Data Miner dan database Oracle 11g.
3.3
Metode & Teknik
3.3.1Atribute
Importance (AI)
Attribute
Importance (AI) memberi peringkat atribut dengan menghilangkan atribut yang
berulang, tidak relevan, atau tidak informatif dan mengidentifikasi atribut yang
mungkin memiliki pengaruh yang paling tinggi dalam membuat prediksi.
Gambar
3.
AI menggunakan
algoritma Minimum Description Length (MDL). Algoritma MDL mempertimbangkan
setiap atribut sebagai model prediktif sederhana dari kelas target. Teknik AI
digunakan untuk mengoptimalkan analisa model classification dengan mengurangi
atribut yang digunakan dan akan meningkatkan kecepatan dan akurasi saat
membangun model.
3.3.2.
Naive Bayes Algorithm (Classification)
Classification
adalah proses untuk Menemukan model Atau fungsi yang atau membedakan konsep
atau kelas data, Dengan tujuan untuk dapat memperkirakan Kelas dari Suatu objek
yang labelnya tidak Berupa aturan “jika--‐maka”.
Dalam Teknik classification terdapat beberapa Algoritma yang Bisa digunakan
antara lain decision tree, Naive bayes , adaptive naive
bayes, logistic regression dan support vector
machine. Bayesian Classification didasarkan pada Teorema
Bayesian. Konsep dasar teori bayes itu pada dasarnya adalah peluang bersyarat
P(H∣X). Dimana dalam
Bayesian H adalah posterior dan X adalah prior. Prior adalah pengetahuan kita
tentang karakteristik suatu parameter (bisa dibaca sebagai pengalaman di masa
lalu atas suatu parameter atau juga bisa berdasarkan teori), sedangkan
posterior adalah karakteristik yang akan kita duga pada kejadian yang akan
datang.
Teorema Bayesian berguna untuk melakukan
kalkulasi probabilitas posterior, P(H|X), dari P(H), P(X) dan P(X|H). Teori
Bayes adalah sebagai berikut : P(H|X) = P(X|H)P(H)
P(X)
Proses
classification biasanya dibagi menjadi dua fase : learning dan test.
Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan
untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah
terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari
model tersebut. Bila akurasinya mencukupi model ini dapat dipakai untuk
prediksi kelas data yang belum diketahui. [3]
3.3.3 Data Scoring
Setelah
model dibuat dengan aplikasi data mining, model tersebut bisa digunakan
untuk membuat prediksi dari data baru yang dalam hal ini diterapkan untuk
memprediksi pola biaya data kunjungan pasien. Model biasanya dibuat dengan
menggunakan data historis dari kunjungan pasien sebelumnya.
Prosesnya
dapat digambarkan sebagai berikut:
4 . Teknik Data Mining
4.1 Persiapan Data
Sebelum
dilakukan teknik data mining dilakukan eksplorasi data untuk mengetahui
distribusi data pasien berdasarkan atribut tertentu (misal: distribusi pasien
berdasar umur) dan juga untuk mengidentifikasi data yang tidak normal
(outliers). Data divisualisasikan dalam bentuk histogram. Beberapa histogram
profil kunjungan pasien ditampilkan sebagai berikut :
Gambar 5.
Distribusi berdasar gender
Gambar 6
Distribusi berdasar umur
Gambar 7.
Distribusi berdasar unit kunjungan
Keterangan Gambar 7 :
178 = A - Penyakit Dalam 105 = A - Onkologi Obgin
108 = A – Bedah 121 = Kebidanan (IGD)
173 = A - Bedah LT 4 113 = A - Obgin
176 = A - Mata 175 = A - THT
109 = A – Neurologi 101 = PJT - Intermediate Ward Lt. 4
Gambar 8. Distribusi berdasar status
kematian (tidak
meninggal=0, meninggal=1)
Gambar 9. Distribusi berdasar length
of stay (LOS)
Dalam
studi ini data kunjungan pasien di RSCM akan diamati atribut-atribut yang akan
mempengaruhi pola biaya pasien yang dirawat di RSCM. Untuk biaya di buat skala
RENDAH, SEDANG dan TINGGI. Dengan aturan sebagai berikut :
Jika
Biaya Tagihan < 10 juta Maka Pola biaya RENDAH.
Jika
Biaya Tagihan >10 juta dan < 50 juta maka biaya SEDANG.
Sedangkan
jika Biaya tagihan > 10 juta maka pola biaya TINGGI.
Permasalahan
pada data yang memiliki banyak atribut seperti data rekam medis pasien adalah
tidak semua data akan berkontribusi jika diterapkan model prediktif, bahkan
beberapa atribut cenderung mengaburkan hasil (noise). Teknik Attribute
Importance (AI) digunakan untuk mengidentifikasi indikator yang paling
berpengaruh terhadap pasien dengan pola biaya tinggi atau rendah. Setelah
dianalisa menggunakan teknik Attribute Importance (AI), data akan dianalisa
menggunakan teknik klasifikasi menggunakan Algoritma NaĆÆve Bayes yang kemudian
akan digunakan untuk melakukan scoring terhadap kasus kunjungan pasien.
4.2
Analisa Menggunakan Teknik Attribute Importance (AI)
Attribute
Importance (AI) memberikan solusi otomatis untuk meningkatkan kecepatan dan
akurasi model klasifikasi yang dibangun di atas tabel data dengan atribut dalam
jumlah besar. Atribut untuk menentukan peringkat berdasarkan pada kekuatan
korelasi atau hubungan antara atribut prediktor dengan atribut target. Target
pada kasus ini adalah mencari faktor yang sangat berpengaruh pada pola beban
biaya pasien rawat inap di RSCM (RENDAH, SEDANG, TINGGI). Atribut yang
digunakan untuk analisa adalah sebagai berikut :
Tabel
1. Atribut data
Berikut ini
merupakan tabel lengkap hasil analisa menggunakan teknik Attribute Importance
(AI).
Gambar 10. Hasil
Analisa Attribute Importance
Tabel 2.
Peringkat AI
Dapat dilihat
baik dari grafik maupun tabel atribut-atribut yang mempengaruhi besarnya beban
biaya pasien dari yang tertinggi sampai yang terendah. Dari hasil analisa dapat
diketahui bahwa atribut education, jobclass, sec_diag1, sec_diag2, dan
sec_diag3 tidak memiliki pengaruh korelasi signifikan terhadap pola biaya
pasien.
1.2
Teknik Klasifikasi (Classification)
Menggunakan Algoritma Naive Bayes
Teknik
Klasifikasi merupakan teknik yang umum digunakan untuk memprediksi outcome yang
spesifik dan biasanya bersifat kategorikal. Dalam kasus ini digunakan untuk
memprediksi pola biaya RENDAH , SEDANG dan TINGGI. Untuk menganalisa
menggunakan teknik ini digunakan atribut hasil analisa menggunakan Attribute
Importance (AI). Atribut yang tidak memiliki pengaruh signifikan tidak
diikutsertakan dalam analisa ini.
Tabel
3. Atribut data set
Gambar
11 Predictive confidence
Predictive
confidence menunjukkan bahwa model yan dibuat menggunakan teknik klasifikasi
menggunakan Algoritma NaĆÆve Bayes cukup baik untuk digunakan dengan predictive
confidence sebesar 50,41%. Predictive. confidence 50,41 % menandakan bahwa
model NaĆÆve
Bayes yang dibuat
50,41% lebih baik dari NaĆÆve Rule.
Gambar 12. Akurasi dari model
Pada tabel
akurasi menunjukkan bahwa model cukup baik memprediksi kasus pola biaya RENDAH
dengan prosentase 83,36 %, kasus pola biaya SEDANG dengan prosentase 64 % dan
kasus pola biaya TINGGI dengan prosentase 53,45 %. Average Accuracy sebesar
0.669372 , Overall Accuracy sebesar 0.764488.
Gambar 13.
Confusion matrix
Pada
gambar confusion matrix dapat diketahui ada 461 kasus yang diklasifikasi dengan
benar sebagai pola biaya RENDAH dari total 553 kasus, ada 46 kasus yang salah
klasifikasi yang seharusnya adalah pola biaya SEDANG tetapi di prediksi sebagai
pola RENDAH dan ada 9 kasus
yang salah
klasifikasi yang seharusnya adalah pola biaya TINGGI diprediksi sebagai pola
biaya RENDAH.
Untuk
pola biaya SEDANG dapat diketahui ada 128 kasus yang diklasifikasi dengan benar
sebagai pola biaya SEDANG dari total 200 kasus. Sedangkan untuk pola biaya
TINGGI dapat diketahui ada 31 kasus yang diklasifikasi dengan benar sebagai pola
biaya TINGGI dari total 58 kasus. Dari model tersebut diterapkan model scoring
untuk data yang akan di tes maka hasil nya adalah sebagai berikut (data sample
25 kasus kunjungan pasien):
Tabel
2. Data scoring
Kolom
prediction pada tabel diatas adalah nilai target kasus(kunjungan)
tersebut dan kolom probability adalah adalah nilai confidence dari
prediksi tersebut. Kolom cost merupakan biaya (cost) dari
prediksi yang salah, dengan biaya (cost) yang rendah berarti probabilitas yang
tinggi.
1.
Kesimpulan
Pada
paper ini telah dilakukan studi dengan menggunakan teknik Attribute
Importance (AI) untuk mengetahui peringkat atribut yang berpengaruh
terhadap pola biaya data kunjungan pasien yang didefinisikan sebagai kelas
target RENDAH, SEDANG dan TINGGI. Dengan mengetahui atribut-atribut yang
mempengaruhi biaya tinggi, maka manajemen rumah sakit dapat lebih memfokuskan
program efisiensi pada prosedur-prosedur medis berbiaya tinggi dan mengurangi
LOS.
Percobaan
kedua adalah dengan membuat model menggunakan teknik classification dengan Naive Bayes yang kemudian digunakan
untuk memprediksi pola biaya pada data kunjungan pasien yang akan datang
(scoring data). Dengan model prediksi biaya tersebut, dapat diperkirakan biaya
pasien rawat inap pada saat awal kunjungan. Informasi perkiraan biaya tersebut
bermanfaat bagi pihak pasien, karena dapat mempersiapkan pembiyaan dan pihak
rumah sakit karena dapat mengetahui perkiraan biaya dan sumberdaya yang harus
disiapkan untuk merawat pasien.
Lihat komentar