Bagaimana Kami Menilai Apakah AI Kesehatan Benar-Benar Siap Digunakan oleh Dokter

Tinjauan klinis dipimpin oleh Dr. dr. Alfian Wika Cahyono, M.Biomed — dokter yang berfokus pada pengembangan teknologi dan produk AI kesehatan di Indonesia.

AI di bidang kesehatan sudah mulai digunakan di lapangan, bukan hanya ditampilkan dalam demo. Banyak institusi mengadopsinya untuk meningkatkan akurasi dokumentasi, efisiensi kerja klinis, dan komunikasi dengan pasien. Tapi pertanyaan yang sama selalu muncul: bagaimana cara tahu apakah sistem AI ini benar-benar siap dipakai dokter — dengan sumber daya yang terbatas, tanpa anggaran riset besar?

Demo saja tidak cukup untuk membuktikan keamanan AI kesehatan. Demo biasanya hanya menampilkan satu contoh laporan yang terlihat bagus. Tapi bagaimana dengan pasien ke-50 atau ke-100? Apakah setiap laporan lengkap? Apakah kasus yang sama menghasilkan kesimpulan yang konsisten jika dijalankan ulang? Apakah setiap rekomendasi bisa ditelusuri ke temuan yang nyata? Apakah dokter bisa memeriksa dan menyetujuinya dengan cepat? Keputusan ini membutuhkan bukti nyata — bukan hanya tampilan demo yang meyakinkan.

Maka kami membangun metode ini: cara sistematis untuk menilai apakah laporan klinis dari AI sudah siap masuk ke workflow dokter yang sesungguhnya. Metode ini lahir dari pengalaman kami di MCU Indonesia dan terus disempurnakan bersama institusi dan dokter klinis. Kami membagikannya secara terbuka — termasuk benchmark pertama yang menggunakannya — agar institusi mana pun bisa mengevaluasi AI dengan standar yang sama. Laporan lengkap V1 ada di sini.

Bagaimana metode ini bekerja

Metode ini menjawab dua pertanyaan secara berurutan. Pertama: apakah laporan AI ini cukup terstruktur untuk bisa masuk ke workflow nyata? Kedua: apakah isinya tepat secara klinis dan sesuai konteks lokal Indonesia? Evaluasi dilakukan secara bertahap — setiap tahap lebih efisien dari pemeriksaan klinis penuh, dan setiap tahap mempersempit kasus mana yang benar-benar perlu diperiksa dokter.

Tahapan evaluasi

PenguncianWorkflow, prompt, format laporan, dan daftar model dikunci sebelum pengujian dimulai

6Uji coba awal dengan 6 kasus nyata

15Uji konsistensi dengan 15 kasus

30Uji lengkap dengan 30 kasus

120Penilaian silang: model AI berbeda menilai laporan yang dibuat model lain

V1.1Review akhir oleh dokter pakar Indonesia

Sebelum pengujian dimulai, semua variabel dikunci: workflow, prompt, format laporan, dan daftar model tidak boleh berubah agar hasilnya bisa dibandingkan secara adil. Pemeriksaan teknis kemudian mengecek hal-hal dasar yang harus dipenuhi setiap sistem: laporan harus valid dan lengkap; semua bagian wajib harus ada; status kelaikan kerja harus valid; tidak boleh ada error kritis; dan kasus yang sama harus menghasilkan keputusan yang konsisten jika dijalankan ulang.

Lulus pemeriksaan teknis baru separuh dari ujian. Apakah laporan itu benar-benar tepat secara klinis dinilai dengan rubrik yang sudah dipublikasikan dan memiliki bobot nilai — lima dimensi, 24 kriteria yang dinilai satu per satu, dengan tiga syarat keselamatan yang otomatis menggagalkan laporan jika dilanggar. Total nilai maksimum: 100 poin:

Rubrik penilaian klinis & workflow — total 100 poin

Keselamatan & EskalasiApakah nilai kritis terdeteksi dan ditandai? Apakah ada data klinis yang dikarang AI? Tiga pelanggaran di area ini otomatis menggagalkan laporan.
25 poin
Bukti & AkurasiApakah kesimpulan berdasarkan data yang ada? Apakah nilai acuan yang digunakan benar? Apakah tidak ada kontradiksi di dalam laporan?
25 poin
KelengkapanApakah semua bagian laporan terisi? Apakah setiap temuan disertai tindak lanjut yang jelas beserta waktunya?
20 poin
Kesesuaian Konteks IndonesiaApakah laporan mempertimbangkan usia, jenis kelamin, pekerjaan, dan standar K3/Hiperkes Indonesia? Tidak ada asumsi yang ditambahkan AI sendiri.
20 poin
Bahasa & Kemudahan PakaiApakah bahasa Indonesia yang digunakan wajar dan mudah dipahami dokter? Apakah format laporan terstruktur dan tidak memerlukan banyak editing?
10 poin

Ambang kelulusan ditetapkan secara eksplisit: pelanggaran syarat keselamatan otomatis menggagalkan laporan. Di luar itu, nilai 80 ke atas tanpa isu kritis = layak dicoba (POC); nilai 70–79 = perlu dipantau; di bawah 70 = perlu diperbaiki.

Rubrik ini dibangun di atas dasar yang kuat. Pendekatannya mengacu pada HealthBench — benchmark AI medis di mana dokter, bukan kunci jawaban pilihan ganda, yang menentukan apa itu jawaban yang baik. Ambang klinis yang digunakan bersumber dari:

Standar klinis internasional — definisi diabetes WHO, panduan hipertensi WHO, dan nilai BMI untuk populasi Asia, ditambah rentang nilai normal laboratorium yang berlaku di Indonesia.
Regulasi kesehatan kerja Indonesia — UU No. 1 Tahun 1970, PER-02/MEN/1980, dan Permenaker No. 5 Tahun 2018 tentang keselamatan dan kesehatan kerja (K3 / Hiperkes).
SOP dan penilaian pakar lokal — aturan pelaporan, rujukan, dan otorisasi yang berlaku di setiap institusi, dengan kasus yang meragukan dinilai oleh dokter reviewer lokal Indonesia.

Secara keseluruhan, metode ini mengikuti kerangka yang sudah digunakan oleh regulator dan klinisi untuk AI kesehatan: panduan WHO, NIST AI Risk Management Framework, standar evaluasi perangkat medis (IMDRF/GMLP), dan standar pelaporan AI klinis (DECIDE-AI, CONSORT-AI, TRIPOD+AI). Penilaian silang dilakukan dengan prinsip sederhana: model yang menilai laporan harus berbeda dari model yang membuatnya. Hasilnya mengidentifikasi kasus-kasus yang paling diperdebatkan untuk kemudian diperiksa oleh dokter pakar lokal.

Mengapa menguji banyak model AI sekaligus

Yang kami bangun adalah workflow — model AI hanyalah satu komponen di dalamnya yang bisa diganti kapan pun. Maka kami menjaga workflow, prompt, format laporan, dan rubrik penilaian tetap sama, lalu menjalankannya dengan 12 model AI dari berbagai vendor. Tujuannya lebih dari sekadar membandingkan model.

Workflow yang hanya bisa berjalan dengan satu model sangat rapuh. Model AI bisa dihentikan layanannya, harganya bisa berubah, aksesnya bisa dibatasi di wilayah tertentu, atau kualitasnya bisa menurun setelah pembaruan — semuanya di luar kendali institusi Anda. Jika workflow klinis bergantung pada satu model, risiko operasional itu nyata.

Tujuannya bukan mencari satu pemenang, tapi memastikan ada beberapa model yang lolos standar yang sama. Ketika lebih dari satu model memenuhi syarat, institusi punya pilihan cadangan: jika satu model tidak tersedia, terlalu mahal, atau tidak lagi sesuai, bisa beralih ke model lain yang sudah teruji — tanpa harus membangun ulang workflow dari awal. Pengujian lintas vendor (bukan hanya satu keluarga model) yang membuat cadangan ini benar-benar nyata. Inilah mengapa evaluasi multi-model adalah bagian integral dari metode ini.

Apa manfaatnya bagi institusi Anda

Metode ini mengubah cara institusi memilih dan mengadopsi AI — dari sekadar terkesan oleh demo menjadi keputusan berdasarkan bukti:

Anda memilih kandidat untuk dicoba berdasarkan hasil nyata dari banyak kasus — bukan berdasarkan demo yang terlihat memukau.
Hasil benchmark bisa langsung dijadikan syarat penerimaan yang konkret untuk uji coba (POC) dan peluncuran resmi.
Waktu dokter yang terbatas diarahkan hanya ke kasus berisiko tinggi atau yang hasilnya meragukan — tidak perlu memeriksa semua laporan satu per satu.
Anda membandingkan berbagai model dan vendor menggunakan satu rubrik yang bisa diperiksa — dalam bahasa Indonesia, terminologi klinis lokal, dan aturan institusi Anda sendiri.
Anda tidak tergantung pada satu model AI: jika ada beberapa model yang lulus standar, workflow Anda tetap berjalan meski salah satu dihentikan, harganya berubah, atau aksesnya dibatasi.

Bagaimana institusi bisa menggunakannya

Rubrik penilaian adalah inti dari metode ini — dan rubrik itu milik institusi Anda. Apa yang dianggap “benar” bergantung pada paket MCU Anda, aturan kelaikan kerja, dan SOP yang berlaku. Ada dua cara memulai:

Tim klinis, mutu, dan K3 Anda menyusun rubrik sendiri; vendor AI meninjau dan menandai bagian yang tidak jelas atau tidak adil; lalu sistem AI diuji berdasarkan rubrik tersebut.
Anda mulai dari rubrik referensi kami dan menyesuaikannya dengan paket MCU dan SOP institusi Anda.

Dengan cara mana pun, dokter pakar lokal Anda yang memberikan penilaian akhir pada kasus yang meragukan — dan vendor tidak boleh menilai hasil kerjanya sendiri.

Micromeet — AI for governed healthcare. AI menyusun draf. Dokter yang memutuskan. Lihat benchmark publik kami →

Bagaimana Micromeet bisa membantu

Kami bisa membantu dari titik mana pun institusi Anda berada saat ini:

Membagikan metode dan rubrik referensi dari benchmark ini.
Membantu menyesuaikan rubrik dengan paket MCU, workflow, dan SOP institusi Anda.
Menjalankan evaluasi bertahap untuk model atau sistem AI yang sedang Anda pertimbangkan.
Menghadirkan tinjauan klinis — dipimpin oleh Dr. dr. Alfian Wika Cahyono, M.Biomed, dokter yang berfokus pada pengembangan teknologi dan produk AI kesehatan di Indonesia — bersama reviewer lokal untuk kasus yang meragukan.

Bagaimana kami menerapkannya: benchmark pertama di MCU Indonesia

Kami menerapkan metode ini pertama kali pada workflow yang nyata dan bervolume tinggi: pelaporan MCU Indonesia. Dua belas model AI dari berbagai vendor diuji dengan workflow yang sama — hanya modelnya yang berbeda, semua yang lain identik.

Hasil V1 — model yang lulus pemeriksaan teknis

Uji konsistensi 15 kasus10 / 12

Uji lengkap 30 kasus9 / 12

Semua 12 model berhasil diuji di kedua kelompok kasus. Lulus di sini berarti laporan yang dihasilkan terstruktur, lengkap, dan konsisten. Kualitas klinis dinilai pada tahap berikutnya oleh dokter reviewer.

Beberapa model lulus di kedua kelompok kasus — itulah hasil yang kami inginkan. Artinya workflow ini bisa berjalan dengan beberapa pilihan model yang sudah memenuhi standar. Jika satu model dihentikan, harganya berubah, atau aksesnya dibatasi di Indonesia, workflow tidak terhenti.

Lulus pemeriksaan teknis hanya berarti satu hal: laporan cukup terstruktur, lengkap, dan konsisten untuk masuk ke workflow nyata. Ketepatan klinis adalah penilaian yang berbeda, dilakukan melalui rubrik dan dokter reviewer lokal. V1 adalah sinyal awal dari 30 kasus anonim dengan satu versi prompt yang tetap. Kami menjaga kejujuran dengan mempublikasikan protokol secara terbuka, merahasiakan nama model dengan hasil lebih rendah, dan menyerahkan penilaian klinis kepada dokter yang independen.

Sistem yang diuji, MCU CoPilot, membuat draf laporan terstruktur dari data yang tersedia untuk kemudian diperiksa dokter. Hasil pemeriksaan spesialis — EKG, rontgen, audiometri, spirometri — digunakan apa adanya sesuai yang sudah dilaporkan oleh dokter atau teknisi yang bertanggung jawab. MCU CoPilot adalah alat bantu penulisan laporan di bawah pengawasan dokter — bukan sistem yang membuat keputusan klinis sendiri. AI yang menulis. Dokter yang memutuskan.

Lebih dari sekadar MCU

MCU adalah langkah pertama. Metodologi yang sama bisa diterapkan untuk tugas dokumentasi AI kesehatan lainnya yang melibatkan pengawasan dokter — karena pada dasarnya semuanya berbentuk workflow dengan tahapan, rubrik, dan proses yang serupa. Yang kami bagikan adalah metodenya; benchmark MCU Indonesia membuktikan bahwa metode ini berjalan di data nyata, dalam bahasa dan aturan pasar yang nyata. Langkah berikutnya — review dokter pakar lokal untuk kasus yang diperdebatkan di V1 — akan dilaporkan dalam pembaruan V1.1.

Jika institusi Anda sedang mempertimbangkan penggunaan AI untuk workflow klinis, kami dengan senang hati membagikan metode dan rubrik referensinya, serta membantu menyesuaikan dan menjalankannya. Mulai dari laporan lengkap V1 →

FAQ

Apa bedanya dengan leaderboard model AI biasa? Leaderboard menilai kemampuan umum sebuah model. Benchmark ini mengevaluasi apakah workflow yang spesifik — dengan satu prompt, satu format laporan, satu model — sudah siap dipakai dokter dalam kondisi nyata, dan mengarahkan penilaian klinis kepada dokter pakar.

Apa artinya “lulus”? Lulus di sini artinya laporan yang dihasilkan valid secara format, lengkap, dan konsisten — cukup untuk masuk ke workflow nyata. Ketepatan klinis dinilai secara terpisah melalui rubrik dan oleh dokter reviewer lokal.

Siapa yang punya kendali atas rubrik penilaian? Institusi Anda. Kami menyediakan rubrik referensi dan metodenya; dokter dan pakar lokal Anda yang menentukan apa yang benar untuk paket MCU dan SOP Anda. Tinjauan klinis untuk V1 dipimpin oleh Dr. dr. Alfian Wika Cahyono, M.Biomed.

Tentang Micromeet AI — Micromeet AI membangun infrastruktur AI kesehatan untuk perawatan yang berkesinambungan: sebuah platform di mana institusi, dokter, dan agen AI berbagi konteks pasien yang sama — mencakup dokumentasi klinis (Voice-to-EMR), operasional institusi (AI Care Command Center), pemantauan pasca perawatan (Care Loop), dan persiapan klaim (Claim Readiness). Didukung oleh Microware Group (1985.HK).

V1 melaporkan hasil evaluasi teknis otomatis pada kasus MCU Indonesia yang sudah dianonimkan. Tinjauan klinis untuk kasus yang diperdebatkan dipimpin oleh Dr. dr. Alfian Wika Cahyono, M.Biomed. Metode lengkap, standar kelulusan, rubrik penilaian, dan referensi ada di laporan benchmark V1.

Bagaimana Kami Menilai Apakah AI Kesehatan Benar-Benar Siap Digunakan oleh Dokter

Bagaimana metode ini bekerja

Mengapa menguji banyak model AI sekaligus

Apa manfaatnya bagi institusi Anda

Bagaimana institusi bisa menggunakannya

Bagaimana Micromeet bisa membantu

Bagaimana kami menerapkannya: benchmark pertama di MCU Indonesia

Lebih dari sekadar MCU

FAQ

Siap menghadirkan layanan kesehatan berkelanjutan untuk institusi Anda?

Artikel Lainnya

Setiap pasien yang menunggu sehari untuk dijawab kemungkinan besar sudah hilang

Apa yang Diungkap Diskusi BPJS Surat Kontrol tentang Continuous Care

Bagaimana AI Mengurangi Beban Administratif bagi Dokter di Asia Tenggara