Cara AI dan Aturan Manual Bersinergi Amankan Data Cloud (Bagian 2)

By - Dante DMC April 11, 2025 Comments (0) 4 Mins Read

Di Bagian 1, kita membongkar prinsip klasifikasi data Open Raven: privasi, efisiensi, dan akurasi. Tapi bagaimana cara mereka menghadapi data ambigu seperti nama orang atau nomor rekening internasional? Jawabannya ada pada kolaborasi unik antara kecerdasan buatan (AI) dan aturan buatan manusia. Simak cerita di balik layar dari sudut pandang praktisi cybersecurity!

Table of Contents

Kapan AI Bisa Salah? Kisah IBAN yang Menipu

Bayangkan Anda menemukan deret karakter: BR16 3974 1585 7194 5589 3390 477J V. Apakah ini nomor rekening Brasil (IBAN) atau kode produk? Untuk manusia, jawabannya jelas: kode “BR” adalah kode negara Brasil, dan panjangnya sesuai standar IBAN Brasil (29 karakter). Tapi bagi machine learning (ML) yang dilatih asal-asalan, ini bisa jadi mimpi buruk.

Contoh Kegagalan ML:

Jika data latih ML hanya berisi IBAN Spanyol yang diakhiri huruf V, AI mungkin mengira V adalah penanda Spanyol—padahal itu IBAN Brasil.
Hasilnya: klasifikasi salah, alarm palsu (false positive), dan tim keamanan kebingungan.

Mengapa Aturan Manual Lebih Baik untuk Kasus Ini?
Open Raven menggunakan regex (regular expressions/pola pencarian) dan tabel negara untuk IBAN. Cara ini:

Lebih Cepat: Tidak perlu proses komputasi berat.
Lebih Akurat: Tidak terpengarusi “prasangka” AI dari data latih yang bias.
Minim Biaya: Menghemat sumber daya cloud.

Komentar Praktisi Cybersecurity:
“AI itu seperti anak pintar yang mudah tersesat jika tidak dibimbing. Untuk data terstruktur seperti IBAN, aturan manual lebih efektif. Ini contoh sempurna ‘jangan paksa paku dengan palu’.”

Di Mana AI Bersinar? Deteksi Nama Orang dan Kata Sandi

Lain cerita saat menghadapi data tidak terstruktur seperti nama orang atau kode rahasia. Contoh:

Apakah “Will” dalam dokumen merujuk pada nama orang atau kata kerja (will = akan)?
Apakah string X3FgH%78 adalah password atau kode produk?

Di sini, AI menjadi pahlawan. Open Raven menggunakan pendekatan hybrid:

1. Named Entity Recognition (NER) Plus

NER Standar: Biasanya dipakai untuk teks berbahasa alami (e.g., artikel berita).
Adaptasi Open Raven: Mereka modifikasi NER untuk membaca log server, file JSON, atau kode program—dengan memadukan statistik nama, dataset teks besar, dan pola format nama.

Contoh Teknis:

Sistem membuat regex raksasa hasil generate mesin (yang tidak mungkin ditulis manusia) untuk mencocokkan ribuan pola nama.
Model ML yang di-compress agar hemat memori dan cepat dijalankan.

2. Validator Cerdas untuk Redam False Positive

Untuk data seperti nomor paspor (8 karakter alfanumerik), regex sederhana seperti [A-Za-z0-9]{8} rentan memicu alarm palsu. Solusinya:

Model Bahasa Khusus: Mirip GPT-4 versi mini, dilatih membedakan ID penting vs. string acak.
Cek Konteks: Jika string berada di dekat kata kunci seperti “passport” atau “ID”, sistem tingkatkan akurasinya.

Ini seperti mempekerjakan detektif manusia dan AI. Detektif AI mencari pola, lalu manusia (melalui aturan) memverifikasi: ‘Ini beneran paspor atau cuma kode produk?’

Strategi Hybrid: Efisiensi + Akurasi

Open Raven tidak menjalankan AI di seluruh data. Sebaliknya, mereka pakai two-step filtering:

Langkah 1: Gunakan regex/aturan manual untuk temukan kandidat data sensitif.
Langkah 2: Jalankan model ML hanya pada kandidat yang lolos langkah 1.

Keuntungan:

Hemat Biaya: Tidak perlu pakai AI untuk petabyte data—cukup fokus pada bagian kritis.
Cepat: Proses mikrodetik tetap terjaga.
Minim Error: AI hanya bekerja di area “abu-abu” yang sulit bagi aturan manual.

Studi Kasus Nyata:
Saat mendeteksi developer secret (e.g., token API) dalam kode, sistem Open Raven:

Pakai regex untuk temukan pola seperti sk_live_51abc123.
Lalu, model ML mengecek apakah string tersebut valid (misal: dengan membandingkan struktur token dari penyedia layanan seperti AWS atau GitHub).

Risiko Jika Salah Pilih Metode

Menurut ahli, kesalahan implementasi hybrid bisa berakibat:

Banjir False Positive: Tim IT kebingungan investigasi alarm palsu.
Kebocoran Tak Terdeteksi (False Negative): Data sensitif lolos karena AI/aturan tidak menjangkaunya.
Biaya Melonjak: Pemakaian AI tidak terarah membebani anggaran cloud.

Tips Praktis:

Audit Alat Secara Berkala: Pastikan regex dan model AI di-update sesuai tren terbaru (e.g., format nomor KTP yang berubah).
Prioritaskan Data Kritis: Fokuskan AI pada data high-risk (e.g., informasi medis, finansial).
Uji dengan Data Sintetis: Sebelum deploy, tes alat dengan data palsu yang mirip asli untuk ukur akurasi.

Next: Dari Klasifikasi ke Aksi!

Di Bagian 3, kita akan kupas bagaimana Open Raven mengubah hasil klasifikasi menjadi real action:

Deteksi Kombo Berbahaya: Misal, file yang berisi nama + nomor KTP + rekening bank—kombinasi ideal untuk pencurian identitas.
Secure Data Previews: Fitur yang memungkinkan tim melihat cuplikan data tanpa membuka informasi sensitif.
Scan Metadata: Lacak asal-usul data untuk identifikasi risiko (e.g., data lama yang terabaikan).

AI itu powerful, tapi bukan dewa. Kuncinya adalah kolaborasi: biarkan mesin mengerjakan apa yang mereka kuasai, dan manusia fokus pada logika bisnis. Dengan pendekatan hybrid, Open Raven membuktikan bahwa keamanan data skala besar bukanlah mimpi—asal ada strategi yang tepat.

Next Bagian 3: Dari Peringatan ke Tindakan—Cara Open Raven Hadang Pelanggaran Data Sebelum Terjadi!