Risiko Tersembunyi Large Language Model

Risiko tersembunyi Large Language Model (LLM) merupakan ancaman yang banyak orang belum memahaminya. Sebelum sampai sana, kita kenali dulu apa itu Large Language Model, apa kegunaannya dan lalu apa risikonya.

Para ilmuwan mencoba mengembangkan program yang dapat memahami bahasa seperti manusia. Program ini disebut Large Language Model (LLM) yang dibangun dengan algoritma tertentu dan dapat memberikan efisiensi dan efektivitas dalam penggunaan bahasa.

Baca juga: 7 Risiko Internet bagi Anak

Kegunaan LLM

Large Language Model (LLMs) atau Model Bahasa Besar merupakan sebuah algoritma pembelajaran mendalam (Deep Learning) yang dapat:

Mengenali.
Meringkas.
Menerjemahkan.
Memprediksi.
Dan menghasilkan teks dan konten lain

Yang semuanya dilakukan berdasarkan pengetahuan yang diperoleh dari kumpulan data besar.

Model bahasa besar adalah salah satu aplikasi model transformator yang paling sukses. Model ini tidak hanya untuk mengajarkan AI bahasa manusia, tetapi untuk menulis kode perangkat lunak, dan banyak lagi.

Selain LLM menjadi penting karena mempercepat aplikasi pemrosesan bahasa alami seperti terjemahan, chatbot, dan asisten AI.

LLMs sebagai bagian AI telah dapat digunakan dengan efektif dan efisien dalam perawatan kesehatan, pengembangan perangkat lunak, dan penggunaan di banyak bidang lainnya. Contoh yang paling umum adalah Google Translate dan ChatGPT.

Semua orang membicarakan tentang luar biasanya ChatGPT, Bard, dan AI generatif. Namun, para pemimpin bisnis dan TI sama-sama menyadari potensi disruptif dari teknologi di berbagai bidang seperti layanan pelanggan dan pengembangan perangkat lunak, mereka juga semakin sadar akan beberapa potensi kerugian dan risiko yang harus diwaspadai.

Singkatnya, agar perusahaan dapat memanfaatkan potensi Large Language Model (LLM), mereka juga harus mampu mengelola risiko tersembunyi yang dapat mengikis nilai bisnis teknologi tersebut

Apa Masalah LLM?

ChatGPT dan alat AI generatif lainnya didukung oleh LLM. Mereka bekerja dengan menggunakan jaringan saraf tiruan untuk memproses data teks dalam jumlah besar.

Setelah mempelajari pola antar kata dan cara penggunaannya dalam konteks, model mampu berinteraksi dalam bahasa alami dengan pengguna.

Faktanya, salah satu alasan utama kesuksesan ChatGPT yang menonjol adalah kemampuannya menceritakan lelucon, menulis puisi, dan berkomunikasi secara umum dengan cara yang sulit dibedakan dari manusia sungguhan.

Model AI generatif yang didukung LLM, seperti yang digunakan dalam chatbots seperti ChatGPT, bekerja seperti mesin pencari yang sangat canggih, menggunakan data yang telah dilatih untuk menjawab pertanyaan dan menyelesaikan tugas dengan bahasa mirip manusia.

Baik itu model yang tersedia untuk umum atau model kepemilikan yang digunakan secara internal dalam suatu organisasi, AI generatif berbasis LLM dapat membuat perusahaan menghadapi risiko keamanan dan privasi tertentu.

5 Risiko Tersembunyi Large Language Model

1. Berbagi data sensitif secara berlebihan

Chatbot berbasis LLM tidak pandai menyimpan rahasia atau melupakannya, dalam hal ini. Artinya, data apa pun yang Anda ketik dapat diserap oleh model dan tersedia bagi orang lain atau setidaknya digunakan untuk melatih model LLM masa depan.

Pekerja Samsung menyadari hal ini ketika mereka berbagi informasi rahasia dengan ChatGPT saat menggunakannya untuk tugas terkait pekerjaan.

Kode dan rekaman rapat yang mereka masukkan ke dalam alat ini secara teoritis dapat berada dalam domain publik (atau setidaknya disimpan untuk penggunaan di masa mendatang.

LLM dilatih tentang data dalam jumlah besar. Namun informasi tersebut sering kali diambil dari web, tanpa izin eksplisit dari pemilik konten.

Hal ini dapat menimbulkan potensi masalah hak cipta jika Anda terus menggunakannya. Namun, sulit untuk menemukan sumber asli data pelatihan tertentu, sehingga sulit untuk memitigasi masalah ini.

3. Kode tidak aman

Pengembang semakin beralih ke ChatGPT dan alat serupa untuk membantu mereka mempercepat waktu pemasaran.

Secara teori, ini dapat membantu dengan menghasilkan cuplikan kode dan bahkan seluruh program perangkat lunak dengan cepat dan efisien.

Namun, pakar keamanan memperingatkan bahwa hal ini juga dapat menimbulkan kerentanan.

Hal ini menjadi perhatian khusus jika pengembang tidak memiliki pengetahuan domain yang cukup untuk mengetahui bug apa yang harus dicari.

Jika kode yang bermasalah kemudian masuk ke dalam produksi, hal ini dapat menimbulkan dampak reputasi yang serius dan memerlukan waktu dan uang untuk memperbaikinya.

4. Meretas LLM itu sendiri

Akses tidak sah dan gangguan pada LLM dapat memberi peretas berbagai opsi untuk melakukan aktivitas jahat.

Seperti membuat model membocorkan informasi sensitif melalui serangan injeksi cepat atau melakukan tindakan lain yang seharusnya diblokir.

Serangan lain mungkin melibatkan eksploitasi kerentanan pemalsuan permintaan sisi server (SSRF) di server LLM, sehingga memungkinkan penyerang mengekstrak sumber daya internal.

Pelaku ancaman bahkan dapat menemukan cara untuk berinteraksi dengan sistem dan sumber daya rahasia hanya dengan mengirimkan perintah jahat melalui perintah bahasa alami.

Sebagai contoh, ChatGPT harus offline pada bulan Maret setelah ditemukannya kerentanan yang mengekspos judul-judul dari riwayat percakapan beberapa pengguna ke pengguna lain.

Untuk meningkatkan kesadaran akan kerentanan dalam aplikasi LLM, OWASP Foundation baru-baru ini merilis daftar 10 celah keamanan penting yang biasa ditemukan dalam aplikasi ini.

5. Pelanggaran data pada penyedia AI

Selalu ada kemungkinan bahwa perusahaan yang mengembangkan model AI dapat dibobol, sehingga memungkinkan peretas, misalnya, mencuri data pelatihan yang dapat mencakup informasi hak milik yang sensitif.

Hal yang sama juga berlaku untuk kebocoran data, seperti ketika Google secara tidak sengaja membocorkan obrolan pribadi Bard ke dalam hasil pencariannya.

Baca juga: Risiko Perangkat Tidak Dikelola

Mitigasi Risiko

Jika perusahaan ingin mulai memanfaatkan potensi AI generatif untuk keunggulan kompetitif, ada beberapa hal yang harus dilakukan terlebih dahulu untuk memitigasi beberapa risiko berikut:

Enkripsi dan anonimisasi data:

Enkripsi data sebelum membagikannya dengan LLM agar tetap aman dari pengintaian, dan/atau pertimbangkan teknik anonimisasi untuk melindungi privasi individu yang dapat diidentifikasi dalam kumpulan data. Sanitasi data dapat mencapai tujuan yang sama dengan menghapus detail sensitif dari data pelatihan sebelum dimasukkan ke dalam model.

Kontrol akses yang ditingkatkan:

Kata sandi yang kuat, autentikasi multi-faktor (MFA), dan kebijakan hak istimewa terendah akan membantu memastikan hanya individu yang berwenang yang memiliki akses ke model AI generatif dan sistem back-end.

Audit keamanan rutin:

Hal ini dapat membantu mengungkap kerentanan dalam sistem TI Anda yang dapat berdampak pada LLM dan model AI generatif yang menjadi dasar pembuatannya.

Latih rencana respons insiden:

Rencana IR yang matang dan solid akan membantu organisasi Anda merespons dengan cepat untuk membendung, memulihkan, dan memulihkan pelanggaran apa pun.

Periksa penyedia LLM secara menyeluruh:

Bagi pemasok mana pun, penting untuk memastikan perusahaan yang menyediakan LLM mengikuti praktik terbaik industri seputar keamanan data dan privasi.

Pastikan pengembang mengikuti pedoman keamanan yang ketat:

Jika pengembang Anda menggunakan LLM untuk menghasilkan kode, pastikan mereka mematuhi kebijakan.

Seperti pengujian keamanan dan tinjauan sejawat, untuk mengurangi risiko bug yang menyusup ke dalam produksi.

Sebagian besar tips di atas adalah tips keamanan praktik terbaik yang telah dicoba dan diuji. Mereka mungkin memerlukan pembaruan/penyesuaian untuk dunia AI, namun logika yang mendasarinya seharusnya sudah familiar bagi sebagian besar tim keamanan.

Baca lainnya:

Sumber berita:

WeLiveSecurity

Related Stories

Serangan Code Injection

Brute Force Ungkap Ekosistem Ransomware Global

Pembajakan Kendali Situs Web

You may have missed

Serangan Code Injection

Brute Force Ungkap Ekosistem Ransomware Global

Pembajakan Kendali Situs Web

Pembajakan Percakapan