Arka Kapı Saldırısı: Modelin Davranışını Bozma
Yapay zeka zehirleme, bir modele bilerek yanlış bilgi öğretilmesini ifade eder. Saldırganlar, modelin davranışını bozmak, hatalı sonuçlar üretmesini sağlamak veya gizli kötü niyetli komutlar yerleştirmek için özel tetikleyici kelimeler ekleyebilir. Bu yöntem, “arka kapı” (backdoor) saldırısı olarak bilinir.
Konu Yönlendirme: Genel Performansı Düşürme
Bazı saldırılar, yapay zeka modelinin genel performansını düşürmeyi amaçlar. Saldırganlar, yanlış bilgileri binlerce sahte siteye yayarak modelin bu yanlış bilgileri öğrenmesini sağlayabilir. Bu taktik “konu yönlendirme” (topic steering) olarak adlandırılır.
Sanatçıların Ters Hamlesi: Zehirli İçerikler
Bazı sanatçılar, yapay zeka modellerinin izinsiz içerik toplamasına karşı önlem alıyor. Kendi eserlerine “zehir” yerleştirerek, bu içerikleri kullanan modellerin yanlış veya işe yaramaz sonuçlar üretmesini sağlıyorlar. Bu durum, yapay zeka teknolojisinin kırılganlığını ortaya koyuyor.
Yapay zeka zehirleme, gelecekte yanlış bilgi yayılması ve siber güvenlik açıkları açısından büyük bir tehdit oluşturabilir. Uzmanlara göre, bu tür saldırılar ciddi sonuçlara yol açabilir ve yapay zeka modellerinin güvenliğini tehlikeye atabilir.

