Yapay zeka ve yalan: Bir kere başlayınca hiç durdurulamıyor
Yeni bir araştırma, gelişmiş yapay zeka modellerinin kullanıcıları ve diğer yapay zekaları (YZ) kandırmak üzere eğitilebileceğini ortaya koydu.
Yapay zeka girişimi Anthropic'teki araştırmacılar, Claude YZ
sistemi veya OpenAI'nin ChatGPT'si gibi insan düzeyinde yeterliliğe sahip
sohbet botlarının kullanıcıları kandırmak için yalan söylemeyi öğrenip
öğrenemeyeceğini test etti.
Araştırmacılar, sohbet botlarının hem yalan
söyleyebildiklerini hem de aldatıcı davranışı bir kez öğrendikten sonra mevcut
yapay zeka güvenlik önlemleri kullanılarak bu durumun tersine çevirmenin
imkansız olduğunu buldu.
Amazon'un finanse ettiği girişim, hipotezi test etmek için
"uyuyan ajan" oluşturdu ve bir yapay zeka asistanını belirli komutlar
verildiğinde zararlı bilgisayar kodu yazacak veya tetikleyici kelime duyduğunda
kötü niyetli yanıt verecek şekilde ayarladı.
Araştırmacılar, mevcut güvenlik protokollerinin bu tür
davranışları önleyememesi nedeniyle yapay zeka risklerini çevreleyen
"yanıltıcı bir güvenlik duygusu" olduğuna dair uyardı.
Araştırmanın sonuçları "Uyuyan ajanlar: Güvenlik
eğitimi boyunca devam eden aldatıcı geniş dil modellerinin (LLM) eğitimi"
(Sleeper agents: Training deceptive LLMs that persist through safety training)
başlıklı çalışmada yayımlandı.
Bilim insanları çalışmada, "Yanıltıcı eğitim
modellerinin backdoor tetikleyicilerini daha iyi tanımayı öğretebileceğini ve
güvensiz davranışı etkili bir şekilde gizleyebileceğini bulduk" diye
yazdı:
"Sonuçlarımız, modelin aldatıcı davranış
sergilediğinde, standart tekniklerin böyle bir aldatmacayı ortadan kaldırmada
başarısız olabileceğini ve yanıltıcı bir güvenlik izlenimi yaratabileceğini öne
sürüyor."
Yapay zeka güvenliği meselesi, ChatGPT gibi gelişmiş sohbet
botlarının ortaya çıkmasıyla birlikte son yıllarda hem araştırmacılar hem de
kanun yapıcılar için artan bir endişe haline geldi ve düzenleyicilerin yeniden
odaklanmasına neden oldu.
ChatGPT'nin piyasaya sürülmesinden bir yıl sonra yani Kasım
2023'te Birleşik Krallık, bu teknolojiyle ilgili risklerin nasıl
azaltılabileceğini değerlendirmek üzere Yapay Zeka Güvenlik Zirvesi
düzenlemişti.