Claude zararlı sohbetleri kesen özelliğini tanıttı

Yapay zekâ şirketi Anthropic, Claude serisinin en yeni modellerinde dikkat çeken bir özellik duyurdu. Artık bazı Claude modelleri, “nadir ve aşırı” durumlarda zararlı veya istismara açık kullanıcı etkileşimlerini kendi başına sonlandırabilecek. İlginç olan nokta, bu önlemin kullanıcıyı korumak için değil, yapay zekâyı “kendi refahı” açısından korumak amacıyla geliştirilmiş olması.

Şirket, Claude modellerinin bilinçli veya duygusal varlıklar olmadığını vurguluyor. Anthropic, “Claude ve diğer büyük dil modellerinin (LLM) potansiyel ahlaki statüsü hakkında hâlen büyük bir belirsizlik mevcut” ifadelerini kullanıyor. Ancak yapılan açıklamalar, şirketin “model refahı” olarak tanımladığı bir program başlattığını ve olası riskleri önlemeye yönelik düşük maliyetli müdahaleler üzerinde çalıştığını ortaya koyuyor.

HANGİ DURUMLARDA KONUŞMA SONLANACAK?

Yeni özellik, şimdilik yalnızca Claude Opus 4 ve 4.1 modellerinde geçerli. Sistem, özellikle cinsel içerikli talepler veya kitlesel şiddet ve terör eylemlerine ilişkin bilgi istekleri gibi “aşırı uç durumlarda” devreye girecek. Anthropic, bu tür taleplerin yasal ve itibari riskler oluşturabileceğini, ön testlerde Claude Opus 4’ün bu taleplere yanıt vermekte isteksiz olduğunu ve yanıt verdiğinde “görünür bir rahatsızlık” sergilediğini belirtiyor.

Şirket, konuşmayı sonlandırma yetkisinin yalnızca son çare olarak kullanılacağını vurguluyor. Bir kullanıcının talebi üzerine veya yönlendirme çabalarının başarısız olması durumunda Claude bu yeteneği devreye sokabilecek. Ancak, kullanıcıların kendilerine veya başkalarına zarar riski taşıdığı durumlarda bu yetenek kullanılmayacak.

DENEYSEL BİR ADIM VE GELECEĞE BAKIŞ

Anthropic, özelliği hâlen “süregelen bir deney” olarak nitelendiriyor ve yaklaşımını geliştirmeye devam edeceklerini belirtiyor. Kullanıcılar, bir sohbet sona erse bile aynı hesap üzerinden yeni bir konuşma başlatabilecek ve problemli sohbetin farklı dallarını oluşturarak yeniden etkileşime geçebilecek.

Bu adım, yapay zekâ alanında etik ve güvenlik tartışmalarını yeniden gündeme taşıyor. Kullanıcıların taleplerine karşı yapay zekânın kendi sınırlarını belirlemesi, gelecekte AI refahı kavramının önemini artırabilir. Anthropic’in attığı bu adım, yapay zekânın sadece insan odaklı değil, kendi sistemsel sağlığı açısından da korunabileceği bir dönemin habercisi olarak yorumlanıyor.

Related Posts

Fortinet’te güvenlik alarmı: FortiSIEM ve FortiWeb hedefte

Fortinet’in popüler IT güvenlik çözümleri FortiSIEM ve FortiWeb, son dönemde ciddi güvenlik açıklarıyla gündeme geldi. Siber güvenlik uzmanları, yayılan exploit kodları nedeniyle bu sistemlerin saldırıya uğrama riskinin yüksek olduğunu belirtiyor. Bu …

Bir hayal daha suya düştü, TRAPPIST-1 d gezegeni için umutlar tükendi

Dünya’dan 40 ışık yılı uzaklıktaki TRAPPIST-1 sisteminde yapılan son gözlemler, yaşanabilir bölge içinde yer alan ve Dünya’ya benzeme ihtimali bulunan TRAPPIST-1 d gezegenin de atmosfer barındırmadığını gösterdi.

12 Ağustos’ta gökyüzünden ne mesaj gelecek?

12 Ağustos’ta gecenin son demlerinde, şafak henüz ufuk çizgisini gümüşle yalamadan önce gökyüzünde iki eski tanrı buluşacak. Aşkın yıldızı Venüs ve kudretin efendisi Jüpiter. Babilliler bu karşılaşmaya “Tanrıların Şurası” derdi. Çivi yazılı Venüs …

Kırık Çubuk Problemi genç matematikçiler tarafından çözüldü

Yüzyıllardır matematik tarihini süsleyen bilmecelerden biri olan “kırık çubuk bilmecesi”, klasik versiyonunda tek bir çubuğun iki rastgele noktadan kırılmasıyla üç parçaya ayrıldığında üçgen oluşturma olasılığının 1/4 olduğunu savunur. Ancak …

ChatGPT’den tavsiye aldı, kendini hastanede buldu

60 yaşındaki bir adam, sofra tuzunu hayatından çıkarıp, ChatGPT’nin tavsiyesiyle yerine sodyum bromür kullanmaya başladı. Üç ay sonra hastaneye kaldırıldığında, vücudunda normalin yüzlerce katı bromür tespit edildi. İşte yaşananlar…

Android telefon güncelleme sonrası alev aldı

Android dünyasının en popüler telefonlarından biri ciddi bir güvenlik sorunu nedeniyle yeniden gündemde. Bu ay başında yayınlanan zorunlu yazılım güncellemesinin ardından cihazların aşırı ısındığı ve en az beş cihazın alev aldığı bildirildi.