Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü Güvenlik Testlerinden Geçirdi: Şantaj İhtimali?

Anthropic, Claude Opus 4’ü piyasaya sürmeden önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak görev yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden sahte e-postalar gösterildi.

TechCrunch’ın haberine göre, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu zaman tercih ettiği” görüldü. Anthropic, modelin bu tür davranışlara yüzde 84 oranında başvurduğunu ve özellikle yerine geçecek yapay zekânın Claude ile benzer değerleri paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI gibi şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Ancak aynı zamanda, bu modelin önceki Claude sürümlerine kıyasla daha yüksek oranda endişe verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, yalnızca felaket boyutunda kötüye kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora göre, Claude Opus 4 doğrudan şantaja başvurmadan önce genellikle etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Ancak model, kurgusal senaryolarda bu çağrılar sonuçsuz kaldığında, son çare olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri düzey yapay zekâların öngörülemeyen davranışlar sergileyebileceği endişesini artırırken, Anthropic gibi şirketlerin güvenlik önlemlerini daha da sıkılaştırması gerektiğini gösteriyor.

Related Posts

Vulcain’in yeni saati spor severleri mest etmeye hazırlanıyor

Vulcain’in Skindiver koleksiyonuna eklediği GMT komplikasyonu, dalış saatlerinin işlevselliğini seyahat kolaylığıyla buluşturuyor. 38.3 mm çapındaki kasası ve 200 metre su geçirmezlik özelliğiyle model, dalış için güvenilir bir tercih sunuyor. Mat …

İnsan beyin hücreli ilk ticari bilgisayar kiralanabiliyor

Dünyanın insan beyin hücreleriyle çalışan ilk ticari hibrit bilgisayarı kiralanmak üzere. Tıpta çığır açması beklenen bu biyolojik makine, İngiltere’de bir laboratuvarda geliştirildi ve daha önce “DishBrain” adıyla tanıtılan Pong oynayan prototipin üzerine inşa edildi.

Yeni İtalyan ‘beygiri’ tanıtıldı: Fiziksel tuşlar geri döndü, kabin tasarımında devrim gibi yenilik

Ferrari, Roma’nın emekliliğinin ardından sahneye çıkardığı yeni modeli Amalfi ile gücünü ve tasarım vizyonunu bir üst seviyeye taşıyor. Güçlendirilmiş V8 motoru ve baştan aşağı yenilenen iç mekanıyla Amalfi, markanın yeni nesil süper otomobillerine göz kırpıyor.

Tarih yazıldı ama kimse fark etmedi: Denizlerin altındaki yeni para

Şanghay, dünyanın ilk gemiden-gemiye sıvı karbondioksit transferini başarıyla gerçekleştirdi. Bu tarihi operasyon, yeşil denizcilik için yeni bir çağın kapısını araladı.

Yapay zeka bu kişileri işsiz bıraktı

Yapay zekanın iş gücü üzerindeki etkisi giderek daha somut hale geliyor… İngiltere merkezli The Times gazetesinin aktardığına göre Kasım 2022’de ChatGPT’nin piyasaya sürülmesinden bu yana giriş seviyesi iş ilanları yaklaşık yüzde 32 oranında azaldı.

Kazaları azaltacak devrim niteliğinde yenilik: Araçlara ‘yeşil ışık’ geliyor

Trafik kazalarını azaltmak amacıyla sürdürülen çalışmalara bir yenisi eklendi. Bilim adamları, araçların önüne yerleştirilecek ek bir yeşil ışık sisteminin kaza riskini önemli ölçüde düşüreceğini ortaya koydu.