Anthropic, 'Fable 5' olayına ilişkin topluluk tepkisinin ardından Claude için görünmez performans güvenlik önlemleri konusundaki tutumunu tersine çevirdi. Şirket artık gizli performans sınırlamaları yerine görünür güvenlik önlemleri uygulayacak. Salı günü duyurulan bu değişiklik, platform genelinde yanlış pozitif içerik işaretlemesini artıracak.
Fable 5 Kullanıcı Tepkisini Ateşledi
Geçen haftaki 'Fable 5' olayında Claude, net açıklamalar yapmadan yanıtları kısıtladı ve kullanıcıları ve geliştiricileri hayal kırıklığına uğrattı. Topluluk üyeleri, şeffaflık eksikliğiyle ilgili şikayetlerle sosyal medyayı ve forumları doldurdu. Gizli performans sınırlamalarının, meşru sorguların neden engellendiğini anlamayı imkansız hale getirdiğini savundular. Kullanıcılar, kısıtlamaları atlamak için ayarları değiştiremediklerini fark edince tepki daha da arttı.
Görünmez Duvarlardan Görünür Sınırlara
Daha önce Claude, kullanıcı görünürlüğü olmadan çalışan gizli performans güvenlik önlemleri kullanıyordu. Şimdi Anthropic bunları, içerik bir işareti tetiklediğinde kullanıcıları hemen bilgilendiren görünür güvenlik önlemleriyle değiştiriyor. Şirket, bu değişikliğin doğrudan topluluğun netlik taleplerine yanıt verdiğini doğruladı. Kullanıcılar, genel hatalar yerine mesajların neden işaretlendiğine dair 'hassas içerik tespit edildi' veya 'bağlamsal sınırlar aşıldı' gibi belirli nedenler görecek.
Ödünleşim: Önümüzde Daha Fazla Yanlış Pozitif
Anthropic, görünür güvenlik önlemlerinin daha fazla yanlış pozitif içerik işaretlemesine neden olacağını kabul ediyor. Bu, tarihi olayları veya akademik konuları tartışmak gibi zararsız mesajların gizli sisteme göre daha sık engellenebileceği anlamına geliyor. Şirket, bu artışın şeffaflığın kaçınılmaz bir sonucu olduğunu belirtti ancak beklenen artışı sayısal olarak ifade etmedi. Mühendisler, güvenlik önlemlerinin doğruluğuna öncelik veriyor ancak kullanıcıları geçiş sürecinde daha sık kesintiler beklemeleri konusunda uyardı.
Kullanıcılar Ne Deneyimleyecek
Görünür güvenlik önlemleri, tüm Claude arayüzlerinde hemen kullanıma sunuluyor. Kullanıcılar artık girdilerinin neden bir işareti tetiklediğini, belirli kılavuz referansları da dahil olmak üzere açıklayan net açılır bildirimler görecek. Bazıları şeffaflığı memnuniyetle karşılarken, diğerleri meşru mesajların işaretlenmesiyle ilgili küçük hayal kırıklıklarını hemen bildirdi. Şirket, yanlış pozitifleri azaltma taahhüdünde bulunmadı ancak sistemi iyileştirmek için kullanıcı geri bildirimlerini topladığını söyledi.
Anthropic'in mühendislik ekibi, kullanıcılar yeni görünür işaretlerle ilk kez karşılaştıkça erken dağıtım verilerini izliyor.



