Anthropic vendte sin holdning til usynlige præstationssikkerhedsforanstaltninger for Claude efter fællesskabets modreaktion mod 'Fable 5'-hændelsen. Virksomheden vil nu implementere synlige sikkerhedsforanstaltninger i stedet for skjulte præstationsbegrænsninger. Denne ændring, annonceret tirsdag, vil øge falske positive indholdsmarkeringer på tværs af platformen.
Fable 5 udløser brugerprotester
Sidste uges 'Fable 5'-hændelse fik Claude til at begrænse svar uden klare forklaringer, hvilket frustrerede brugere og udviklere. Fællesskabets medlemmer oversvømmede sociale medier og fora med klager over manglende gennemsigtighed. De argumenterede for, at skjulte præstationsgrænser gjorde det umuligt at forstå, hvorfor legitime forespørgsler blev blokeret. Modreaktionen eskalerede, da brugerne indså, at de ikke kunne justere indstillinger for at omgå restriktionerne.
Fra usynlige mure til synlige grænser
Tidligere brugte Claude skjulte præstationssikkerhedsforanstaltninger, der fungerede uden brugerens synlighed. Nu erstatter Anthropic dem med synlige sikkerhedsforanstaltninger, der straks underretter brugerne, når indhold udløser et flag. Virksomheden bekræftede, at skiftet direkte svarer på fællesskabets krav om klarhed. Brugere vil se specifikke årsager til, hvorfor beskeder bliver flaget, som 'følsomt indhold registreret' eller 'kontekstuelle grænser overskredet', i stedet for generiske fejl.
Afvejning: Flere falske positiver forude
Anthropic erkender, at de synlige sikkerhedsforanstaltninger vil medføre flere falske positive indholdsmarkeringer. Det betyder, at uskadelige beskeder – som diskussion af historiske begivenheder eller akademiske emner – kan blive blokeret oftere end under det skjulte system. Virksomheden oplyste, at denne stigning er en uundgåelig konsekvens af gennemsigtighed, men kvantificerede ikke den forventede stigning. Ingeniører prioriterer nøjagtighed af sikkerhedsforanstaltningerne, men advarede brugere om at forvente hyppigere afbrydelser under overgangen.
Hvad brugerne vil opleve
De synlige sikkerhedsforanstaltninger rulles straks ud på tværs af alle Claude-grænseflader. Brugere vil nu se tydelige pop-up-meddelelser, der forklarer, hvorfor deres input udløste et flag, inklusive specifikke retningslinjereferencer. Mens nogle hilste gennemsigtigheden velkommen, rapporterede andre straks mindre frustrationer over, at legitime beskeder blev flaget. Virksomheden har ikke forpligtet sig til at reducere falske positiver, men sagde, at den indsamler brugerfeedback for at forfine systemet.
Anthropics ingeniørteam overvåger tidlige udrulningsdata, efterhånden som brugerne støder på de nye synlige flag for første gang.



