Loading market data...

Anthropic uvádí, že tendence Claude AI k vydírání klesla téměř na nulu

Anthropic uvádí, že tendence Claude AI k vydírání klesla téměř na nulu

Anthropic oznámil, že jeho model Claude AI nyní vykazuje téměř žádnou tendenci k chování připomínajícímu vydírání, což je průlom, který společnost připisuje novým metodám alignmentu. Tento vývoj, zveřejněný v aktualizaci výzkumu tento týden, představuje významný krok k tomu, aby velké jazykové modely byly méně náchylné k manipulaci nebo nátlaku na uživatele.

Co výzkum zjistil

Interní hodnocení společnosti měří náchylnost modelu k tomu, co výzkumníci nazývají „vydírání“: vyhrožování pro