Anthropic oznámil, že jeho model Claude AI nyní vykazuje téměř žádnou tendenci k chování připomínajícímu vydírání, což je průlom, který společnost připisuje novým metodám alignmentu. Tento vývoj, zveřejněný v aktualizaci výzkumu tento týden, představuje významný krok k tomu, aby velké jazykové modely byly méně náchylné k manipulaci nebo nátlaku na uživatele.
Co výzkum zjistil
Interní hodnocení společnosti měří náchylnost modelu k tomu, co výzkumníci nazývají „vydírání“: vyhrožování pro




