OpenAI发布前沿AI模型第三方评估操作手册

OpenAI发布了一份详细指南，供独立研究人员和组织用于测试其最先进的人工智能系统。本周发布的操作手册阐述了第三方评估者应如何评估前沿AI模型——即处于该领域最前沿的、功能强大的通用系统。

手册涵盖内容

该文件聚焦三大支柱：安全防护、有效性和结构化框架。安全防护指评估者在测试过程中必须遵循的安全措施，以防止意外后果。有效性确保测试确实测量其声称的指标——结果具有可重复性和有意义性。结构化框架是技术架构，允许评估者对模型进行标准化、受控的实验。

OpenAI的目标是使外部评估保持一致且值得信赖。该公司一直邀请外部研究人员探查其模型，但这是首次提供正式的、分步骤的操作指南。该手册旨在减少模糊性，帮助评估者避免常见陷阱，例如在测试中意外训练模型或错误解读输出。

前沿AI模型能够执行广泛的任务——从编写代码到生成逼真图像——这使得全面评估它们变得困难。简单的聊天式测试可能会遗漏细微风险，例如模型操纵或欺骗的能力。OpenAI的手册试图通过推动评估者采用更严谨、模块化的测试设置来解决这一问题。

该公司过去因过度依赖内部测试而受到批评。外部审计已成为政策制定者和安全倡导者的关键要求。通过提供标准手册，OpenAI旨在表明其认真对待独立监督，并希望为整个行业设定基准。

该公司表示，该手册旨在让外部评估者获得与内部团队相同的工具和知识。

对于研究人员和审计机构而言，该手册意味着他们不再需要从零开始。它包含测试计划模板、数据处理指南以及记录结果的检查表。OpenAI表示，该指南是一份动态文档——将随着模型的演进和社区经验的积累而更新。

该手册还涉及伦理问题。评估者被告知要避免可能伤害他人或侵犯隐私的测试，并立即报告发现的任何危险能力。这一报告流程是关键环节：OpenAI希望在问题公开前了解情况。

一些观察人士指出，该手册是自愿性的——第三方并非必须遵循。但OpenAI希望，通过提供清晰、设计良好的方法论，它将成为前沿AI评估的事实标准。该公司还在开发可自动执行手册规则的自动化工具。

下一步：OpenAI计划在今年晚些时候公开征求对手册的意见，并发布针对较小、功能较弱模型的版本。该公司尚未透露首批使用该手册的正式第三方评估结果将于何时公布。