OpenAI ha publicado una guía detallada para investigadores y organizaciones independientes encargados de probar sus sistemas de inteligencia artificial más avanzados. El manual, publicado esta semana, describe cómo los evaluadores externos deben evaluar los modelos de IA de frontera — los sistemas potentes y de propósito general que se sitúan en la vanguardia del campo.
Qué cubre el manual
El documento se centra en tres pilares: salvaguardias, validez y plataformas de pruebas estructuradas. Las salvaguardias se refieren a las medidas de seguridad que los evaluadores deben seguir para evitar consecuencias no deseadas durante las pruebas. La validez garantiza que las pruebas midan realmente lo que dicen medir — que los resultados sean reproducibles y significativos. Las plataformas de pruebas estructuradas son los marcos técnicos que permiten a los evaluadores ejecutar experimentos estandarizados y controlados en los modelos.
El objetivo de OpenAI es que las evaluaciones externas sean consistentes y fiables. La compañía ha invitado durante mucho tiempo a investigadores externos a sondear sus modelos, pero esta es la primera vez que ofrece una guía formal paso a paso para el proceso. El manual pretende reducir la ambigüedad y ayudar a los evaluadores a evitar errores comunes, como entrenar accidentalmente el modelo durante una prueba o malinterpretar los resultados.
Por qué es importante realizar pruebas estructuradas
Los modelos de IA de frontera pueden realizar una amplia variedad de tareas — desde escribir código hasta generar imágenes realistas — lo que dificulta su evaluación exhaustiva. Una simple prueba basada en chat podría pasar por alto riesgos sutiles, como la capacidad del modelo para manipular o engañar. El manual de OpenAI intenta abordar esto impulsando a los evaluadores hacia configuraciones de prueba más rigurosas y modulares.
La compañía ha sido criticada en el pasado por depender demasiado de las pruebas internas. Las auditorías externas se han convertido en una demanda clave por parte de los responsables políticos y los defensores de la seguridad. Al proporcionar un manual estándar, OpenAI busca demostrar que se toma en serio la supervisión independiente — y que quiere establecer una línea de base para el resto de la industria.
La compañía ha declarado que el manual está diseñado para dar a los evaluadores externos capacidades comparables a las de sus equipos internos.
Para los investigadores y las firmas de auditoría, el manual significa que ya no tienen que empezar desde cero. Incluye plantillas para planes de prueba, orientación sobre el manejo de datos y listas de verificación para documentar los resultados. OpenAI indica que la guía está pensada como un documento vivo — se actualizará a medida que los modelos evolucionen y la comunidad aprenda qué funciona.
El manual también aborda cuestiones éticas. Se indica a los evaluadores que eviten pruebas que puedan perjudicar a personas o violar la privacidad, y que informen de inmediato sobre cualquier capacidad peligrosa que descubran. Ese canal de notificación es una parte crítica del proceso: OpenAI quiere conocer los problemas antes de que se hagan públicos.
Algunos observadores han señalado que el manual es voluntario — los terceros no están obligados a seguirlo. Pero OpenAI espera que, al ofrecer una metodología clara y bien diseñada, se convierta en el estándar de facto para las evaluaciones de IA de frontera. La compañía también está trabajando en herramientas automatizadas que podrían ayudar a hacer cumplir las reglas del manual.
Próximos pasos: OpenAI planea abrir el manual a comentarios públicos a finales de este año y publicar una versión adaptada para modelos más pequeños y menos potentes. La compañía aún no ha dicho cuándo se publicará el primer lote de evaluaciones formales de terceros utilizando el manual.




