OpenAI añade capacidades de voz e imagen a ChatGPT

Lo que hacen las nuevas funciones

Con la capacidad de voz, los usuarios ahora pueden hablar directamente con ChatGPT en lugar de escribir. El sistema reconoce el habla natural y responde en un tono conversacional. Para el procesamiento de imágenes, las personas pueden tomar una foto o subir una desde su galería, y la IA describirá lo que ve, identificará objetos o responderá preguntas sobre el contenido. La empresa afirma que ambas funciones funcionan en las versiones de escritorio y móvil de ChatGPT.

Cómo cambia la experiencia del usuario

Para alguien que cocina la cena y necesita un sustituto rápido, la entrada por voz significa que no tiene que detenerse a escribir. Un viajero podría tomar una foto de una señal de tráfico extranjera y pedirle al chatbot que la traduzca o explique. La combinación de voz y visión acerca a ChatGPT a un asistente manos libres que entiende el contexto tanto de las palabras habladas como de las señales visuales. Las funciones se están implementando para los usuarios durante las próximas semanas, aunque OpenAI no ha especificado una fecha precisa para su disponibilidad total.

Dónde encaja la tecnología

Otros chatbots de IA ya ofrecen entrada por voz o reconocimiento de imágenes, pero integrar ambos en un solo producto ampliamente utilizado como ChatGPT es un paso notable. OpenAI ha estado agregando gradualmente capacidades multimodales: a principios de este año introdujo la capacidad de generar imágenes con DALL-E, y ahora está llevando la percepción en la otra dirección.

Lo que hacen las nuevas funciones

Cómo cambia la experiencia del usuario

Dónde encaja la tecnología

Artículos Relacionados