OpenAI добавляет голосовые и визуальные возможности в ChatGPT

OpenAI представила новые функции обработки голоса и изображений для ChatGPT, позволяющие пользователям общаться с чат-ботом голосом и загружать снимки для анализа ИИ. Обновление расширяет возможности инструмента за пределы текстового взаимодействия, добавляя уровень удобства, который может изменить то, как люди используют сервис в повседневной жизни.

Что делают новые функции

Благодаря голосовой функции пользователи теперь могут говорить напрямую с ChatGPT вместо набора текста. Система распознает естественную речь и отвечает в разговорном тоне. Что касается обработки изображений, люди могут сфотографировать что-то или загрузить снимок из своей галереи, и ИИ опишет увиденное, идентифицирует объекты или ответит на вопросы о содержимом. Компания заявляет, что обе функции работают в настольной и мобильной версиях ChatGPT.

Как это меняет пользовательский опыт

Для того, кто готовит ужин и нуждается в быстрой замене ингредиента, голосовой ввод означает, что не нужно останавливаться и печатать. Путешественник может сфотографировать иностранный дорожный знак и попросить чат-бота перевести или объяснить его. Сочетание голоса и зрения приближает ChatGPT к помощнику с громкой связью, который понимает контекст из произнесенных слов и визуальных подсказок. Функции будут внедряться для пользователей в течение следующих нескольких недель, хотя OpenAI не назвала точную дату полной доступности.

Где технология вписывается в общую картину

Другие ИИ-чат-боты уже предлагают голосовой ввод или распознавание изображений, но интеграция обоих в один широко используемый продукт, такой как ChatGPT, является заметным шагом. OpenAI постепенно добавляла мультимодальные возможности — ранее в этом году она представила возможность генерировать изображения с помощью DALL-E, а теперь добавляет восприятие в обратном направлении. Компания представляет обновление как способ сделать ИИ более интуитивным, позволяя людям общаться так, как они естественно это делают: говоря и показывая, а не только печатая.

Внедрение начинается с подписчиков ChatGPT Plus, а расширение на бесплатный тариф ожидается позже. Точные сроки, когда все пользователи получат доступ, не указаны.

Что делают новые функции

Как это меняет пользовательский опыт

Где технология вписывается в общую картину

Похожие статьи