OpenAI قابلیت‌های صوتی و تصویری را به ChatGPT اضافه کرد

OpenAI ویژگی‌های جدید پردازش صوتی و تصویری را به ChatGPT اضافه کرده است که به کاربران امکان می‌دهد با ربات گفتگو صحبت کنند و تصاویری را برای تحلیل توسط هوش مصنوعی آپلود نمایند. این به‌روزرسانی ابزار را فراتر از تعاملات متنی گسترش می‌دهد و لایه‌ای از راحتی را اضافه می‌کند که می‌تواند نحوه استفاده روزمره افراد از این سرویس را تغییر دهد.

قابلیت‌های جدید چه کاری انجام می‌دهند

با قابلیت صوتی، کاربران اکنون می‌توانند به جای تایپ کردن، مستقیماً با ChatGPT صحبت کنند. سیستم گفتار طبیعی را تشخیص داده و با لحنی مکالمه‌ای پاسخ می‌دهد. برای پردازش تصویر، افراد می‌توانند عکس بگیرند یا یکی را از گالری دوربین خود آپلود کنند و هوش مصنوعی آنچه را که می‌بیند توصیف می‌کند، اشیاء را شناسایی می‌کند یا به سوالات درباره محتوا پاسخ می‌دهد. این شرکت می‌گوید هر دو ویژگی در نسخه‌های دسکتاپ و موبایل ChatGPT کار می‌کنند.

چگونه تجربه کاربری را تغییر می‌دهد

برای کسی که در حال پختن شام است و نیاز به جایگزینی سریع دارد، ورودی صوتی به این معنی است که نیازی به توقف و تایپ ندارد. یک مسافر می‌تواند از یک تابلو خیابان خارجی عکس بگیرد و از ربات گفتگو بخواهد آن را ترجمه یا توضیح دهد. ترکیب صدا و دید، ChatGPT را به یک دستیار بدون دست نزدیک‌تر می‌کند که زمینه را از هر دو کلمات گفتاری و نشانه‌های بصری درک می‌کند. این ویژگی‌ها در طول چند هفته آینده در دسترس کاربران قرار می‌گیرد، هرچند OpenAI تاریخ دقیقی برای دسترسی کامل مشخص نکرده است.

این فناوری در کجا قرار می‌گیرد

سایر ربات‌های گفتگوی هوش مصنوعی قبلاً ورودی صوتی یا تشخیص تصویر را ارائه می‌دهند، اما ادغام هر دو در یک محصول پرکاربرد مانند ChatGPT یک گام قابل توجه است. OpenAI به تدریج توانایی‌های چندوجهی را اضافه کرده است - اوایل امسال قابلیت تولید تصاویر با DALL-E را معرفی کرد و اکنون ادراک را در جهت مخالف به ارمغان می‌آورد. این شرکت این به‌روزرسانی را راهی برای شهودی‌تر کردن هوش مصنوعی قاب‌بندی می‌کند و به افراد اجازه می‌دهد به روش طبیعی خود ارتباط برقرار کنند: با صحبت کردن و نشان دادن به جای فقط تایپ کردن.

این عرضه ابتدا با مشترکین ChatGPT Plus آغاز می‌شود و انتظار می‌رود بعداً به نسخه رایگان گسترش یابد. هیچ جدول زمانی دقیقی برای دسترسی همه کاربران ارائه نشده است.

قابلیت‌های جدید چه کاری انجام می‌دهند

چگونه تجربه کاربری را تغییر می‌دهد

این فناوری در کجا قرار می‌گیرد

Related Articles