What is ChatGPT Voice Mode and how does it facilitate natural interaction?

ChatGPT Voice Mode allows users to engage in spoken conversations with the AI, transforming interactions into a more natural and dynamic experience. Powered by natively multimodal models, it enables you to ask questions, discuss topics, and receive spoken responses directly from ChatGPT. This feature is designed for intuitive communication, available across both ChatGPT mobile applications and the desktop web interface. While offering significant convenience, it's crucial to remember that AI models can sometimes make mistakes, so verifying important information remains essential for accuracy and reliability.

How can I initiate a voice conversation with ChatGPT on both mobile and web platforms?

Starting a voice conversation is straightforward. On mobile, open the ChatGPT app and tap the Voice icon, typically located at the bottom-right of the screen. For web users, visit ChatGPT.com and select the Voice icon next to the prompt window. During your first use on either platform, you'll be prompted to grant microphone permissions to your device or browser and select a preferred AI voice. These permissions are vital for the feature to function correctly, ensuring a seamless spoken interaction with ChatGPT.

What are the various voice options available in ChatGPT Voice Mode, and how can I change them?

ChatGPT Voice Mode offers nine distinct, life-like output voices, each carefully crafted with its own tone and character to enhance your conversational experience. These include 'Arbor' (easygoing), 'Breeze' (animated), 'Cove' (composed), 'Ember' (confident), 'Juniper' (open), 'Maple' (cheerful), 'Sol' (savvy), 'Spruce' (calm), and 'Vale' (bright). You can select your preferred voice when starting a new chat or change it anytime via the settings menu or within Voice Mode's customization options. Note that changing a voice typically applies to new conversations.

What are the usage limits for ChatGPT Voice Mode across different subscription plans and user types?

Usage limits for ChatGPT Voice Mode vary significantly based on your subscription plan. Subscribers typically enjoy nearly unlimited daily use, starting with the advanced GPT-4o model, then transitioning to GPT-4o mini once daily GPT-4o minutes are exhausted. Enterprise users on flexible pricing plans have unlimited GPT-4o usage subject to credit consumption, while Pro subscribers also benefit from unlimited GPT-4o voice under abuse guardrails. Free users are limited to a certain number of hours per day, powered by GPT-4o mini, with limits subject to change.

Can I share video, photos, or my screen during a ChatGPT voice conversation, and are there any specific limitations?

Yes, subscribers using the iOS and Android mobile apps can enhance their voice conversations by sharing video, photos, or their screen. You can initiate video sharing via the camera button, or upload images and share your screen through the 'three dots' menu. While highly interactive, these capabilities have daily and per-conversation usage limits. Once your GPT-4o usage limits are reached, you'll fallback to GPT-4o mini and temporarily lose the ability to share new video or screen content until your daily limit resets.

What strategies can I employ to prevent interruptions and optimize my voice conversations with ChatGPT?

To ensure a smoother, uninterrupted voice conversation with ChatGPT, several tips can be beneficial. Using headphones is highly recommended to minimize background noise and improve audio clarity. For iPhone users, enabling 'Voice Isolation' mic mode in the Control Center can significantly reduce ambient distractions. If interruptions persist, try restarting the app, increasing the assistant's volume, or moving to a quieter environment. These steps help create an optimal audio setting for clearer communication and a more engaging AI interaction.

Is ChatGPT's Voice Mode compatible with custom GPTs, and what are the current functional constraints?

Yes, Voice Mode is indeed available for use with custom GPTs, offering a consistent conversational experience. Each GPT often comes with its unique voice option, such as 'Shimmer,' distinct from the standard nine voices. However, it's important to note some current functional constraints: Voice Mode does not yet support advanced tools like image generation, direct file uploads, or the Code Interpreter. Additionally, custom actions defined within GPTs are not currently accessible when interacting via Voice Mode, limiting certain advanced functionalities in this conversational format.

حالت صوتی ChatGPT: راهنمای شما برای هوش مصنوعی مکالمه‌ای

گشودن قفل مکالمه طبیعی با حالت صوتی ChatGPT

ChatGPT از OpenAI تعامل انسان و هوش مصنوعی را متحول کرده است، و حالت صوتی آن این را یک گام فراتر می‌برد و تجربه‌ای واقعاً طبیعی و مکالمه‌ای را ارائه می‌دهد. این ویژگی نوآورانه به کاربران امکان می‌دهد تا با ChatGPT به صورت گفتاری گفتگو کنند و فراتر از دستورات مبتنی بر متن به یک تبادل بصری‌تر و پویا حرکت کنند. حالت صوتی که توسط مدل‌های چندوجهی بومی تقویت شده است، به شما امکان می‌دهد سؤال بپرسید، وارد بحث‌ها شوید، و پاسخ‌های گفتاری دریافت کنید، که تعاملات شما با هوش مصنوعی را انسانی‌تر از همیشه می‌کند. چه در حال حرکت با دستگاه موبایل خود باشید و چه از دسکتاپ خود کار می‌کنید، حالت صوتی به راحتی در دسترس است و نحوه استفاده شما از هوش مصنوعی برای اطلاعات، خلاقیت و بهره‌وری را متحول می‌کند.

مهم است که بپذیریم، در حالی که این مدل‌های هوش مصنوعی بسیار پیشرفته هستند، ممکن است گاهی اوقات اشتباه کنند. OpenAI بر بررسی اطلاعات مهم به دست آمده از طریق مکالمات صوتی تأکید دارد و نیاز به ارزیابی انتقادی را تقویت می‌کند. همانطور که این فناوری تکامل می‌یابد، دسترسی و محدودیت‌های استفاده در معرض تغییر هستند، که بازتاب دهنده توسعه و بهبود مداوم پیشنهادات هوش مصنوعی OpenAI است.

راه‌اندازی و تعامل با حالت صوتی ChatGPT در پلتفرم‌های مختلف

تعامل با ChatGPT از طریق صدا به گونه‌ای طراحی شده است که بدون نقص باشد، چه از اپلیکیشن موبایل استفاده می‌کنید و چه از رابط وب دسکتاپ.

در دستگاه‌های موبایل

برای شروع یک مکالمه صوتی در تلفن هوشمند خود، به سادگی اپلیکیشن ChatGPT را باز کنید و آیکون صدا را که در گوشه پایین سمت راست صفحه نمایش شما قرار دارد، پیدا کنید. اکثر کاربران iOS و Android یک رابط صوتی یکپارچه را مستقیماً در صفحه اصلی چت تجربه خواهند کرد. با این حال، در طول انتشار به‌روزرسانی‌ها، برخی از حساب‌ها ممکن است به طور موقت به 'حالت جداگانه' (صفحه گوی آبی) پیش‌فرض شوند، که می‌توان آن را در مسیر Settings → Voice → Separate Mode تغییر داد. در یک چت صوتی، آیکون میکروفون به شما امکان می‌دهد صدا را قطع یا وصل کنید، و یک آیکون خروج مکالمه را به پایان می‌رساند. اولین چت صوتی شما از شما می‌خواهد که یک صدا را انتخاب کرده و مجوزهای میکروفون را به برنامه بدهید، که برای عملکرد آن حیاتی است.

در وب دسکتاپ

مکالمات صوتی همچنین به طور کامل در وب دسکتاپ از طریق ChatGPT.com پشتیبانی می‌شوند. در اینجا، آیکون صدا را در سمت راست پنجره ورودی متن خواهید یافت. مشابه تجربه موبایل، کاربران برای اولین بار باید به مرورگر خود اجازه دسترسی به میکروفون دستگاه را داده و یک صدای هوش مصنوعی را انتخاب کنند. رابط کاربری برای قطع و پایان دادن به مکالمات، نسخه موبایل را منعکس می‌کند و تجربه کاربری ثابتی را تضمین می‌کند.

بهبود تعامل: ویدئو، اشتراک‌گذاری صفحه و آپلود عکس

فراتر از صرفاً صدا، حالت صوتی ChatGPT برای مشترکین در اپلیکیشن‌های موبایل قابلیت‌های چندوجهی خود را گسترش می‌دهد تا شامل تعامل بصری نیز شود. این ویژگی‌ها به طور قابل توجهی عمق مکالمات شما را غنی می‌کنند و به هوش مصنوعی امکان می‌دهند تا زمینه بصری را درک کرده و به آن پاسخ دهد.

اشتراک‌گذاری ویدئو: مشترکین در iOS و Android می‌توانند ویدئوی زنده را از دستگاه‌های خود در طول یک چت صوتی با ضربه زدن روی دکمه دوربین به اشتراک بگذارند. این به ChatGPT امکان می‌دهد اطلاعات بصری را در زمان واقعی پردازش کند و پاسخ‌های متنی و آگاهانه‌تری را فعال سازد. ضربه زدن دوباره روی دکمه، اشتراک‌گذاری ویدئو را متوقف می‌کند.

آپلود عکس و اشتراک‌گذاری صفحه: برای اشتراک‌گذاری تصاویر ثابت یا صفحه نمایش دستگاه خود، به منوی 'سه نقطه' دسترسی پیدا کنید. از اینجا، می‌توانید یک عکس جدید بگیرید، یک عکس موجود را از گالری خود آپلود کنید، یا اشتراک‌گذاری صفحه را آغاز کنید. این به ویژه برای بحث در مورد اسناد خاص، تصاویر، یا نمایش مشکلات روی صفحه به طور مستقیم با هوش مصنوعی مفید است.

مدیریت اشتراک‌گذاری‌های بصری: هنگامی که اشتراک‌گذاری صفحه فعال است، می‌توانید دوباره روی دکمه اشتراک‌گذاری صفحه ضربه بزنید تا متوقف شود. اگر در حال اشتراک‌گذاری خارج از اپلیکیشن ChatGPT هستید، نشانگر سیستم تلفن شما (یک نقطه قرمز در Apple، میکروفون سبز در Android) به شما امکان می‌دهد اشتراک‌گذاری را متوقف کنید. یا، بازگشت به برنامه کنترل‌های مستقیمی را برای متوقف کردن اشتراک‌گذاری یا پایان دادن به کل مکالمه فراهم می‌کند.

توجه به این نکته مهم است که در حالی که این قابلیت‌های بصری قدرتمند هستند، مشمول محدودیت‌های استفاده روزانه و در هر مکالمه برای برنامه‌های واجد شرایط هستند. پس از رسیدن به محدودیت استفاده روزانه صدای GPT-4o، به GPT-4o mini بازخواهید گشت و به طور موقت توانایی اشتراک‌گذاری ویدئو یا محتوای صفحه جدید را تا زمانی که محدودیت استفاده روزانه GPT-4o شما بازنشانی شود، از دست خواهید داد.

درک قابلیت‌های حالت صوتی و محدودیت‌های استفاده

حالت صوتی ChatGPT یک تجربه یکسان برای همه نیست؛ قابلیت‌ها و دسترسی آن در سطوح مختلف کاربر و مدل‌ها تنظیم شده است.

گزینه‌های صدای موجود: OpenAI مجموعه‌ای از نُه صدای خروجی متمایز و واقعی را ارائه می‌دهد که هر یک برای ارائه یک تجربه شنیداری منحصر به فرد طراحی شده‌اند. این صداها تعاملی شخصی‌سازی شده و جذاب را تضمین می‌کنند.

نام صدا	توضیحات
Arbor	آرام و چندکاره
Breeze	پر جنب و جوش و جدی
Cove	متین و مستقیم
Ember	با اعتماد به نفس و خوش‌بین
Juniper	گشاده و شاد
Maple	شاد و بی‌پرده
Sol	زیرک و آرام
Spruce	آرام و تأییدکننده
Vale	درخشان و کنجکاو

می‌توانید صدای انتخابی خود را در هر زمان از طریق تنظیمات یا در منوی شخصی‌سازی در حالت صوتی تغییر دهید، اگرچه تغییرات معمولاً برای مکالمات جدید اعمال می‌شوند.

محدودیت‌های استفاده بر اساس طرح: مدت و قابلیت‌های چت‌های صوتی شما به طور قابل توجهی بر اساس اشتراک ChatGPT شما متفاوت است:

مشترکین: از استفاده روزانه تقریباً نامحدود فقط صوتی برخوردار هستند. مکالمات با مدل بسیار پیشرفته GPT-4o آغاز می‌شوند، سپس پس از اتمام دقایق روزانه GPT-4o، به GPT-4o mini تغییر می‌کنند.
کاربران سازمانی (قیمت‌گذاری انعطاف‌پذیر): از استفاده نامحدود صدای GPT-4o بهره‌مند می‌شوند، منوط به مصرف اعتبار، که آن را برای نیازهای سازمانی با حجم بالا ایده‌آل می‌کند.
مشترکین پرو: همچنین استفاده نامحدود از صدای GPT-4o را با محافظت‌های سوءاستفاده برای اطمینان از استفاده منصفانه دارند.
کاربران رایگان واردشده: به صدای ChatGPT با پشتیبانی از GPT-4o mini دسترسی دارند، مشروط به تعداد مشخصی ساعت در روز، با محدودیت‌هایی که ممکن است تغییر کند.

قابلیت‌های ویدئو و اشتراک‌گذاری صفحه نیز برای برنامه‌های واجد شرایط محدودیت‌های روزانه و در هر مکالمه خود را دارند، که معمولاً به استفاده از GPT-4o مرتبط است.

بهینه‌سازی تجربه هوش مصنوعی مکالمه‌ای شما

برای اطمینان از روان‌ترین و مؤثرترین مکالمات صوتی، OpenAI چندین نکته و جزئیات ویژگی‌های فعلی را برجسته می‌کند.

مکالمات پس‌زمینه: می‌توانید 'مکالمات پس‌زمینه' را در تنظیمات فعال کنید، که به چت صوتی شما اجازه می‌دهد حتی زمانی که به برنامه‌های دیگر می‌روید یا صفحه تلفن خود را قفل می‌کنید، ادامه یابد. این قابلیت چندوظیفگی را افزایش می‌دهد و تداوم را تضمین می‌کند، اگرچه مکالمات پس از یک ساعت، در صورت بسته شدن اجباری برنامه، یا در صورت رسیدن به محدودیت‌های روزانه به پایان می‌رسند. اشتراک‌گذاری صفحه در پس‌زمینه نیز تحت شرایط مشابه متوقف خواهد شد.

جلوگیری از وقفه‌ها: برای وضوح بهینه و به حداقل رساندن وقفه‌های ناخواسته، استفاده از هدفون در طول مکالمات صوتی بسیار توصیه می‌شود. کاربران آیفون می‌توانند با فعال کردن حالت میکروفون 'Voice Isolation' در مرکز کنترل خود در حین چت صوتی، این را بیشتر بهبود بخشند. اگر مشکلات ادامه یافت، مراحل ساده عیب‌یابی مانند راه‌اندازی مجدد برنامه، تنظیم صدای دستیار، یا رفتن به محیطی آرام‌تر اغلب می‌تواند آنها را حل کند.

مکالمات صوتی با GPT‌ها: حالت صوتی قابلیت خود را به GPT‌های سفارشی گسترش می‌دهد و به شما امکان می‌دهد با استفاده از گزینه‌های صوتی تعیین شده آنها، مانند 'Shimmer'، با آنها مکالمه کنید. با این حال، توجه به محدودیت‌های فعلی بسیار مهم است: حالت صوتی هنوز از ابزارهای پیشرفته‌ای مانند تولید تصویر، آپلود فایل، یا مفسر کد هنگام تعامل با GPT‌ها پشتیبانی نمی‌کند. اقدامات سفارشی در داخل GPT‌ها نیز در این حالت در دسترس نیستند، که نشان می‌دهد در حالی که چندوجهی است، برخی از ادغام‌های پیشرفته هنوز به متن وابسته هستند.

دقت رونویسی: ماهیت ذاتی چندوجهی مکالمات صوتی به معنای تبادل صوتی مستقیم بین شما و مدل است. در نتیجه، در حالی که رونویسی‌ها ارائه می‌شوند، ممکن است همیشه به دلیل تفاوت‌های ظریف در گفتار طبیعی و تفسیر هوش مصنوعی، کاملاً با مکالمه گفتاری اصلی مطابقت نداشته باشند. این یک زمینه برای بهبود مداوم است زیرا مدل‌های هوش مصنوعی در درک و پردازش زبان پیچیده انسانی ماهرتر می‌شوند.

حالت صوتی OpenAI نشان‌دهنده جهشی بزرگ در مقیاس‌گذاری هوش مصنوعی برای همه است و تعاملات هوش مصنوعی را در دسترس‌تر و طبیعی‌تر می‌کند. همانطور که این فناوری به تکامل خود ادامه می‌دهد، این قابلیت‌های چندوجهی غنی، تجربه کاربری یکپارچه‌تر و بصری‌تری را وعده می‌دهند. کاربرانی که علاقه‌مند به عمیق‌تر شدن در درک مکانیسم‌های اصلی هوش مصنوعی هستند، ممکن است بینش‌های مربوط به بهترین-روش‌ها-برای-مهندسی-پرامپت-با-اپن-ای‌آی-ای‌پی‌آی را برای همه اشکال تعامل ارزشمند بیابند.