Code Velocity
Models d'IA

Mode de veu de ChatGPT: la teva guia per a la IA conversacional

·7 min de lectura·OpenAI·Font original
Compartir
Interfície del mode de veu de ChatGPT en un telèfon mòbil, mostrant l'esfera blava i la icona del micròfon.

title: "Mode de veu de ChatGPT: la teva guia per a la IA conversacional" slug: "8400625-voice-mode-faq" date: "2026-03-16" lang: "ca" source: "https://help.openai.com/en/articles/8400625-voice-mode-faq" category: "Models d'IA" keywords:

  • Mode de veu de ChatGPT
  • OpenAI
  • IA conversacional
  • models multimodals
  • GPT-4o
  • xat de veu
  • funcions d'IA
  • parla a text
  • text a parla
  • aplicació mòbil
  • interfície web
  • limitacions de la IA meta_description: "Explora el mode de veu de ChatGPT d'OpenAI, que permet converses parlades naturals amb la IA. Aprèn a configurar, utilitzar i optimitzar els teus xats de veu a plataformes mòbils i web." image: "/images/articles/8400625-voice-mode-faq.png" image_alt: "Interfície del mode de veu de ChatGPT en un telèfon mòbil, mostrant l'esfera blava i la icona del micròfon." quality_score: 94 content_score: 93 seo_score: 95 companies:
  • OpenAI schema_type: "NewsArticle" reading_time: 7 faq:
  • question: "Què és el mode de veu de ChatGPT i com facilita la interacció natural?" answer: "El mode de veu de ChatGPT permet als usuaris participar en converses parlades amb la IA, transformant les interaccions en una experiència més natural i dinàmica. Impulsat per models natius multimodals, et permet fer preguntes, discutir temes i rebre respostes parlades directament de ChatGPT. Aquesta funció està dissenyada per a una comunicació intuïtiva, disponible tant a les aplicacions mòbils de ChatGPT com a la interfície web d'escriptori. Tot i oferir una gran comoditat, és crucial recordar que els models d'IA de vegades poden cometre errors, per la qual cosa verificar la informació important segueix sent essencial per a la precisió i la fiabilitat."
  • question: "Com puc iniciar una conversa de veu amb ChatGPT tant en plataformes mòbils com web?" answer: "Iniciar una conversa de veu és senzill. Al mòbil, obre l'aplicació de ChatGPT i toca la icona de veu, normalment situada a la part inferior dreta de la pantalla. Per als usuaris web, visita ChatGPT.com i selecciona la icona de veu al costat de la finestra de sol·licitud. Durant el primer ús a qualsevol de les dues plataformes, se't demanarà que concedeixis permisos de micròfon al teu dispositiu o navegador i que seleccionis una veu d'IA preferida. Aquests permisos són vitals perquè la funció operi correctament, assegurant una interacció parlada fluida amb ChatGPT."
  • question: "Quines són les diverses opcions de veu disponibles en el mode de veu de ChatGPT i com puc canviar-les?" answer: "El mode de veu de ChatGPT ofereix nou veus de sortida diferents i realistes, cadascuna elaborada amb el seu propi to i caràcter per millorar la teva experiència conversacional. Aquestes inclouen 'Arbor' (tranquil·la), 'Breeze' (animada), 'Cove' (serena), 'Ember' (segura), 'Juniper' (oberta), 'Maple' (alegre), 'Sol' (intel·ligent), 'Spruce' (calma) i 'Vale' (viva). Pots seleccionar la teva veu preferida en iniciar un nou xat o canviar-la en qualsevol moment mitjançant el menú de configuració o dins de les opcions de personalització del mode de veu. Tingues en compte que canviar una veu normalment s'aplica a les noves converses."
  • question: "Quins són els límits d'ús del mode de veu de ChatGPT en els diferents plans de subscripció i tipus d'usuari?" answer: "Els límits d'ús del mode de veu de ChatGPT varien significativament segons el teu pla de subscripció. Els subscriptors solen gaudir d'un ús diari gairebé il·limitat, començant amb el model avançat GPT-4o, i després passant a GPT-4o mini un cop s'esgoten els minuts diaris de GPT-4o. Els usuaris empresarials amb plans de preus flexibles tenen ús il·limitat de GPT-4o subjecte al consum de crèdits, mentre que els subscriptors Pro també es beneficien d'un ús il·limitat de la veu GPT-4o sota mesures de seguretat contra l'abús. Els usuaris gratuïts estan limitats a un cert nombre d'hores al dia, impulsats per GPT-4o mini, amb límits subjectes a canvis."
  • question: "Puc compartir vídeo, fotos o la meva pantalla durant una conversa de veu de ChatGPT, i hi ha alguna limitació específica?" answer: "Sí, els subscriptors que utilitzen les aplicacions mòbils d'iOS i Android poden millorar les seves converses de veu compartint vídeo, fotos o la seva pantalla. Pots iniciar la compartició de vídeo mitjançant el botó de la càmera, o pujar imatges i compartir la teva pantalla a través del menú dels 'tres punts'. Tot i ser molt interactives, aquestes capacitats tenen límits d'ús diaris i per conversa. Un cop s'assoleixen els teus límits d'ús de GPT-4o, tornaràs a GPT-4o mini i perdràs temporalment la capacitat de compartir nou contingut de vídeo o pantalla fins que es reiniciï el teu límit diari."
  • question: "Quines estratègies puc emprar per evitar interrupcions i optimitzar les meves converses de veu amb ChatGPT?" answer: "Per garantir una conversa de veu més fluida i ininterrompuda amb ChatGPT, diversos consells poden ser beneficiosos. Es recomana fermament utilitzar auriculars per minimitzar el soroll de fons i millorar la claredat de l'àudio. Per als usuaris d'iPhone, habilitar el mode de micròfon 'Aïllament de veu' al Centre de control pot reduir significativament les distraccions ambientals. Si les interrupcions persisteixen, intenta reiniciar l'aplicació, augmentar el volum de l'assistent o moure't a un entorn més tranquil. Aquests passos ajuden a crear una configuració d'àudio òptima per a una comunicació més clara i una interacció d'IA més atractiva."
  • question: "El mode de veu de ChatGPT és compatible amb els GPT personalitzats, i quines són les limitacions funcionals actuals?" answer: "Sí, el mode de veu està disponible per utilitzar-lo amb els GPT personalitzats, oferint una experiència conversacional coherent. Cada GPT sovint inclou la seva pròpia opció de veu única, com ara 'Shimmer', diferent de les nou veus estàndard. No obstant això, és important tenir en compte algunes limitacions funcionals actuals: el mode de veu encara no admet eines avançades com la generació d'imatges, les càrregues directes de fitxers o l'intèrpret de codi. A més, les accions personalitzades definides dins dels GPTs no són actualment accessibles quan s'interactua mitjançant el mode de veu, cosa que limita certes funcionalitats avançades en aquest format conversacional."

Desbloquejant la conversa natural amb el mode de veu de ChatGPT

El ChatGPT d'OpenAI ha revolucionat la interacció humà-IA, i el seu mode de veu porta això un pas més enllà, oferint una experiència veritablement natural i conversacional. Aquesta característica innovadora permet als usuaris participar en diàlegs parlats amb ChatGPT, anant més enllà dels missatges de text cap a un intercanvi més intuïtiu i dinàmic. Impulsat per models natius multimodals, el mode de veu et permet fer preguntes, aprofundir en discussions i rebre respostes parlades, fent que les teves interaccions amb la IA se sentin més humanes que mai. Ja sigui que estiguis en moviment amb el teu dispositiu mòbil o treballant des de l'escriptori, el mode de veu és fàcilment accessible, transformant la manera com aprofites la IA per a la informació, la creativitat i la productivitat.

És important reconèixer que, tot i ser altament avançats, aquests models d'IA poden cometre errors ocasionalment. OpenAI subratlla la importància de verificar la informació rellevant obtinguda mitjançant converses de veu, reforçant la necessitat d'una avaluació crítica. A mesura que aquesta tecnologia evoluciona, l'accés i els límits d'ús estan subjectes a canvis, reflectint el desenvolupament i la millora contínua d'OpenAI de les seves ofertes d'IA.

Configuració i interacció amb el mode de veu de ChatGPT a través de les plataformes

La interacció amb ChatGPT per veu està dissenyada per ser fluida, ja sigui que estiguis utilitzant l'aplicació mòbil o la interfície web d'escriptori.

En dispositius mòbils

Per iniciar una conversa de veu al teu telèfon intel·ligent, simplement obre l'aplicació de ChatGPT i localitza la icona de veu situada a la part inferior dreta de la teva pantalla. La majoria dels usuaris d'iOS i Android experimentaran una interfície de veu integrada directament a la pàgina de xat principal. No obstant això, durant el desplegament d'actualitzacions, alguns comptes podrien passar temporalment a un 'Mode Separat' (una pantalla d'esfera blava), que es pot canviar a Configuració → Veu → Mode Separat. En un xat de veu, la icona del micròfon et permet silenciar o reactivar el so, i una icona de sortida finalitza la conversa. El teu primer xat de veu et demanarà que seleccionis una veu i que concedeixis permisos de micròfon a l'aplicació, crucials per a la funcionalitat.

En la web d'escriptori

Les converses de veu també són totalment compatibles a la web d'escriptori a través de ChatGPT.com. Aquí, trobaràs la icona de veu a la part dreta de la finestra de sol·licitud. De manera similar a l'experiència mòbil, els usuaris que l'utilitzen per primera vegada hauran de concedir permís al seu navegador per accedir al micròfon del dispositiu i triar una veu d'IA. La interfície per silenciar i finalitzar converses reflecteix la versió mòbil, garantint una experiència d'usuari coherent.

Millorant la interacció: vídeo, compartició de pantalla i càrrega de fotos

Més enllà de la veu pura, el mode de veu de ChatGPT per a subscriptors en aplicacions mòbils estén les seves capacitats multimodals per incloure la interacció visual. Aquestes funcions enriqueixen significativament la profunditat de les teves converses, permetent que la IA entengui i respongui al context visual.

Compartició de vídeo: Els subscriptors d'iOS i Android poden compartir vídeo en directe des dels seus dispositius durant un xat de veu tocant el botó de la càmera. Això permet que ChatGPT processi informació visual en temps real, permetent respostes més contextuals i informades. Tocar el botó de nou deté la compartició de vídeo.

Càrrega de fotos i compartició de pantalla: Per compartir imatges estàtiques o la pantalla del teu dispositiu, accedeix al menú dels 'tres punts'. Des d'aquí, pots optar per fer una foto nova, pujar-ne una existent de la teva galeria o iniciar una compartició de pantalla. Això és particularment útil per discutir documents específics, imatges o demostrar problemes a la pantalla directament amb la IA.

Gestió de comparticions visuals: Un cop la compartició de pantalla està activa, pots tocar el botó de compartició de pantalla de nou per aturar-la. Si estàs compartint fora de l'aplicació de ChatGPT, l'indicador del sistema del teu telèfon (un punt vermell a Apple, un micròfon verd a Android) et permetrà aturar la compartició. Alternativament, tornar a l'aplicació proporciona controls directes per aturar la compartició o finalitzar tota la conversa.

És important tenir en compte que, tot i que aquestes capacitats visuals són potents, estan subjectes a límits d'ús diaris i per conversa per als plans elegibles. Un cop s'arriba al teu límit d'ús diari de veu de GPT-4o, tornaràs a GPT-4o mini i perdràs temporalment la capacitat de compartir nou contingut de vídeo o pantalla fins que es reiniciï el teu límit d'ús diari de GPT-4o.

Entenent les capacitats del mode de veu i els límits d'ús

El mode de veu de ChatGPT no és una experiència única per a tothom; les seves capacitats i disponibilitat s'adapten a diferents nivells d'usuari i models.

Opcions de veu disponibles:
OpenAI proporciona una selecció de nou veus de sortida diferents i realistes, cadascuna dissenyada per oferir una experiència auditiva única. Aquestes veus asseguren una interacció personalitzada i atractiva.

Nom de la veuDescripció
ArborTranquil·la i versàtil
BreezeAnimada i sincera
CoveSerena i directa
EmberSegura i optimista
JuniperOberta i alegre
MapleAlegre i sincera
SolIntel·ligent i relaxada
SpruceCalma i afirmadora
ValeViva i curiosa

Pots canviar la teva veu escollida en qualsevol moment mitjançant la configuració o dins del menú de personalització en el mode de veu, tot i que els canvis s'apliquen normalment a les noves converses.

Límits d'ús per pla:
La durada i les capacitats dels teus xats de veu varien significativament segons la teva subscripció a ChatGPT:

  • Subscriptors: Gaudeixen d'un ús de veu només d'àudio gairebé il·limitat diari. Les converses comencen amb el model GPT-4o altament avançat, i després canvien a GPT-4o mini un cop s'esgoten els minuts diaris de GPT-4o.
  • Usuaris empresarials (preus flexibles): Es beneficien d'un ús de veu GPT-4o il·limitat, subjecte al consum de crèdits, el que el fa ideal per a necessitats organitzatives de gran volum.
  • Subscriptors Pro: També tenen un ús il·limitat de la veu GPT-4o, amb mesures de seguretat contra l'abús per garantir un ús just.
  • Usuaris gratuïts amb sessió iniciada: Accedeixen a la veu de ChatGPT impulsada per GPT-4o mini, subjecta a un nombre específic d'hores al dia, amb límits que poden canviar.

Les capacitats de vídeo i compartició de pantalla també tenen els seus propis límits diaris i per conversa per als plans elegibles, normalment lligats a l'ús de GPT-4o.

Optimització de la teva experiència amb la IA conversacional

Per garantir les converses de veu més fluides i efectives, OpenAI ofereix diversos consells i destaca les especificitats de les funcions actuals.

Converses en segon pla: Pots habilitar les "Converses en segon pla" a la configuració, permetent que el teu xat de veu continuï fins i tot quan canvies a altres aplicacions o bloqueges la pantalla del teu telèfon. Això millora la multitasca i assegura la continuïtat, tot i que les converses finalitzaran al cap d'una hora, si l'aplicació es tanca forçadament o si s'arriben als límits diaris. La compartició de pantalla en segon pla també cessarà sota condicions similars.

Prevenció d'interrupcions: Per a una claredat òptima i per minimitzar les interrupcions no desitjades, es recomana molt utilitzar auriculars durant les converses de veu. Els usuaris d'iPhone poden millorar això encara més habilitant el mode de micròfon 'Aïllament de veu' al seu Centre de control mentre estan en un xat de veu. Si els problemes persisteixen, passos senzills de resolució de problemes com reiniciar l'aplicació, ajustar el volum de l'assistent o moure's a un entorn més tranquil sovint poden resoldre'ls.

Converses de veu amb GPTs: El mode de veu estén la seva funcionalitat als GPTs personalitzats, permetent-te conversar amb ells utilitzant les seves opcions de veu designades, com ara 'Shimmer'. No obstant això, és crucial tenir en compte les limitacions actuals: el mode de veu encara no admet eines avançades com la generació d'imatges, la càrrega de fitxers o l'intèrpret de codi quan s'interactua amb GPTs. Les accions personalitzades dins dels GPTs tampoc estan disponibles actualment en aquest mode, cosa que indica que, tot i ser multimodal, certes integracions avançades encara depenen del text.

Precisió de la transcripció: La naturalesa inherentment multimodal de les converses de veu significa un intercanvi d'àudio directe entre tu i el model. Conseqüentment, tot i que es proporcionen transcripcions, no sempre poden alinear-se perfectament amb la conversa parlada original a causa dels matisos de la parla natural i la interpretació de la IA. Aquesta és una àrea de millora contínua a mesura que els models d'IA es tornen més aptes per entendre i processar el llenguatge humà complex.

El mode de veu d'OpenAI representa un salt significatiu en escalar la IA per a tothom, fent les interaccions d'IA més accessibles i naturals. A mesura que la tecnologia continua evolucionant, aquestes riques capacitats multimodals prometen una experiència d'usuari encara més integrada i intuitiva. Els usuaris interessats a aprofundir en la comprensió dels mecanismes bàsics de la IA podrien trobar valuosos els coneixements sobre les millors pràctiques per a l'enginyeria de prompts amb l'API d'OpenAI per a totes les formes d'interacció.

Preguntes freqüents

What is ChatGPT Voice Mode and how does it facilitate natural interaction?
ChatGPT Voice Mode allows users to engage in spoken conversations with the AI, transforming interactions into a more natural and dynamic experience. Powered by natively multimodal models, it enables you to ask questions, discuss topics, and receive spoken responses directly from ChatGPT. This feature is designed for intuitive communication, available across both ChatGPT mobile applications and the desktop web interface. While offering significant convenience, it's crucial to remember that AI models can sometimes make mistakes, so verifying important information remains essential for accuracy and reliability.
How can I initiate a voice conversation with ChatGPT on both mobile and web platforms?
Starting a voice conversation is straightforward. On mobile, open the ChatGPT app and tap the Voice icon, typically located at the bottom-right of the screen. For web users, visit ChatGPT.com and select the Voice icon next to the prompt window. During your first use on either platform, you'll be prompted to grant microphone permissions to your device or browser and select a preferred AI voice. These permissions are vital for the feature to function correctly, ensuring a seamless spoken interaction with ChatGPT.
What are the various voice options available in ChatGPT Voice Mode, and how can I change them?
ChatGPT Voice Mode offers nine distinct, life-like output voices, each carefully crafted with its own tone and character to enhance your conversational experience. These include 'Arbor' (easygoing), 'Breeze' (animated), 'Cove' (composed), 'Ember' (confident), 'Juniper' (open), 'Maple' (cheerful), 'Sol' (savvy), 'Spruce' (calm), and 'Vale' (bright). You can select your preferred voice when starting a new chat or change it anytime via the settings menu or within Voice Mode's customization options. Note that changing a voice typically applies to new conversations.
What are the usage limits for ChatGPT Voice Mode across different subscription plans and user types?
Usage limits for ChatGPT Voice Mode vary significantly based on your subscription plan. Subscribers typically enjoy nearly unlimited daily use, starting with the advanced GPT-4o model, then transitioning to GPT-4o mini once daily GPT-4o minutes are exhausted. Enterprise users on flexible pricing plans have unlimited GPT-4o usage subject to credit consumption, while Pro subscribers also benefit from unlimited GPT-4o voice under abuse guardrails. Free users are limited to a certain number of hours per day, powered by GPT-4o mini, with limits subject to change.
Can I share video, photos, or my screen during a ChatGPT voice conversation, and are there any specific limitations?
Yes, subscribers using the iOS and Android mobile apps can enhance their voice conversations by sharing video, photos, or their screen. You can initiate video sharing via the camera button, or upload images and share your screen through the 'three dots' menu. While highly interactive, these capabilities have daily and per-conversation usage limits. Once your GPT-4o usage limits are reached, you'll fallback to GPT-4o mini and temporarily lose the ability to share new video or screen content until your daily limit resets.
What strategies can I employ to prevent interruptions and optimize my voice conversations with ChatGPT?
To ensure a smoother, uninterrupted voice conversation with ChatGPT, several tips can be beneficial. Using headphones is highly recommended to minimize background noise and improve audio clarity. For iPhone users, enabling 'Voice Isolation' mic mode in the Control Center can significantly reduce ambient distractions. If interruptions persist, try restarting the app, increasing the assistant's volume, or moving to a quieter environment. These steps help create an optimal audio setting for clearer communication and a more engaging AI interaction.
Is ChatGPT's Voice Mode compatible with custom GPTs, and what are the current functional constraints?
Yes, Voice Mode is indeed available for use with custom GPTs, offering a consistent conversational experience. Each GPT often comes with its unique voice option, such as 'Shimmer,' distinct from the standard nine voices. However, it's important to note some current functional constraints: Voice Mode does not yet support advanced tools like image generation, direct file uploads, or the Code Interpreter. Additionally, custom actions defined within GPTs are not currently accessible when interacting via Voice Mode, limiting certain advanced functionalities in this conversational format.

Manteniu-vos al dia

Rebeu les últimes notícies d'IA al correu.

Compartir