OpenAI dà a ChatGPT una voce per rispondere a richieste e comandi

OpenAI dà a ChatGPT una voce per rispondere a richieste e comandi
I lettori come te aiutano a sostenere MUO. Quando effettui un acquisto utilizzando i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Per saperne di più.

ChatGPT è destinato a diventare un'esperienza interattiva di intelligenza artificiale generativa. OpenAI ha rivelato che il chatbot AI leader a livello mondiale sarà in grado di parlare e rispondere alle domande degli utenti utilizzando una voce sintetizzata, presumibilmente generata dall'intelligenza artificiale.





Insieme alla sua nuova voce, ChatGPT sarà anche in grado di rispondere e discutere immagini specifiche caricate su di esso o scattate durante l'utilizzo dell'app ChatGPT per Android o iOS. La funzione di riconoscimento delle immagini sembra simile a Google Lens e ad altre app che utilizzano reti neurali per rilevare dati e informazioni in modo accurato.





OpenAI dà voce a ChatGPT

Il 25 settembre 2023, sviluppatore ChatGPT Rivelato OpenAI darebbe voce al suo chatbot AI generativo leader a livello mondiale. Gli utenti di ChatGPT possono parlare direttamente al chatbot e chiedergli di rispondere, consentendo di fatto a ChatGPT di conversare direttamente con la voce per la prima volta.





La clip di esempio di OpenAI mostra una donna che chiede a ChatGPT di creare una favola della buonanotte unica, alla quale ChatGPT risponde debitamente con una voce femminile sintetizzata.

puoi usare due diversi tipi di ram?

Secondo Cablato , il nuovo modello di sintesi vocale è stato sviluppato internamente. Può generare audio 'simile a quello umano' dal testo e alcuni secondi di discorso campione ( utilizzando il modello OpenAI Whisper ) e parlano in vari toni e stili. Puoi trovare una serie di campioni vocali su Il blog di OpenAI .



Alcune aziende stanno già utilizzando il nuovo modello vocale di OpenAI. Ad esempio, Spotify sta utilizzando il modello di sintesi vocale di OpenAI per tradurre i podcast in diverse lingue, combinando l'abilità di traduzione linguistica di ChatGPT con la sua nuova capacità di parlare.

Il nuovo modello di sintesi vocale di ChatGPT è disponibile solo per gli abbonati Plus ed Enterprise che utilizzano le app ufficiali Android e iOS e dovrebbe essere implementato entro le prossime due settimane (a partire dal 25 settembre 2023). Inoltre, la nuova funzionalità vocale è inizialmente limitata all'inglese, anche se ci aspetteremmo che ciò cambi rapidamente.





ChatGPT può riconoscere e fotografie

La seconda parte dell'aggiornamento ChatGPT di OpenAI è la capacità di analizzare e parlare delle immagini caricate nello strumento. L'opzione di analisi visiva dell'immagine era presente nei video di aggiornamento GPT-4 ma da allora non è stata più discussa ( Interprete del codice ChatGPT a parte ).

Ora, ChatGPT ottiene funzionalità simili a Google Lens. Puoi caricare un'immagine su ChatGPT o scattare una foto utilizzando la fotocamera del tuo smartphone nell'app ChatGPT e l'immagine verrà dettagliata, aggiungendo ulteriore contesto dove richiesto.





Chiamarlo 'simile a Google Lens' è davvero un'ingiustizia. La possibilità di chattare avanti e indietro sull'immagine per ottenere maggiori informazioni e contesto lo rende estremamente utile per un'ampia gamma di impostazioni. Tuttavia, è importante notare le clausole scritte in piccolo, con OpenAI che chiarisce di aver limitato la 'capacità di ChatGPT di analizzare e fare dichiarazioni dirette sulle persone' per motivi di privacy e accuratezza. Tuttavia, uno strumento 'Who Is This' basato su OpenAI potrebbe essere in lavorazione per il futuro? (Speriamo di no!)

Come il nuovo modello di sintesi vocale, OpenAI implementerà il riconoscimento delle immagini nelle prossime due settimane, sebbene sarà disponibile su tutte le piattaforme, non solo sull'app ChatGPT.

Privacy, sicurezza e altri problemi

Le implicazioni di un ChatGPT a comando vocale sono evidenti. Certo, è emozionante. Tuttavia, la capacità di creare una voce sintetizzata in modo univoco utilizzando solo un breve snippet come esempio presenta notevoli problemi di privacy e sicurezza. Il potenziale per gli autori malintenzionati di sfruttare questi strumenti è enorme e, come con qualsiasi strumento di intelligenza artificiale generativa, una volta che il genio è uscito dalla bottiglia, non tornerà assolutamente indietro. Nessuna regolamentazione dell’IA da parte di governi o leader di pensiero può tornare indietro la marea.

Anche l'avvertimento di OpenAI sull'argomento sembra aggirare l'ovvio nonostante menzioni i problemi:

Tuttavia, queste funzionalità presentano anche nuovi rischi, come la possibilità che soggetti malintenzionati possano impersonare personaggi pubblici o commettere frodi. Questo è il motivo per cui stiamo utilizzando questa tecnologia per alimentare un caso d'uso specifico: la chat vocale.

Dato che questa è la punta dell'iceberg, aspettatevi una reazione contro la nuova voce di ChatGPT, soprattutto una volta che c'è un prevedibile aumento di titoli sgradevoli che affermano che ChatGPT viene utilizzato per commettere frodi e così via.

OpenAI sta rendendo ChatGPT l'app AI di riferimento

Più OpenAI aggiunge funzionalità user-friendly a ChatGPT, più diventa l'app di intelligenza artificiale generativa di riferimento. Essendo la prima a raggiungere una fama diffusa durante il boom iniziale dell'intelligenza artificiale generativa, ChatGPT è ancora all'avanguardia ed è l'unica app utilizzata, nonostante la concorrenza di Google Bard (e potenzialmente Google Gemini) e Claude di Anthropic.

Finché OpenAI continuerà ad aggiungere funzionalità che rendono ChatGPT più facile da usare, manterrà le persone agganciate e si avvicinerà sempre di più al suo obiettivo di uno strumento AI veramente multimodale.