OpenAI continua a infondere nuove capacità nell’intelligenza artificiale conversazionale che hanno portato l’umanità in una nuova era di vera collaborazione uomo-macchina. Comunicazione web, analisi e creazione di immagini, analisi e sintesi vocale sono ora disponibili per il chatbot nella sua versione a pagamento.
ChatGPTA spingerlo dall’inizio dell’anno è il modello LLM “GPT-4”, che sappiamo essere multimediale, ma le cui capacità visive e audio sono state finora limitate e bloccate.
Negli ultimi giorni, OpenAI ha deciso di rilasciare funzionalità di intelligenza artificiale più generative e conversazionali. Anche se queste nuove funzionalità sono attualmente limitate agli utenti paganti delle edizioni ChatGPT Plus e ChatGPT Enterprise. Ricordiamo che, per coloro che desiderano rimanere gratuiti, il servizio Bing Chat di Microsoft offre la maggior parte di queste funzionalità.
Riconnettiti al web
Inizialmente ha ripristinato la funzionalità apparsa brevemente quest’estate9, ma è stata rapidamente rimossa (dopo che persone intelligenti hanno scoperto che potevano usarla per accedere gratuitamente a siti a pagamento tramite ChatGPT): Connessione AI al Web! Il modello GPT-4 principale di ChatGPT è stato addestrato utilizzando documenti risalenti a prima della fine del 2021. Senza una connessione Internet, l’IA non solo non sarebbe in grado di analizzare effettivamente i documenti web, ma non sarebbe nemmeno in grado di arricchire le sue risposte con informazioni aggiornate. Ora, l’attivazione dell’impostazione “Sfoglia con Bing” in “Impostazioni e funzionalità Beta/Beta” consente all’intelligenza artificiale conversazionale di rispondere a domande su argomenti ed eventi recenti e di connettersi al Web per migliorare le proprie analisi.
Dalla comprensione alla generazione di immagini
Un’altra grande novità è che OpenAI ha finalmente deciso di liberare il potenziale multimediale di GPT-4. D’ora in poi, ChatGPT si basa sulla nuova iterazione GPT-4V del suo modello base, formalizzando così l’accesso all’analisi delle immagini. Gli utenti di ChatGPT Plus saranno presto in grado (e possono ora farlo sulle versioni mobili iOS e Android) di inviare foto o domande illustrate con foto e farle analizzare e commentare dall’intelligenza artificiale. Pertanto, l’intelligenza artificiale può tradurre manoscritti scritti a mano, convertire i contorni disegnati di un algoritmo o di uno schermo in codice informatico, analizzare e descrivere un’immagine o un dipinto, analizzare captcha e molte altre cose.
Inoltre, molto presto OpenAI integrerà anche lo straordinario generatore di immagini “Dall-E 3” in ChatGPT (che è già disponibile su Programma per creare immagini Bing E le prestazioni sono davvero più impressionanti del Dall-E 2) e competono seriamente con il Midjourney pur offrendo stili più diversificati.
Voce, per ampliare le interazioni
Uno dei grandi punti di forza dell’intelligenza artificiale generativa è che rivoluziona le interazioni uomo-macchina facendo del linguaggio naturale il fondamento di queste interazioni. D’ora in poi, l’idea è quella di poter condurre tali interazioni con la voce invece che con la digitazione. Dobbiamo ancora aspettare un po’ per avere una discussione come con un essere umano a causa dell’attuale era di analisi e comprensione del linguaggio umano. Ma ci stiamo avvicinando.
Bing Chat nella sua versione mobile ti consente di porre domande tramite voce e l’intelligenza artificiale può anche rispondere tramite voce. L’intelligenza artificiale si affida a modelli sviluppati da Microsoft a questo scopo.
OpenAI integrerà presto il suo modello voce-testo “Whisper” in ChatGPT Plus. Il chatbot potrà anche parlare grazie al nuovo modello “Text to Speech” che offre 5 voci diverse.
In altre parole, ChatGPT ora può connettersi, vedere, parlare e ascoltare. Tante nuove funzionalità che i giovani utenti intelligenti non mancheranno di sfruttare per scopi inaspettati divertendosi ad eludere le restrizioni che OpenAI ha cercato di mettere in atto per evitare usi dannosi o inappropriati della propria IA.