L’era degli assistenti 2.0
Google e OpenAI hanno recentemente annunciato nuovi assistenti AI con funzionalità avanzate. Questi assistenti possono conversare in tempo reale, analizzare video dal vivo e tradurre conversazioni istantaneamente. OpenAI ha introdotto GPT-4o, che può leggere storie e aiutare con problemi matematici, utilizzando una voce simile a quella dell'AI nel film "Her" con Joaquin Phoenix. Google ha presentato Gemini Live, un assistente conversazionale simile, e prevede di lanciare un'AI ancora più avanzata entro la fine dell'anno. Sarà presto possibile sperimentare queste tecnologie per valutarne l'utilità quotidiana. È importante informarsi su come accedere, utilizzare e i costi associati a questi strumenti.
OpenAI si velocizza e cambia molto
OpenAI ha lanciato il suo nuovo modello, GPT-4 omni (GPT-4o), un'AI avanzata che combina l'elaborazione di testo, immagini e audio per stabilire nuovi standard di prestazione. GPT-4o può osservare direttamente toni, più interlocutori o rumori di fondo, e produrre risate, canti o esprimere emozioni. La presentazione ha incluso nuove funzionalità gratuite disponibili in ChatGPT. Questo passo è interessante, perché dobbiamo comunque ricordare che le API di ChatGPT sono il motore di tante applicazioni, e GPT-4o e i suoi strumenti di analisi dati e memoria sono ora disponibili gratuitamente per tutti gli utenti nella versione standard, con lo scopo di promuovere l'accesso equo a queste tecnologie, mentre le API sono a pagamento, ma… leggerete subito sotto.
Caratteristiche del Modello:
Prestazioni Superiore: GPT-4o supera i modelli precedenti in testo, immagini, audio, codifica e compiti multilingue.
Efficienza: È il doppio più veloce, costa il 50% in meno e offre quintupli i limiti di GPT-4 Turbo.
Disponibilità: Le funzioni di testo e immagini sono già attive in ChatGPT; le modalità video e voce saranno disponibili su ChatGPT Plus nelle prossime settimane.
Continuità: Tutti gli input e gli output sono elaborati dalla stessa rete neurale, garantendo continuità nelle conversazioni.
Funzionalità e Collaborazioni:
Video: Supporta interazioni in tempo reale con analisi visiva e risoluzione di problemi tramite la fotocamera.
Audio: Dispone di voci realistiche che possono esprimere emozioni e riconoscere caratteristiche audio come la respirazione e le interruzioni.
Traduzioni: Offre traduzioni in tempo reale in oltre 50 lingue, con miglioramenti significativi nella traduzione di testi non in inglese.
Educazione: Integrato in Khan Academy per supporto educativo, come tutoraggio per studenti e assistenza per insegnanti.
Aiuto Visivo: Be My Eyes utilizza GPT-4 per assistere persone cieche o ipovedenti con guida dettagliata tramite la fotocamera del telefono.
Quello che forse non avete ancora provato
Supporto Multilingue: ChatGPT ora supporta più lingue nella registrazione, impostazioni utente e altro.
Limiti di Messaggi Aumentati: Gli utenti a pagamento hanno limiti di messaggi più alti, con vantaggi maggiori per utenti Team e Enterprise.
App macOS: Nuova app ChatGPT per macOS con interfaccia aggiornata che si integra con i flussi di lavoro degli utenti.
Futuri Miglioramenti: Annunciati miglioramenti come creazione di contenuti 3D, nuovi design di caratteri, generazione di testo in immagini migliorata, creazione di effetti sonori e altro.
Google parte al contrattacco
Google ha tenuto il suo evento annuale Google I/O, rivelando una serie di novità entusiasmanti nel campo dell'intelligenza artificiale e dello sviluppo di applicazioni. Tra le principali novità, spiccano Project Astra, un nuovo agente AI, e Gemini 1.5 Pro, un aggiornamento significativo del modello di linguaggio di grandi dimensioni di Google. Inoltre, sono stati presentati importanti aggiornamenti riguardanti Android 15 e Firebase, la piattaforma di Google per lo sviluppo di applicazioni mobili e web.
Project Astra e Gemini 1.5 Pro
Project Astra: un nuovo agente AI di cui non sono stati rivelati molti dettagli, ma che ha suscitato molta curiosità.
Gemini 1.5 Pro: un aggiornamento del modello di linguaggio di grandi dimensioni di Google, promettendo un notevole miglioramento delle capacità.
Tra gli annunci Chiave
Focus sull'AI: Come previsto, l'intelligenza artificiale è stata un tema centrale. Gli annunci hanno incluso avanzamenti nell'assistente AI di Google, LaMDA, e l'introduzione del nuovo potente computer quantistico, Sycamore.
Android 15: La prossima versione del sistema operativo Android è stata svelata, con un'attenzione particolare alla sicurezza, alla privacy degli utenti e a strumenti migliorati per gli sviluppatori.
Project Gemini: Google ha presentato Project Gemini, un progetto AI misterioso con potenziali applicazioni nella ricerca, negli strumenti di produttività e anche nelle attività creative.
Il cambio di passo di Google si è visto anche in alcuni altri annunci (non li metto tutti).
VideoFX di VEO: Questo strumento di estensione di DeepMind rivoluzionerà la generazione e l'ottimizzazione dei contenuti, permettendo di creare video e catturare sfumature emotive con semplici comandi testuali. Sono stati anche aggiornati gli strumenti esistenti ImageFX e MusicFX, consentendo l'editing di immagini generate e mix di generi musicali.
TPU Trillium: La sesta generazione del TPU di Google, il chip hardware specifico per l'AI più avanzato finora, offre un aumento di 4,7 volte delle prestazioni di calcolo massime, il raddoppio della memoria e della larghezza di banda di interconnessione, e un'efficienza energetica superiore del 67% rispetto al predecessore.
Gemma 2 e Paligemma: Questi modelli avanzati promettono di eccellere in attività come didascalie per immagini e video, risposte a domande visive, riconoscimento del testo nelle immagini, rilevamento degli oggetti e segmentazione.
E sui Pixel…
Chi mi ha visto nell’ultimo periodo sa che sto usando un Pixel 8 e che non solo mi trovo bene, ma ne diffondo le novità dell’intelligenza artificiale (trascrizione e click to search su tutto). Google ha deciso di investire ulteriormente nell’AI, tanto che Gemini sarà presto integrato direttamente nei telefoni Pixel, migliorando notevolmente l'esperienza utente. Verrà inserito il modello Gemini Nano di Google entro la fine dell'anno, permettendo capacità multimodali avanzate. Le funzionalità di Gemini saranno facilmente accessibili con una nuova sovrapposizione, migliorando la comprensione del contesto per fornire suggerimenti dinamici. Google introdurrà presto una nuova funzionalità di sicurezza AI, fornendo avvisi in tempo reale per le chiamate che sembrano essere truffe.
Di fatto, si apre la strada a un'esperienza smartphone sempre più intuitiva e personalizzata, per riavviare il mio Pixel già io utilizzo la voce…
IBM rivoluziona lo sviluppo software con nuovi modelli AI per la generazione di codice
IBM ha fatto un grande passo avanti con il rilascio di otto nuovi modelli di linguaggio di grandi dimensioni (LLM) specializzati nella generazione di codice. Questi modelli, disponibili in due versioni (base e istruzione), sono stati addestrati su un enorme set di dati che include ben 116 linguaggi di programmazione. Offrono una gamma di funzionalità davvero interessanti:
Generazione di codice: Immagina di poter scrivere nuovo codice in diverse lingue con l'aiuto di questi modelli! Fantastico, no?
Correzione di bug: Hai trovato un bug nel tuo codice? Niente paura! Questi modelli ti aiutano a identificarlo e a correggerlo in un attimo.
Documentazione del codice: Creare una documentazione chiara e concisa per il tuo codice non è mai stato così facile.
I benchmark dimostrano che questi nuovi modelli di IBM, con i loro 3-34 miliardi di parametri, superano nettamente i concorrenti come CodeGeeX e Mistral, soprattutto per quanto riguarda la correzione e la spiegazione del codice. Un punto di forza davvero notevole!
Ma il reale motivo è la lotta al COBOL!
Il Cobol è usato in ambienti legacy ancora ampiamente, soprattutto in sistemi critici, con questi modelli si può migrare in altri linguaggi e sfruttare il cloud!
C'è però un piccolo limite da tenere a mente: la lunghezza del contesto è limitata a 2.000-8.000 token. Questo significa che i modelli potrebbero avere difficoltà a gestire basi di codice complesse e di grandi dimensioni, soprattutto per quanto riguarda la correzione di bug e la generazione di documentazione.
Apple punta sull’inclusività
Apple ha svelato diverse novità in materia di accessibilità, in arrivo nel corso dell'anno, con l'obiettivo di rendere i suoi prodotti fruibili da chiunque. Tra le principali troviamo:
Eye Tracking: una funzione che permette di controllare iPhone e iPad utilizzando esclusivamente gli occhi, pensata per utenti con disabilità fisiche.
Music Haptics: una tecnologia che consente alle persone sorde o ipoudenti di "sentire" la musica attraverso il Taptic Engine di iPhone.
Vocal Shortcuts: la possibilità di attivare azioni personalizzate tramite un suono specifico, un modo rapido e accessibile per eseguire diverse operazioni.
Vehicle Motion Cues: una funzione che riduce la chinetosi durante l'utilizzo di iPhone o iPad in auto.
Nuove funzioni con visionOS: l'arrivo di un nuovo sistema operativo per visori AR/VR porterà con sé ulteriori funzioni dedicate all'accessibilità.
Queste innovazioni nascono dalla combinazione di hardware e software potenti (chip Apple, intelligenza artificiale e machine learning on-device) e rafforzano l'impegno di Apple nel progettare prodotti realmente inclusivi e alla portata di tutti.
La puntata del Late Tech Show
In questo episodio, Marco Rottigni di SentinelOne, Maria Teresa Minotti di PayPal, Ernesto Di Iorio di QuestIT e Flavio Ferraro di TCL .
In alternativa su Youtube con i capitoli.
Vita da Ufficio (dagli #SmartBreak)
Il podcast che prende spunto dagli #SmartBreak quotidiani sui miei profili social e su quelli di alcune associazioni manageriali è ripartito. Lo trovate qui.
I miei libri
Vi lascio un link per i miei libri, caso mai vi venisse voglia di leggere, vi ricordo che Phyrtual è giunto alla seconda edizione, con nuove interviste.
Ti sta piacendo Techy?
Se ti è piaciuta questa newsletter, e non sei ancora iscritto non capisco cosa stai aspettando: iscriviti!
Iscritto
Più persone la leggono, meglio è, quindi, per favore, condividilo con la tua famiglia, amici e colleghi per far sì che gli effetti di rete si diffondano.
Assicurati di aggiungere gigibeltrame@substack.com ai tuoi contatti. In Gmail, trascina questa newsletter nella tua scheda principale.
Grazie per aver letto questa newsletter, le trovi tutte a questo link.
💁♂️ La Bio
👍 Seguimi su:
Magazine • LinkedIn • Instagram • Facebook • Youtube