lunedì 18 agosto 2025

Non solo GPT5, ma la corsa per l'AI è folle (e costosa)

L'ultime due settimane sono state senza dubbio molto intense e quindi ho deciso di uscire con #Techy, con uno sforzo non da poco, ma tre/quattro settimane di “pausa” sono troppe! Poche immagini e video, perdonatemi.

L'attenzione si è concentrata su GPT-5 e Google Genie 3, ma oltre a questi giganti, molte altre innovazioni e notizie sono passate un po’ in sordina e vorrei porle alla vostra attenzione, l’ho creata tutta dal telefono, per cui perdonate qualche strafalcione (spero che non ce ne siano, ma dopo un po’ gli occhi vanno in tilt!

Se ti va, iscriviti, non è una newsletter di tecnologia come tutte le altre (almeno spero)

I dubbi sull’AI

Jeffrey Hinton, considerato uno dei "padri fondatori" dell'AI, ha espresso le sue preoccupazioni sulla possibilità che l'AI possa superare l'intelligenza umana e ha sottolineato l'importanza di "addestrare istinti materni" nei modelli per garantire che l'AI rimanga allineata ai valori umani e non si rivolti contro l'umanità.

Un approccio interessante!

GPT-5 non mi sta convincendo, ma è un cambiamento

Il periodo di vacanza non è certo l’ideale per provare un LLM a fondo. Non sono un grande fan di GPT-4o, ma l’impressione non è stata esaltante.

Però ho qualche considerazione da fare.

Con l'avvento di modelli linguistici avanzati come GPT-5, assistiamo a un cambiamento significativo nel modo in cui interagiamo con l'intelligenza artificiale, un'evoluzione che non è per niente banale.

Stiamo passando da un approccio in cui l'utente seleziona e utilizza consapevolmente uno strumento specifico a un utilizzo più fluido e praticamente "invisibile" di un'intelligenza artificiale che si adatta autonomamente al compito da svolgere.

Un passaggio filosoficamente importante. Fino ad ora l'utente doveva possedere una conoscenza specifica di quale modello o strumento utilizzare e di come impiegarlo efficacemente, quindi definire lo scenario, le regole da seguire al fine di ottenere risposte significative.
Da GPT-5 il modello autonomamente è in grado di interpretare il contesto e di selezionare la modalità più appropriata (ad esempio, ragionamento logico, generazione di codice, ricerca di informazioni, analisi visiva) per raggiungere l'obiettivo desiderato.

Questo implica uno spostamento del focus: l'attenzione non è più sull'aspetto tecnico ("quale strumento devo selezionare?"), ma sull'obiettivo finale ("che risultato voglio ottenere?").

Se ci pensate, si passa da essere super specializzati per generare un prompt perfetto per un modello a un sistema che aggiusta da solo il prompt, ma solo se comprende pienamente la richiesta

Provo, con qualche esempio, a chiarire il concetto.

Prima: per creare un'immagine, dovevi aprire un software di fotoritocco specifico, imparare a usare i suoi strumenti (pennelli, livelli, filtri) e poi applicarli.

Adesso: potresti semplicemente dire all'AI "Genera un'immagine di un paesaggio montano al tramonto con uno stile impressionista", e l'AI sceglierebbe autonomamente il modello di generazione di immagini, applicherebbe lo stile e ti presenterebbe il risultato, senza che tu debba conoscere i dettagli tecnici di come è stata creata.

Prima: per risolvere un problema di programmazione, dovevi scegliere il linguaggio di programmazione, l'IDE (ambiente di sviluppo integrato) e le librerie appropriate.

Adesso: potresti descrivere il problema all'AI ("Ho bisogno di un programma Python che analizzi questo dataset e trovi le correlazioni"), e l'AI potrebbe generare il codice, eseguirlo e persino debuggarlo, scegliendo gli strumenti migliori in modo autonomo.

Prima: per fare una ricerca su un argomento complesso, dovevi formulare diverse query, navigare tra i risultati e sintetizzare le informazioni.

Adesso: potresti chiedere all'AI "Riassumi le principali teorie sull'intelligenza artificiale generativa e i loro impatti etici", e l'AI si occuperebbe di ricercare, filtrare e presentarti le informazioni più rilevanti, scegliendo le fonti e le strategie di ricerca più efficaci.

Spero di aver chiarito il mio pensiero, in caso contrario commentate e ditemi la vostra opinione. Ma nel frattempo, vediamo cosa è successo in OpenAI.

Il lancio di GPT-5, l'8 agosto, è stato segnato da problemi tecnici, con l'opzione "Thinking" (pensiero) che reindirizzava spesso a modelli meno capaci, e benchmark inferiori alle aspettative. Sono state riscontrate anche vulnerabilità agli attacchi di prompt injection. Sam Altman ha dovuto correre ai ripari e ha permesso di ripristinare GPT-4o per gli utenti Plus, raddoppiare i limiti di messaggi e migliorare l'interfaccia utente per mostrare il modello attivo.

Altman vuole rendere ChatGPT il più personale possibile senza prendere posizioni ideologiche, e prevede di spendere trilliardi di dollari per costruire data center per sostenere la crescita dell'azienda.

Il CEO Altman sta anche pianificando un'espansione aggressiva nella tecnologia dei dispositivi per i consumatori, nelle interfacce cervello-computer e nei social media.

OpenAI ha pubblicato la sua guida a GPT-5, un documento che va oltre il manuale tecnico, rappresentando forse un salto evolutivo nel campo del prompt engineering, che include design del prompt, dialogo e ragionamento.

Inoltre, ha appena aggiornato l'AI Academy, con 11 corsi gratuiti disponibili, che coprono argomenti come l'ingegneria delle promesse, il ragionamento con ChatGPT, le ricerche approfondite e l'utilizzo di LLM, ChatGPT per scrivere, codificare e analizzare.

Microsoft Copilot 3D

Microsoft ha lanciato Copilot 3D, un nuovo progetto che permette di trasformare qualsiasi immagine in un modello 3D. Non è un modello da testo a 3D, ma prende un'immagine e la converte in un oggetto 3D utilizzabile per lo sviluppo di giochi, modellismo, stampa 3D, web design e realtà virtuale. È disponibile gratuitamente e accessibile tramite un account Microsoft. Il processo è sorprendentemente rapido, impiegando circa 20 secondi per generare un modello 3D da un'immagine.

Generazione video con Perplexity

Perplexity ora offre la generazione di video con audio su web, iOS e Android per gli abbonati Pro (5 video al mese) e Max (15 video al mese con qualità superiore). Puoi fornire un prompt testuale o un'immagine e Perplexity creerà un video. La funzione include un "ottimizzatore di prompt" che riscrive il testo per una migliore generazione. La velocità di generazione è di circa un minuto per un video di 8 secondi, suggerendo l'uso di un modello avanzato come V3.

Notebook LM: panoramiche video per tutti

La funzione di panoramica video di Notebook LM è ora accessibile a tutti. Questo strumento consente di caricare diverse fonti (articoli, siti web, video di YouTube) e generare video esplicativi basati sul contenuto. È in grado di creare podcast audio e presentazioni video dall'aspetto professionale. Sebbene non utilizzi il modello V3 di Google, si basa su Google Vids per creare presentazioni in stile slideshow, rendendo la creazione di contenuti per piattaforme come YouTube incredibilmente efficiente.

Google Finance e Google Flights (prossimamente con AI)

Google sta implementando aggiornamenti AI su Google Finance e Google Flights. La nuova Google Finance, in fase di rollout nelle prossime settimane negli Stati Uniti, permetterà di fare ricerche finanziarie con risposte AI complete e strumenti di grafici avanzati. Allo stesso modo, Google Flights, in rollout in beta negli Stati Uniti, Canada e India, utilizzerà l'AI per suggerire opzioni di volo convenienti in base a descrizioni di idee di viaggio in linguaggio naturale.

Gemini e Claude: memoria delle conversazioni

Google Gemini e Anthropic Claude stanno introducendo la capacità di ricordare le conversazioni passate. Gemini avrà una nuova impostazione che gli permetterà di imparare dalle conversazioni precedenti, rendendo le interazioni più naturali e pertinenti. Claude offre una funzione simile che può essere attivata per permettergli di attingere alle chat precedenti per un contesto rilevante. Questa funzionalità, già presente in ChatGPT, migliora notevolmente l'esperienza utente.

Ma Gemini cambia le condizioni

Gemini aggiunge funzionalità, ma sta cambiando le condizioni d’uso. Gemini introduce chat temporanee che non vengono utilizzate per personalizzare le chat future e vengono salvate per 72 ore. L'impostazione "Conserva attività" consente di visualizzare e riprendere chat passate. Le registrazioni audio di Gemini e Gemini Live possono essere utilizzate per migliorare i servizi Google, ma l'impostazione è disattivata per impostazione predefinita.

Facciamo attenzione.

Le novità sui modelli LLM

In questo momento la corsa maggiore che stanno facendo un po’ tutti è aumentare il numero di token utilizzabili come contesto, il tema è che si crea di fatto un RAG senza dover necessariamente averne le competenze, in realtà c’è un tema di costi molto importante da tenere conto, oltre a una computazione più difficile da gestire.
Vedremo cosa accadrà.

Google ha rilasciato un nuovo modello chiamato Gemma 3 270M. Si tratta di un modello di piccole dimensioni (270 milioni di parametri, non miliardi) progettato per essere efficiente e veloce, in grado di funzionare anche su smartphone. Non è inteso come un concorrente diretto di modelli come GPT-5 o Claude 4.1, ma per applicazioni che richiedono velocità ed efficienza in locale. L’ho installato sul mio Pixel e devo dire che è sorprendentemente efficiente, certo non è perfetto.

I modelli Qwen di Alibaba hanno ricevuto aggiornamenti significativi, inclusi finestre di contesto ultra-lunghe fino a 1 milione di token. Questa tendenza verso finestre di contesto sempre più grandi suggerisce che presto la dimensione della finestra di contesto potrebbe diventare un fattore meno critico.

In risposta al lancio di GPT-5 e alla sua disponibilità nella versione gratuita, XAI ha reso Grok-4 disponibile gratuitamente a livello globale, precedentemente accessibile solo tramite piani a pagamento. Elon Musk ha confermato che l'integrazione degli annunci è prevista per compensare gli elevati costi delle GPU. La prossima iterazione di Grok sarà un sistema multimodale nativo, in grado di elaborare direttamente flussi audio/video per comprendere sfumature tonali e contesto in tempo reale, senza trascrizioni intermedie.

Skywork AI ha rilasciato Matrix Game 2.0, una versione open-source della tecnologia di navigazione in mondi 3D da un'immagine o video, simile a quanto mostrato da Google Genie la scorsa settimana. Questo richiede una notevole potenza di calcolo (GPU Nvidia con almeno 24 GB di memoria), rendendolo difficile da eseguire localmente per la maggior parte degli utenti.

MidJourney ha esteso la generazione di video HD anche agli abbonamenti standard, rendendo questa funzionalità più accessibile. Sono stati apportati anche miglioramenti alla moderazione video e alla gestione dei lavori in batch più piccoli.

Pika Labs ha anticipato un nuovo modello di performance audio-driven che promette un lip-syncing molto accurato in video HD di 6 secondi o meno. La funzione sarà presto disponibile nell'app Pika Social.

Hugsfield AI ha implementato una funzione "Draw to Video", simile a quella vista in V3, che permette agli utenti di disegnare su un'immagine e guidare la generazione video in base a quei disegni e prompt.

Il Robot che Piega il Bucato

Figure Robotics ha presentato un robot in grado di piegare il bucato, un progresso significativo nelle applicazioni domestiche della robotica. Questo stesso robot è anche in grado di caricare e scaricare lavatrici.

Samsung Bespoke (Frigorifero AI)

Un frigorifero alimentato dall'AI che tiene traccia degli alimenti, gestisce l'energia e si connette a dispositivi intelligenti. Impara la tua routine e mostra cosa c'è all'interno senza aprire la porta.

E il robot che sistema tutto

La molecola misteriosa che potrebbe accendere la vita nello spazio

I ricercatori hanno creato con successo un composto altamente instabile chiamato metanetetrolo, soprannominato "bomba prebiotica". Questo composto si scompone creando diversi elementi essenziali per la vita, suggerendo un potenziale meccanismo per la formazione della chimica complessa nello spazio e aiutandoci a identificare luoghi nell'universo che potrebbero supportare la vita.

Gocce oculari VIZZ per la presbiopia

La FDA americana ha approvato VIZZ, le prime gocce oculari a base di aceclidina in grado di correggere la visione da vicino sfocata fino a 10 ore senza occhiali. Queste gocce agiscono creando un "effetto stenopeico" che acuisce la visione ravvicinata senza compromettere la vista a distanza. Saranno disponibili entro la fine del 2025 per i 128 milioni di americani affetti da presbiopia.

Voci perfette

Boson AI ha rilasciato Higgs Audio V2, un modello text-to-speech sorprendentemente potente, capace di clonare voci e generare conversazioni multi-speaker con una precisione quasi umana. Questo apre scenari pazzeschi per la comunicazione, soprattutto perché è Open-Source e gira tranquillamente su una macchina con una RTX 4090.

L’ambulanza intelligente (forse ci siamo)

Da quanti anni sentite l’argomento “ambulanza intelligente”?
Chiaramente è un’esigenza, laddove molte di quelle in circolazione sono affidate al volontariato e non hanno a bordo un medico e la “telemedicina”, come si diceva una volta, non è mai decollata del tutto.
Il progetto TrialsNet di Ericsson Italia ha testato la "Smart Ambulance" con una rete 5G Standalone al campus del CNR di Pisa. La rete ha garantito copertura indoor e outdoor, supportando servizi mission-critical e adattandosi a scenari complessi, come il movimento di un veicolo ad alta velocità. I test hanno evidenziato l'importanza delle reti di trasporto e dell'orchestrazione avanzata per mantenere la qualità del servizio e la bassa latenza, oltre all'integrazione di soluzioni basate su intelligenza artificiale per ottimizzare l'uso delle risorse di rete.

Un farmaco contro le apnee notturne

Un nuovo farmaco contro l'apnea notturne potrebbe aiutare centinaia di milioni di persone a dormire meglio. Circa un miliardo di persone soffre di questa condizione in tutto il mondo, che aumenta il rischio di incidenti e rende le prestazioni lavorative più basse. L'apnea ostruttiva causa la contrazione dei muscoli della gola durante il sonno, portando a russare o a pause temporanee nella respirazione che fanno svegliare le persone. Il trattamento efficace attuale è una maschera facciale che pompa aria nei polmoni, rumorosa e scomoda. Tuttavia, un'azienda farmaceutica ha rilasciato i risultati preliminari di un trial clinico su un pillola che riduce significativamente le interruzioni della respirazione, potenziale alternativa alle maschere.

Come catturare l’attenzione su Instagram

OK, siamo arrivati in fondo, se ti è piaciuta questa newsletter invita qualche amico a leggerla.

Per il resto ti lascio il link a tutte le puntate del mio podcast, che è in pausa, e ai miei libri.

LASCIAMI UN MESSAGGIO

Fammi sapere cosa ti ha colpito delle cose che faccio o racconto nei vari eventi, o di quello che ascolti al Late Tech Show, piuttosto che negli SmartBreak (e dal podcast "Vita da ufficio") o che leggi nella newsletter Techy.
Ti prego di farmi conoscere cosa pensi possa essere migliorato, aiutami con le critiche, e soprattutto quali temi vorresti che venissero approfonditi o trattati.

fammi sapere cosa ne pensi

Se non vi siete ancora iscritti, fatelo, mi permettete di comprendere che apprezzate il mio lavoro.

Più persone la leggono, meglio è, quindi, per favore, condividilo con la tua famiglia, amici e colleghi per far sì che gli effetti di rete si diffondano.

Assicurati di aggiungere gigibeltrame@substack.com ai tuoi contatti. In Gmail, trascina questa newsletter nella tua scheda principale.

Grazie per aver letto questa newsletter, le trovi tutte a questo link.

💻sito del Late Tech Show

💁‍♂️ La Bio

📚 Scopri i miei libri

Newsletter #Techy

👍 Seguimi su:
Magazine LinkedInInstagram FacebookYoutube

https://gigibeltrame.substack.com/p/non-solo-gpt5-ma-la-corsa-per-lai
Share: