Gemini 3.5 Flash e Omni: cosa (non) mi ha convinto del Google I/O

L'AI non ti ruberà il lavoro. Ma qualcuno che sa sfruttare gli strumenti giusti prima di te, forse sì. E Google, con il suo ultimo I/O, ha lanciato una serie di novità che promettono di cambiare il modo in cui lavoriamo con l'intelligenza artificiale. Ma siamo sicuri che siano all'altezza delle aspettative?

Quando ho seguito la presentazione del Google I/O, mi aspettavo annunci dirompenti. Invece, mi sono trovato di fronte a una serie di aggiornamenti che, pur interessanti, lasciano più domande che certezze. In questo articolo analizzo le novità più rilevanti: dal nuovo Gemini 3.5 Flash al discusso modello Omni, passando per l'agente Spark e l'evoluzione della ricerca Google.

Gemini 3.5 Flash: velocità senza sostanza?

Google ha presentato il Gemini 3.5 Flash come il nuovo modello di frontiera: più potente del 3.1 Pro, ma soprattutto molto più veloce. Il punto di forza dichiarato è il throughput, con oltre 300 token al secondo generati. Sulla carta, sembra impressionante.

Nei benchmark ufficiali, il 3.5 Flash supera le versioni precedenti su quasi tutti i parametri. Ma quando ho iniziato a testarlo personalmente e a leggere i feedback della community, le cose si sono complicate. Il modello soffre di un problema che conosco bene: l'overthinking. Invece di passare subito all'azione, perde troppo tempo a "ragionare" ad alta voce, generando token inutili che fanno lievitare i costi.

Ho provato a usarlo per automatizzare alcuni workflow con Make e, sinceramente, preferisco ancora Claude per task che richiedono precisione e sintesi. Il 3.5 Flash è utile quando serve generare interfacce grafiche al volo o widget interattivi, ma per ragionamenti complessi o sviluppo di codice strutturato non mi ha convinto.

Un altro dettaglio: nei benchmark indipendenti di Artificial Analysis, il modello si posiziona tra i cinesi Kimi K2.6 e Ken 3.7 Max, ben al di sotto di GPT-4.5 e Claude Opus 4.7. Google ha chiaramente enfatizzato i risultati nei propri test interni.

Gemini Omni: l'idea giusta al momento sbagliato

Gemini Omni doveva essere il vero protagonista dell'evento. Un modello nativamente multimodale , capace di ricevere e generare testo, immagini, audio e video senza moduli separati. Tutto avviene all'interno dello stesso modello, che trasforma i dati in token specifici (vision token, audio token, video token). L'architettura è brillante sulla carta.

Il problema? La versione Flash rilasciata genera video che lasciano davvero a desiderare. Ho fatto diverse prove: in un caso, un'animazione con una barra di caricamento mostrava l'asticella che si muoveva senza seguire il tracciato. In un altro, due persone che dovevano abbracciarsi restavano immobili per troppo tempo, poi si abbracciavano in modo innaturale.

La community ha subito confrontato Omni Flash con modelli come Sora e altri tool di video generation, e il risultato è impietoso. La fisica è sballata, i movimenti innaturali, la coerenza temporale assente. Mi sono chiesto: come può Google, con tutto il budget e l'infrastruttura che ha, rilasciare un prodotto così acerbo?

L'idea del modello multimodale nativo è interessante per il futuro: un unico sistema che comprende davvero la fisica del mondo attraverso tutti i tipi di dati. Ma rilasciare questa versione Flash, confrontabile solo con modelli verticali molto più maturi, è stata una mossa azzardata. Aspetto la versione 2.0 prima di utilizzarlo in produzione.

SynthID 2.0: watermark invisibile (finalmente sicuro)

Una delle novità che ho apprezzato è l'aggiornamento di SynthID , il watermark invisibile che Google applica a tutti i contenuti generati dall'AI: immagini, testo, video, audio. Serve a distinguere ciò che è creato da noi da ciò che è generato dall'intelligenza artificiale, fondamentale per combattere deepfake e per addestrare i modelli futuri senza contaminarli con dati sintetici.

La prima versione di SynthID era stata completamente bucata da un ingegnere: aveva generato centinaia di immagini nere, calcolato la media, fatto un'analisi spettrale e identificato la firma del watermark. Una volta individuata la frequenza, l'aveva semplicemente rimossa.

Meno male che Google ha reagito. La versione 2.0 è più robusta e, soprattutto, viene adottata da partner come OpenAI, Meta e altri. Il problema rimane: se un modello cinese o un'azienda minore non implementa lo stesso standard, il contenuto generato da quelle piattaforme non sarà tracciabile. Servirebbe un accordo globale, ma sappiamo quanto sia difficile ottenerlo.

Spark: l'agente personale nel cloud di Google

Gemini Spark è l'agente personale sempre attivo, 24/7, che vive in una macchina virtuale su Google Cloud. Utilizza Gemini 3.5 come motore, ha accesso a tutta la suite Google Workspace e può essere collegato a strumenti esterni tramite server MCP.

È sostanzialmente una versione di OpenClow o CrewAI, ma integrata nativamente con Gmail, Docs, Calendar, Sheets. Puoi dirgli: "Controlla le mail degli ultimi tre giorni, trova i preventivi, carica il template da Google Docs, compilalo con i dati del cliente dal foglio Excel e invia la mail." Oppure: "Ogni mattina alle 10:00, riassumi le ultime 30 mail, evidenzia quelle urgenti e inviami un report."

Per chi già vive nell'ecosistema Google, è comodo: setup rapido, nessuna infrastruttura da gestire. Ma c'è un "ma" che non posso ignorare: la privacy. Spark ha accesso a tutti i tuoi dati. Certo, se usi già Google, i tuoi dati sono già nei loro server. Ma prima di attivarlo, leggerei con attenzione i termini e condizioni: bisogna capire se quei dati vengono usati per riaddestrare i modelli o per altri scopi.

Inoltre, sarà disponibile prima negli Stati Uniti per gli utenti Plus, Pro e Ultra. In Italia? Probabilmente mesi dopo, come sempre.

La ricerca Google diventa (ancora più) AI-first

Google sta rivoluzionando la ricerca web, puntando tutto sull'AI. Ora, mentre scrivi una query, un piccolo modello ti suggerisce l'autocompletamento delle frasi in tempo reale, come su smartphone. Ma la vera novità è l'interfaccia: una chat scrollabile dove l'AI legge gli articoli per te e ti risponde direttamente.

Non devi più aprire le pagine web, basta continuare a chattare con Gemini. Puoi anche lanciare agenti in background: chiedi una ricerca complessa, lui lavora mentre fai altro e ti notifica quando ha finito. Comodo, ma inquietante.

Inquietante perché, se gli utenti non aprono più i siti, chi ha un e-commerce o un blog deve chiedersi: ha ancora senso ottimizzare per le persone, o conviene iniziare a ottimizzare per gli agenti AI? È un cambio di paradigma che impatta chi vive di traffico organico, e non è chiaro come Google compenserà i creatori di contenuti.

Ci sono altre funzioni curiose: Gemini può generare widget interattivi mentre risponde (ad esempio, animazioni per spiegare come funzionano i buchi neri), prenotare ristoranti o parrucchieri direttamente dall'interfaccia, persino creare mini-applicazioni web al volo. Quest'ultima, però, mi sembra eccessiva: perché dovrei generare un'app partendo da una semplice query di ricerca? Forse ci sono casi d'uso che non ho ancora intuito, ma mi pare troppo.

TPU di ottava generazione: l'asso nella manica di Google

Se c'è una cosa che Google fa meglio di chiunque altro, è l'infrastruttura. Le nuove TPU (Tensor Processing Unit) di ottava generazione sono il vero vantaggio competitivo. Esistono in due varianti: le 8T ottimizzate per l'addestramento e le 8I specializzate per l'inferenza in produzione.

Google non dipende da Nvidia, non paga fornitori esterni, si sviluppa le proprie schede e le ottimizza per i propri modelli. Questo gli permette di mantenere costi più bassi e velocità più alte. Il throughput del 3.5 Flash, per esempio, è reso possibile proprio da queste TPU.

L'infrastruttura dietro questi data center è impressionante: sistemi di raffreddamento enormi, reti di interconnessione tra chip progettate su misura. Lo sforzo energetico per mantenere il ritmo dell'AI è pazzesco, e Google può permettersi di scalare perché controlla l'intera catena, dall'hardware al software.

Questo è il motivo per cui riesce a integrare l'AI ovunque: YouTube, Gmail, Docs, Ads. Ha 13 prodotti con oltre un miliardo di utenti e cinque con oltre tre miliardi. Con numeri simili, anche un piccolo miglioramento nell'esperienza utente ha un impatto enorme.

Un Google I/O sotto tono (e una domanda aperta)

Tirando le somme, questo Google I/O è stato il più debole degli ultimi anni. Gemini Omni, che doveva essere il protagonista, ha deluso. Il 3.5 Flash è veloce ma non brillante. Gli altri strumenti — Spark, l'app desktop con controllo del PC, le nuove funzioni di ricerca — sono interessanti, ma già visti altrove. Anthropic, OpenAI e persino alcuni modelli cinesi li hanno implementati prima.

Detto questo, Google ha un vantaggio che nessun altro ha: miliardi di utenti. Anche miglioramenti incrementali, quando applicati su quella scala, cambiano il modo in cui le persone lavorano, cercano informazioni, comunicano. E questo porta a una riflessione che mi frulla in testa da un po'.

Stiamo vivendo un momento straordinario. Con gli strumenti giusti, un freelancer come me può fare cose che prima richiedevano team interi. Ma ogni volta che delego un task a un agente AI, ogni volta che lascio che un modello prenda decisioni al posto mio, mi chiedo: fino a quando saremo noi a usare l'AI, e non viceversa?

Non ho una risposta definitiva. Forse non ce n'è una. Ma è una domanda che vale la pena tenere aperta, mentre continuiamo a sperimentare. Se anche tu stai testando Gemini 3.5 Flash o altri modelli recenti, il mio consiglio è di partire da task semplici, misurare i risultati e confrontarli con alternative come Claude o GPT-4. Solo così capirai davvero cosa funziona per il tuo workflow.