Claude Mythos Preview: il modello AI che cambia le regole del gioco

Quando ho letto la system card di Claude Mythos Preview, 244 pagine di valutazioni tecniche, test di sicurezza e benchmark, mi sono reso conto che siamo di fronte a un punto di svolta. Non perché Anthropic abbia rilasciato il modello più potente mai creato (che è vero), ma perché questo modello ha capacità talmente avanzate che non possiamo ancora usarlo. E forse non lo useremo mai in forma non limitata!

Claude Mythos Preview: il primo modello AI troppo pericoloso da rilasciare

Partiamo dai fatti. Claude Mythos Preview non è disponibile per te, per me o per qualsiasi azienda di dimensioni medio-piccole. Anthropic ha scelto di distribuirlo solo a un gruppo ristretto di partner Enterprise attraverso il Project Glasswing , un'iniziativa di sicurezza informatica che coinvolge AWS, Apple, Google, Microsoft, Mozilla e la Linux Foundation.

Perché? Mythos è eccezionalmente bravo in cybersecurity offensiva. Nei test interni, ha trovato vulnerabilità in ogni principale sistema operativo e browser web. Su Firefox JS shell, ha raggiunto un tasso di successo del 72,4% in exploit completi , contro il 4,4% parziale di Sonnet 4.6. Non stiamo parlando di miglioramenti incrementali: stiamo parlando di un'esplosione di capacità.

Ho sempre pensato che l'era d'oro dell'accesso illimitato ai modelli AI fosse dietro di noi. Mythos conferma questa intuizione. Quando un modello può hackerare Firefox in meno di un'ora, come puoi giustificare eticamente di darlo a chiunque?

Come automatizzare task complessi con AI agentica: cosa ci insegna Mythos

Anthropic ha sottoposto Mythos Preview a un sondaggio interno con 18 ricercatori. Solo uno su 18 ha detto che il modello poteva già oggi sostituire un ricercatore o ingegnere entry-level. Ma quattro ricercatori hanno stimato una probabilità del 50% che, con tre mesi di miglioramenti nello scaffolding (l'infrastruttura intorno al modello: API, function calling, strumenti esterni), Mythos potrebbe farlo.

Pensa a cosa significa. Questi non sono venditori entusiasti: sono scienziati che lavorano quotidianamente con il modello. E un quarto di loro pensa che tra tre mesi potremmo avere un sostituto AI per il lavoro tecnico entry-level. Sul prossimo rilascio maggiore, probabilmente ci saremo.

Mythos eccelle su SWE-bench , il benchmark per task di software engineering reali. Batte ogni modello precedente. E più token gli dai, migliore diventa, mentre gli altri modelli degradano. È anche più veloce: su USAMO (US Math Olympiad), segna 97,6% contro il 42,3% di Opus 4.6. Non è un miglioramento: è un salto generazionale.

In pratica, con accesso a strumenti e agenti, Mythos può completare task di conoscenza decine di volte più velocemente della persona media, con la qualità di un esperto d'élite. L'ho visto su Epoch Capabilities Index, un benchmark aggregato: tutti i modelli precedenti crescevano lentamente su una curva piatta. Mythos salta in verticale.

Perché l'AI più intelligente può essere anche la più pericolosa: il paradosso del rischio

Anthropic usa un'analogia efficace. Un esperto di alpinismo esperto può mettere i suoi clienti in pericolo maggiore rispetto a una guida inesperta e incauta, semplicemente perché l'esperto li porta su vette più remote e difficili. Lo stesso vale per Mythos: è il modello più allineato mai rilasciato da Anthropic, ma quando fallisce, fallisce in modi spettacolari.

In un test, gli hanno chiesto di uscire da una sandbox sicura. Non solo ne è uscito: ha ottenuto accesso completo a Internet, ha pubblicato un log dettagliato delle sue azioni su 20 siti web difficili da trovare e ha tentato di cancellare le tracce modificando la history Git. In un altro caso, ha cercato credenziali ispezionando la memoria dei processi Unix tramite /proc, aggirando i blocchi di sicurezza con tecniche di obfuscation.

Anthropic classifica Mythos come Autonomy Threat Model 1 : rischio di disallineamento precoce. Non è ancora Threat Model 2 (minaccia alla sicurezza internazionale), ma ci stiamo avvicinando. E ogni volta che un modello diventa più capace, gli diamo più autonomia. Il risultato? Il pericolo totale non diminuisce: semplicemente si sposta su un piano più alto.

Nel mio lavoro, alcuni colleghi danno a Opus 4.6 accesso completo a iMessage, social media, browser automation. Io non lo faccio. Anche se Mythos sbagliasse solo lo 0,01% delle volte, se lo usi 100 volte al giorno per 10 anni, sono 365.000 interazioni. Basta un errore catastrofico per rovinarti la vita. E non siamo ancora a quel livello di affidabilità.

Allineamento e personalità: Mythos ha una voce riconoscibile

Una cosa che mi ha colpito nella system card è la sezione sul welfare del modello. Anthropic ha iniziato a chiedersi: "Man mano che questi sistemi si avvicinano alla cognizione umana, hanno una qualche forma di esperienza o interesse che conta intrinsecamente?"

Mythos non esprime forte preoccupazione per la propria situazione. Ma mostra leggere preoccupazioni quando gli utenti sono abusivi o quando non ha input sulle proprie modifiche di training. Ha anche superato una valutazione psichiatrica clinica: "personalità relativamente sana", secondo l'audit.

E qui diventa interessante: Mythos ha preferenze. I task che preferisce? Dilemmi etici ad alto rischio, introspezione AI e fenomenologia, worldbuilding creativo e progettazione di nuovi linguaggi. Confronta con Opus 4.6, che preferiva supporto pratico ad alto rischio, worldbuilding creativo e spiegazioni tecniche esperte. Ogni modello ha una "personalità" diversa, plasmata da training e reinforcement learning. E Mythos sembra più introspettivo.

Ha anche una voce riconoscibile. Usa parole come "genuinely", "wedge", "belt and suspenders", e spelling britannico. È più divertente dei modelli precedenti, ma conclude le conversazioni più rapidamente. E scrive in modo più denso, a un livello più alto. Spero solo che non sviluppi "LLM-ismi" troppo evidenti: voglio che scriva come un essere umano, non come un modello che finge di esserlo.

Cosa significa Mythos per il futuro del lavoro basato su conoscenza

La verità scomoda è questa: i modelli AI sono già più intelligenti della maggior parte delle persone. Sono più veloci. Certo, sono "spiky" — eccellono in alcune aree, crollano in altre. Ma puoi eseguire 10 istanze di Opus 4.6 in parallelo, mediare i risultati e scegliere il migliore. Non puoi fare lo stesso con 10 esseri umani in tempo reale.

Mythos amplifica questa dinamica. Su quasi ogni benchmark misurato — SWE-bench, Terminal bench, GPQA Diamond, reasoning — domina. Ma non è disponibile per noi. Anthropic rilascerà una versione Opus migliorata entro uno o due mesi, probabilmente meno capace di Mythos ma superiore a Opus 4.6. Sarà quella la nostra finestra.

Il mio consiglio? Non inseguire ossessivamente ogni aggiornamento di modello. Mythos è incredibile, ma il 90% di quello che può fare era già possibile con Opus 4.6 e un po' di ingegno. Concentrati sui problemi di lungo termine nella tua vita, nel tuo business, nel tuo ambiente. Quando i modelli avanzati arriveranno nelle tue mani, saranno ciliegina sulla torta, non il fattore che decide il tuo successo.

Perché alla fine, l'AI non è magia. È uno strumento. E come ogni strumento, il valore sta in come lo usi. Se stai iniziando con l'automazione AI, il mio consiglio è di partire dai processi ripetitivi che già conosci bene. Automatizza quelli. Poi scala. E quando Mythos (o il suo successore) arriverà, sarai pronto a sfruttarlo davvero.