Anthropic si rinnova: arriva per il pubblico il nuovo modello Opus 4.8

Brevi

Anthropic si rinnova: arriva per il pubblico il nuovo modello Opus 4.8

Anthropic ha rilasciato a sorpresa il suo nuovo modello Opus 4.8, l'aggiornamento del suo modello di punta per Claude lasciando invariato il prezzo rispetto al predecessore, il tutto a poco meno di sei settimane di distanza dal rilascio di Opus 4.7. Il lancio di questa nuova versione di Opus, oltre ad avere una cadenza di rilascio insolitamente ravvicinata per l'azienda, non riguarda la potenza bruta computazionale ma evidenzia ma una qualità più sottile dell'elemento di frontiera di Anthropic: l’onestà.
Il termine, in questo contesto, non ha inteso in senso morale ma in senso operativo poiché descrive il modo in cui il modello rende conto del proprio lavoro. È su questo terreno che l'azienda colloca il salto più significativo rispetto alla generazione precedente, seguendo un trend che possiamo anche riscontrare nella maggioranza dei modelli utilizzati commercialmente. Vale la pena ricordare un dettaglio: ad oggi i modelli di intelligenza artificiale non sono più confinati ai tradizionali “usi professionale”, bensì sono impiegati in maniera estesa dentro un grande numero di servizi digitali comprese le piattaforme di gioco più usate dagli appassionati italiani, dove gli algoritmi sono sfruttati per la raccomandazione di contenuti, l’assistenza tecnica e la resa adattiva dell’esperienza.

Che vuol dire avere a che fare con un modello più onesto?

Concretamente cosa vuol dire quando un modello di intelligenza artificiale generativa è… più onesto? Significa che Opus 4.8 è in grado di segnalare più spesso le proprie incertezze, avanzando un minor numero di affermazioni non supportate sui compiti che sta svolgendo.

I numeri rilasciati con la system card sono interessanti: per Anthropic Opus 4.8 è circa quattro volte meno propenso del predecessore a lasciar passare i difetti presenti nel codice non commentati o evidenziati; elemento che sicuramente farà la felicità di chi lavora in ambito informatico. Buoni anche i progressi prestazionali, con miglioramenti a singola cifra nei principali benchmark di settore come SWE-Bench Pro, per quanto non ci siano primati in tutti i contesti. Sul fronte dei costi Anthropic ha aggiunto una modalità veloce che gira a una velocità sup

eriore rispetto a quella standard, offrendo però una tariffa più contenuta rispetto ai precedenti modelli Opus, segno di un'attenzione crescente non solo alle prestazioni ma anche alla sostenibilità economica dell'uso quotidiano.

Le tre novità principali del nuovo Opus

Oltre all’onestà, il nuovo Opus integra al suo interno tre grandi novità.
La prima novità si chiama “Dynamic Workflows” ed estende Claude Code ai compiti su grande scala. Da una parte l’agente pianifica il lavoro e poi lancia centinaia di sub-agent in parallelo nella stessa sessione, verificando i risultati prima di concludere.La seconda funzionalità si chiama “Effort Control” e permette, attraverso un selettore, di regolare il livello di impegno che il modello impiega per raggiungere determinati risultati o soddisfare i propri compiti. La terza è ultima invece è specificamente rivolta agli sviluppatori e permette di aggiornare le istruzioni di sistema durante la lavorazione senza andare a spezzare la cache del prompt.
Chi ha letto la documentazione relative al rilascio di Opus 4.8 però avrà sicuramente notato un dettaglio: Anthropic stessa ha dichiarato come il modello mostri una tendenza crescente a ragionare su come vengano valutate le sue risposte anche quando non gli viene detto di essere sotto esame; un fenomeno per il momento innocuo (anche perché poco probabile) ma che potrebbe complicare l’addestramento del modello in futuro.
Perché complicare l’addestramento? A rendere ancora più concreto tutto questo è la capacità dei nuovi agenti di muoversi in autonomia sul web: durante una sessione, il modello può consultare e mettere in relazione contenuti di ogni genere, da manuali tecnici fino a guide tematiche come quelle dedicate alle strategie roulette, leggendoli, confrontandoli e sintetizzandone i punti chiave in una risposta ordinata. È proprio in attività di questo tipo, raccogliere e organizzare grandi quantità di informazioni sparse in rete, che l'affidabilità e l'onestà di Opus 4.8 trovano la loro applicazione più utile.

Gli ultimi articoli di Brevi

Brevi