
Retroscena
7 domande e risposte su DeepSeek
di Samuel Buchmann
Quando è stata rilasciata la sua ultima AI "Llama 4", Meta ha vantato punteggi elevati su una piattaforma di benchmark. Tuttavia, il modello raggiunge questi punteggi solo in una versione speciale che non è nemmeno disponibile.
Le prestazioni dell'intelligenza artificiale (AI) vengono messe alla prova utilizzando dei benchmark. Una delle principali piattaforme per questo è LM Arena. I buoni risultati attirano l'attenzione, come nel caso della Novità "Llama 4" di Meta, che l'azienda ha rilasciato nel fine settimana. Tuttavia, è ormai chiaro che Meta ha giocato a carte scoperte per far apparire il suo modello il più bello possibile. Lo riporta il portale "TechCrunch".
Nel suo comunicato stampa, Meta sottolinea il punteggio ELO di 1417 per "Maverick" (il modello di medie dimensioni della famiglia LLama 4). Questo punteggio molto alto significa che Maverick vince spesso i duelli diretti di benchmark contro i concorrenti. Ciò suggerisce che il modello di Meta è superiore al 4o di OpenAI e appena dietro all'attuale leader Gemini 2.5 Pro di Google.
L'ondata che Maverick ha suscitato nella Community è stata altrettanto alta. Sembrava che Meta fosse all'avanguardia, dopo che i suoi modelli precedenti erano sempre rimasti indietro. Come si scopre ora, però, gli sviluppatori non hanno utilizzato la versione di Maverick disponibile pubblicamente per i benchmark su LM Arena, ma una "versione sperimentale in chat". Tuttavia, questo è stato menzionato solo in piccolo.
L'approccio di Meta non viola esplicitamente le regole di LM Arena, ma contraddice l'idea alla base della piattaforma. Questo perché i benchmark perdono di significato quando gli sviluppatori inviano in gara versioni appositamente ottimizzate dei loro modelli che non sono disponibili da nessuna parte perché presentano altri svantaggi. Ciò significa che i punteggi non rappresentano più prestazioni realistiche e non sono più adatti alla valutazione.
L'episodio dimostra quanto Meta sia sotto pressione nella gara di AI. Soprattutto ora che un secondo modello di peso aperto, il cinese DeepSeek, è sul mercato. Prima del lancio, Llama 4 è stato segnalato più volte rimandato perché non soddisfaceva le aspettative interne. Alla fine è stato stranamente rilasciato di sabato (5 aprile) invece che il lunedì successivo (7 aprile) come originariamente previsto. Quando gli è stato chiesto il motivo, il CEO di Meta Mark Zuckerberg ha risposto sui thread: "Allora era fatta".
Le mie impronte digitali cambiano talmente spesso che il mio MacBook non le riconosce più. Il motivo? Se non sono seduto davanti a uno schermo o in piedi dietro a una telecamera, probabilmente mi trovo appeso a una parete di roccia mantenendomi con i polpastrelli.