Shutterstock
Novità e trend

Meta è stata sorpresa a sminuire i benchmark dell'intelligenza artificiale

Samuel Buchmann
9/4/2025
Traduzione: tradotto automaticamente

Quando è stata rilasciata la sua ultima AI "Llama 4", Meta ha vantato punteggi elevati su una piattaforma di benchmark. Tuttavia, il modello raggiunge questi punteggi solo in una versione speciale che non è nemmeno disponibile.

Le prestazioni dell'intelligenza artificiale (AI) vengono messe alla prova utilizzando dei benchmark. Una delle principali piattaforme per questo è LM Arena. I buoni risultati attirano l'attenzione, come nel caso della Novità "Llama 4" di Meta, che l'azienda ha rilasciato nel fine settimana. Tuttavia, è ormai chiaro che Meta ha giocato a carte scoperte per far apparire il suo modello il più bello possibile. Lo riporta il portale "TechCrunch".

Nel suo comunicato stampa, Meta sottolinea il punteggio ELO di 1417 per "Maverick" (il modello di medie dimensioni della famiglia LLama 4). Questo punteggio molto alto significa che Maverick vince spesso i duelli diretti di benchmark contro i concorrenti. Ciò suggerisce che il modello di Meta è superiore al 4o di OpenAI e appena dietro all'attuale leader Gemini 2.5 Pro di Google.

Intanto, la classifica di LM Arena dichiara che il modello di Meta al secondo posto è una versione sperimentale.
Intanto, la classifica di LM Arena dichiara che il modello di Meta al secondo posto è una versione sperimentale.

L'ondata che Maverick ha suscitato nella Community è stata altrettanto alta. Sembrava che Meta fosse all'avanguardia, dopo che i suoi modelli precedenti erano sempre rimasti indietro. Come si scopre ora, però, gli sviluppatori non hanno utilizzato la versione di Maverick disponibile pubblicamente per i benchmark su LM Arena, ma una "versione sperimentale in chat". Tuttavia, questo è stato menzionato solo in piccolo.

La pratica contraddice lo scopo dei benchmark

L'approccio di Meta non viola esplicitamente le regole di LM Arena, ma contraddice l'idea alla base della piattaforma. Questo perché i benchmark perdono di significato quando gli sviluppatori inviano in gara versioni appositamente ottimizzate dei loro modelli che non sono disponibili da nessuna parte perché presentano altri svantaggi. Ciò significa che i punteggi non rappresentano più prestazioni realistiche e non sono più adatti alla valutazione.

  • Retroscena

    7 domande e risposte su DeepSeek

    di Samuel Buchmann

L'episodio dimostra quanto Meta sia sotto pressione nella gara di AI. Soprattutto ora che un secondo modello di peso aperto, il cinese DeepSeek, è sul mercato. Prima del lancio, Llama 4 è stato segnalato più volte rimandato perché non soddisfaceva le aspettative interne. Alla fine è stato stranamente rilasciato di sabato (5 aprile) invece che il lunedì successivo (7 aprile) come originariamente previsto. Quando gli è stato chiesto il motivo, il CEO di Meta Mark Zuckerberg ha risposto sui thread: "Allora era fatta".

Immagine di copertina: Shutterstock

A 10 persone piace questo articolo


User Avatar
User Avatar

Le mie impronte digitali cambiano talmente spesso che il mio MacBook non le riconosce più. Il motivo? Se non sono seduto davanti a uno schermo o in piedi dietro a una telecamera, probabilmente mi trovo appeso a una parete di roccia mantenendomi con i polpastrelli. 

Potrebbero interessarti anche questi articoli

  • Novità e trend

    Meta AI sbarca in Europa: chatbot AI presto su Facebook, Whatsapp & Co.

    di Debora Pape

  • Novità e trend

    Abbiamo (in parte) indovinato: le collaborazioni streetwear più cool dell'anno scorso

    di Laura Scholz

  • Novità e trend

    Google ora mostra testi generati dall'intelligenza artificiale in risposta alle tue domande

    di Debora Pape

3 commenti

Avatar
later