
Gemini Robotics: l'AI incontra il mondo reale
Con i modelli di intelligenza artificiale Gemini Robotics e Gemini Robotics-ER basati su Gemini 2.0, Google DeepMind mira a far progredire la robotica: Il modello di base gestisce compiti fisici, mentre ER risolve problemi complessi in ambienti dinamici.
Google DeepMind vuole creare robot che agiscano e pensino in modo indipendente. Per raggiungere questo obiettivo, l'azienda ha presentato una nuova pietra miliare nella combinazione di intelligenza artificiale (AI) e robotica : i modelli Gemini Robotics e Gemini Robotics-ER (Embodied Reasoning) basati su Gemini 2.0. Entrambi i modelli mirano a rendere i sistemi di AI capaci di agire non solo nel mondo digitale ma anche in quello fisico. Entrambi i modelli mirano a rendere i sistemi di intelligenza artificiale capaci di agire non solo nel mondo digitale, ma anche in quello fisico.
Mentre Gemini Robotics si concentra sulle basi dell'interazione fisica, Gemini Robotics-ER integra queste capacità con il ragionamento logico per problemi complessi. L'attenzione è rivolta allo sviluppo di robot in grado di svolgere compiti autonomi in ambienti dinamici, dalla logistica di magazzino all'assistenza quotidiana.
Tre innovazioni fondamentali stanno guidando lo sviluppo
I progressi di Gemini Robotics si basano su tre pilastri tecnologici:
1. universalità
La capacità di applicare i modelli di IA in modo universale a diversi robot e compiti, senza alcuna personalizzazione. Ad esempio, la stessa IA può controllare sia un braccio robotico nella produzione che un dispositivo mobile nella logistica. L'IA può anche affrontare e padroneggiare situazioni che non sono mai state trattate durante la formazione.
2. interattività
Come Gemini 2.0, Gemini Robotics è intuitivo e interattivo. L'intelligenza artificiale comprende diverse lingue e il linguaggio quotidiano e può rispondere a istruzioni complesse. Poiché monitora continuamente l'ambiente circostante, riconosce i cambiamenti e può reagire ad essi in modo dinamico.
3. destrezza
Il sistema aiuta a manipolare con precisione gli oggetti in spazi 3D. Può afferrare oggetti fragili, piegare la carta o impilare scatole senza alcuna programmazione preliminare.
Capacità migliorate grazie al ragionamento incarnato
Gemini Robotics-ER si basa sui tre fondamenti e integra la capacità di ragionamento logico in tempo reale. L'obiettivo è quello di migliorare in particolare il pensiero spaziale. Il modello è progettato per consentire ai robot di risolvere problemi complessi in ambienti imprevedibili, ad esempio pianificando catene di azioni, stabilendo priorità o riconoscendo relazioni di causa-effetto. Grazie a Gemini, i robot possono anche apprendere abilità completamente nuove attraverso il pensiero spaziale in combinazione con la capacità di programmazione - in altre parole, possono agire in modo intuitivo.

Fonte: Google DeepMind
Se la soluzione a un problema non può essere trovata da sola, il modello può anche seguire una dimostrazione umana per imparare contestualmente.
A lungo termine, i nuovi modelli di intelligenza artificiale saranno utilizzati nell'industria, nei soccorsi in caso di calamità e nell'assistenza quotidiana. Gemini Robotics è destinato ad automatizzare compiti fisici ripetitivi, mentre Gemini Robotics-ER agisce come risolutore di problemi in contesti imprevedibili.
A 14 persone piace questo articolo


La mia musa ispiratrice si trova ovunque. Quando non la trovo, mi lascio ispirare dai miei sogni. La vita può essere vissuta anche sognando a occhi aperti.