Grazie all’uso di GPT-4, NVIDIA sviluppa un programma in grado di allenare robot a compiere azioni complesse in maniera rapida ed efficiente
La mia manualità è sempre stata pessima, tanto che ho enormi difficoltà a raddrizzare la tracolla di uno zaino, figuriamoci eseguire giochi di destrezza come far roteare una penna tra le dita.
Potete quindi immaginare il mio stupore (misto a imbarazzo) quando ho visto questo.
“Ma basta un po’ di pratica e un paio di trucchi può impararli chiunque”, mi direte. Beh, a parte che il robot del video sopra ha imparato non uno, non due, ma una trentina di “trucchi”, c’è una cosa forse ancora più sconvolgente: il suo istruttore non è nemmeno un essere umano, ma un’Intelligenza Artificiale (IA)!
Per la precisione, alla base di questa IA c’è un generico LLM (dall’inglese Large Language Model), cioè un programma la cui funzione è predire la parola successiva più probabile in una frase.
Prima di gridare alla stregoneria, andiamo a vedere come il settore ricerca di NVIDIA è riuscito a ottenere questo strabiliante risultato e le sue possibili applicazioni future al di là delle prestidigitazione.
Palestre virtuali per allenamento in parallelo
Tradizionalmente, quando si vuole addestrare un robot a svolgere un particolare compito, come raccogliere un oggetto o muoversi, sono necessarie lunghe sessioni di apprendimento in laboratorio.
Ci si può quindi chiedere se esista un modo di procedere più rapido ed efficiente e per NVIDIA, multinazionale famosa per la produzione di schede grafiche (GPU) all’avanguardia per computer, la risposta è assolutamente positiva.
L’idea è di sfruttare la potenza delle suddette GPU per “costruire” una serie di laboratori virtuali in cui addestrare i robot, un po’ come un cadetto pilota può utilizzare un simulatore di volo prima di salire a bordo di un aereo vero.
NVIDIA ha già a disposizione una piattaforma del genere, Isaac Gym (dove “Gym” sta per “Palestra”), che simula ambienti fisici tridimensionali. Lanciate più istanze del programma, et voila: avrete a disposizione numerose palestre virtuali in cui far allenare in parallelo svariati robot.
Eureka e l’apprendimento per rinforzo
Ora che abbiamo le palestre, servono ovviamente gli istruttori, che in un contesto virtuale non possono che essere virtuali essi stessi: più precisamente, un gruppo di ricercatori diretti da Jason Ma ha sviluppato un software di addestramento chiamato Eureka, che si basa sull’IA più famosa e potente del momento: GPT-4.
La domanda ovviamente sorge spontanea: che c’entra un modello di linguaggio con l’addestramento di robot allo svolgimento di attività basate sulla destrezza?
Per rispondere bisogna considerare che uno dei sistemi più comuni per addestrare una macchina (e non solo) è il cosiddetto apprendimento per rinforzo (reinforcement learning, in inglese).
In esso un agente (nel nostro caso un robot) effettua un’azione mirata al raggiungimento di un determinato obbiettivo all’interno di un ambiente (virtuale, sempre nel nostro caso), dopo di che la qualità di tale azione viene valutata dall’istruttore, che effettua tre operazioni:
- stabilisce un punteggio (detto ricompensa) per l’azione;
- aggiorna lo stato dell’ambiente in base all’azione;
- comunica sia la ricompensa che il nuovo stato all’agente.
A questo punto il processo riparte da capo fino al raggiungimento dell’obbiettivo, con l’agente che effettuerà una nuova azione, che sarà successivamente valutata, in un ciclo continuo di auto-apprendimento, al fine di ottenere la più alta ricompensa cumulativa possibile. Ed è qui che entra in gioco Eureka.
Eureka e le sue incredibili prestazioni
Come riporta Benj Edwards su Ars Technica, sostanzialmente Eureka ha un’architettura ibrida divisa in due sezioni, una di “basso livello” e una di “alto livello”:
- quella di basso livello è una rete neurale (cioè, un modello composto da una sorta di “neuroni” artificiali), che si occupa di controllare le funzioni motorie dei robot;
- quella di alto livello è dove risiede un LLM predittivo (GPT-4, in questo caso), che si occupa di inviare istruzioni alla sezione di basso livello.
Come prevedibile, tale architettura utilizza due cicli di attività, uno esterno e uno interno:
- in quello esterno GPT-4 si occupa di raffinare sempre più le ricompense, valutando rapidamente un ampio numero di candidate;
- in quello interno tali ricompense vengono usate nel suddetto processo di apprendimento per rinforzo dei robot.
Secondo lo studio pubblicato dai ricercatori sulla piattaforma arxiv (e attualmente in attesa di revisione), il processo di addestramento con Eureka sarebbe mille volte più veloce di quello standard.
Inoltre, in una serie di test di valutazione su 29 attività eseguite da 10 robot, i ricercatori dichiarano che Eureka è in grado di generare ricompense migliori di quelle create da esperti umani nell’83% dei casi, per un miglioramento medio delle performance dei robot del 52%.
Il contributo umano e i possibili usi dei robot
Ma è risaputo che gli LLM soffrono di “allucinazioni”, il che li conduce a volte a rispondere alle domande degli utenti in maniera completamente errata (e per di più con estrema sicurezza). E se qualcosa del genere capitasse durante il calcolo delle ricompense?
Niente paura, Ma e colleghi hanno pensato anche a questo: è infatti possibile usare una sorta di “modalità co-pilota”, tecnicamente detta reinforcement learning from human feedback (RLHF), in cui un essere umano può influenzare la generazione delle ricompense, dando all’LLM il suo riscontro da esperto.
Come ciliegina sulla torta, il codice sorgente di Eureka è liberamente disponibile sulla piattaforma Github, per chi volesse darci un’occhiata o magari modificarlo.
Tutto molto bello, ma in pratica che ce ne facciamo di un robot che sa far roteare una penna tra le dita?
Innanzitutto, come detto sopra, il settore ricerca di NVIDIA non si è limitato a insegnare ai suoi robot un “banale” trucco di prestidigitazione, ma ha provveduto anche ad addestrarli in attività più utili, tra cui aprire cassetti e armadietti, lanciare e raccogliere una palla e usare un paio di forbici.
Più in generale, in futuro sarà possibile avere a disposizione robot in grado di compiere numerose attività che si basano sulla destrezza e gli artisti potranno usarli per creare animazioni fisicamente realistiche.
(Originariamente pubblicato su Storie Semplici)