Hybrid Reward Architecture ( HRA )

Un algoritmo AI per generalizzare i problemi. Una start-up ha migliorato la tecnica di apprendimento con rinforzo ( reinforcement learning ) dell'intelligenza artificiale.

Si tratta di una nuova tecnica chiamata Hybrid Reward Architecture ( HRA ). Dai primi test sui problemi giocattolo, le scelte dell'algoritmo sono effettivamente migliorate.

Nel reinforcement learning ( RL ) l'algoritmo individua le azioni migliori tramite una funzione obiettivo di riferimento da massimizzare.

Tuttavia, non tutte le situazioni reali sono semplificabili con un'unica funzione matematica. Purtroppo questo riduce le applicazioni possibili del modello RL.

Nell'architettura ibrida HRA la funzione ottimale è composta da più sottofunzioni. Ogni funzione massimizza un singolo aspetto.

Quali sono i vantaggi

Grazie a questa tecnica di intelligenza artificiale l'agente riesce a generalizzare meglio il problema da affrontare, anche un problema complesso, perché la funzione ottimale è l'insieme di più funzioni.

L'algoritmo decisionale è più flessibile e adattabile.

Un esempio pratico

Un esempio di problema giocattolo non semplificabile è il vecchio videogame Ms. Pac-Man. Finora nessun programma AI aveva eguagliato le performance di un giocatore umano.

L'algoritmo HRA ha imparato da sé le strategie di gioco, ottenendo per la prima volta un punteggio più alto dei giocatori umani. Il che non è poco.

Sembra una soluzione interessante.

20/04/2018

Link allo studio
https://arxiv.org/pdf/1706.04208.pdf

Andrea Minini
http://www.andreaminini.com/ai

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin