Un algoritmo della curiositÃ
L'algoritmo si chiama Texplore Venir e introduce nell'intelligenza artificiale le scelte esplorative intelligenti e non casuali dettate dalla curiosità.
Si tratta di un programma sviluppato da Todd Hester di Google DeepMind e Peter Stone dell'Universita' del Texas.
Come funziona l'algoritmo?
Il programma utilizza la tecnica del modello a rinforzo ( reinforcement learning ).
Un modello a rinforzo premia l'esplorazione con un extra quando il bot compie una nuova mossa che lo avvicina di più all'obiettivo finale.
In questo modo, la ricompensa emula la soddisfazione che l'uomo prova quando impara qualcosa di nuovo.
La doppia ricompensa di Texplore Venir
L'algoritmo Texplore Venir ( Targeted Exploration with Variance-And-Novelty-Intrinsic-Rewards ) è però diverso dai modelli a rinforzo perché si basa su due premi:
- Ricompensa esterna. Il bot la ottiene quando scopre una mossa che lo avvicina di più all'obiettivo finale ( come qualsiasi modello a rinforzo ).
- Ricompensa interna. Il bot la ottiene quando apprende una nuova informazione attinente al problema da risolvere anche se non lo avvicina all'obiettivo finale ( novità ).
Gli sviluppatori hanno provato l'algoritmo Texplore Venir sia in un bot che in un robot, facendogli risolvere diversi problemi in condizioni di incertezza.
La doppia ricompensa ha migliorato l'efficienza e l'efficacia delle scelte rispetto ai vecchi algoritmi basati sull'esplorazione casuale o sul modello di rinforzo a un premio.
L'unica criticità è il giusto mix tra il premio esterno e interno
Se la ricompensa interna è troppo alta, l'algoritmo si espone a maggiori rischi ( a volte fatali ) ed è meno motivato al raggiungimento dell'obiettivo finale.
Del resto... se è eccessiva la curiosità uccide il gatto e anche il bot.
2 giugno 2017
Andrea Minini
http://www.andreaminini.com/ai/
Nota. I risultati dei test sono stati pubblicati sulla rivista Artificial Intelligence e sul sito della rivista Science.