Apprendimento per rinforzo: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m Bot, replaced: {{Machine learning}} → {{Apprendimento automatico}} |
|||
Riga 52:
*''Rinforzo con premio ad orizzonte infinito'': il rinforzo ha sempre la stessa intensità ed è valutato per tutti gli istanti temporali. <math> E \left [ \sum_{k=0}^\infty r_{t+k+1} \right ] </math>
*''Rinforzo con premio ad orizzonte finito'': il rinforzo ha sempre la stessa intensità ed è valutato per un periodo di tempo limitato. <math> E \left [ \sum_{k=0}^T r_{t+k+1} \right ] </math>
*''Rinforzo con premio medio'': il rinforzo ha
*''Rinforzo con premio scontato'': il rinforzo è distribuito per tutti gli istanti temporali ma aumenta a seconda di un parametro legato agli istanti temporali in cui viene applicato. <math> E \left [ \sum_{k=0}^\infty {\gamma^k \cdot r_{t+k+1}}\right ] </math>
|