Apprendimento per rinforzo: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Botcrux (discussione | contributi)
m Bot, replaced: {{Machine learning}} → {{Apprendimento automatico}}
Riga 52:
*''Rinforzo con premio ad orizzonte infinito'': il rinforzo ha sempre la stessa intensità ed è valutato per tutti gli istanti temporali. <math> E \left [ \sum_{k=0}^\infty r_{t+k+1} \right ] </math>
*''Rinforzo con premio ad orizzonte finito'': il rinforzo ha sempre la stessa intensità ed è valutato per un periodo di tempo limitato. <math> E \left [ \sum_{k=0}^T r_{t+k+1} \right ] </math>
*''Rinforzo con premio medio'': il rinforzo ha intensitaintensità via via decrescente ma viene valutato per tutti gli istanti temporali. In pratica man mano che il tempo passa, i valori di rinforzo vengono attenuati dando più importanza alle valutazioni effettuate negli istanti iniziali. <math> E \left [ \lim_{n \to \infty} \sum_{k=0}^n r_{t+k+1} \right ] </math>
*''Rinforzo con premio scontato'': il rinforzo è distribuito per tutti gli istanti temporali ma aumenta a seconda di un parametro legato agli istanti temporali in cui viene applicato. <math> E \left [ \sum_{k=0}^\infty {\gamma^k \cdot r_{t+k+1}}\right ] </math>