AlphaGo: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
FabioDiNinno (discussione | contributi)
Riga 49:
 
== Algoritmo ==
L'algoritmo impiegato da AlphaGo usa una combinazione di [[machine learning]] e tecniche di ricerca su [[albero (informatica)|alberi]], insieme ad un'estensiva fase di apprendimento da gioco sia umano sia artificiale. Utilizza la [[Metodoricerca ad albero Monte Carlo|ricerca ad albero Monte Carlo]] (MCTS) per la selezione delle mosse, guidata da due [[rete neurale artificiale|reti neurali]] [[apprendimento approfondito|profonde]] (''value network'' e ''policy network'').<ref name="googlego">{{Cita web|url=https://googleresearch.blogspot.com/2016/01/alphago-mastering-ancient-game-of-go.html|titolo=Research Blog: AlphaGo: Mastering the ancient game of Go with Machine Learning |data=27 gennaio 2016 |sito=Google Research Blog|lingua=en}}</ref><ref name="DeepMindnature2016" /> Prima di essere inviato alle reti neurali, l'input è analizzato in una fase di pre-processing per estrarre alcune feature (ad esempio l'aderenza delle mosse a una serie di pattern comuni).<ref name="DeepMindnature2016" />
 
Nella prima fase del training le reti neurali effettuano un [[apprendimento supervisionato]] basato sul gioco umano, tentando di imitarlo usando un database di circa 30 milioni di mosse da partite storiche.<ref name=MetzWired2016>{{Cita web|titolo= In Major AI Breakthrough, Google System Secretly Beats Top Player at the Ancient Game of Go|url= https://www.wired.com/2016/01/in-a-huge-breakthrough-googles-ai-beats-a-top-player-at-the-game-of-go/|sito= WIRED|accesso= 1º febbraio 2016|lingua= en|data= 27 gennaio 2016|cognome= Metz|nome= Cade}}</ref> Una volta raggiunta una certa forza di gioco, l'apprendimento prosegue [[apprendimento per rinforzo|per rinforzo]] giocando contro altre istanze di sé stesso.<ref name="googlego"/>