Dilemma del prigioniero

dilemma della teoria dei giochi e paradosso

Il dilemma del prigioniero è un gioco ad informazione completa proposto negli anni cinquanta del XX secolo da Albert Tucker come problema di teoria dei giochi. Oltre ad essere stato approfonditamente studiato in questo contesto, il "dilemma" è anche piuttosto noto al pubblico non tecnico come esempio di paradosso. Anche John Von Neumann, creatore della teoria dei giochi, si interessò a questo dilemma, presentatogli dai due ideatori (M. Flood e M. Dresher) mentre lavorava alla RAND Corporation nel 1950[1].

Il dilemma in sé, anche se usa l'esempio dei due prigionieri per spiegare il fenomeno, può descrivere altrettanto bene la corsa agli armamenti, proprio degli anni cinquanta, da parte di USA e URSS (i due prigionieri) durante la guerra fredda.[2]

Il dilemma

modifica

Il dilemma può essere descritto come segue. Due criminali vengono accusati di aver commesso un reato. Gli investigatori li arrestano entrambi e li chiudono in due celle diverse, impedendo loro di comunicare. Ad ognuno di loro vengono date due scelte: collaborare, oppure non collaborare. Viene inoltre spiegato loro che:

  1. Se solo uno dei due collabora accusando l'altro, chi ha collaborato evita la pena; l'altro viene però condannato a 7 anni di carcere.
  2. Se entrambi accusano l'altro, vengono entrambi condannati a 6 anni.
  3. Se nessuno dei due collabora, entrambi vengono condannati a 1 anno, perché comunque già colpevoli di porto abusivo di armi.

Questo gioco può essere descritto con la seguente bimatrice:

collabora non collabora
collabora (6,6) (0,7)
non collabora (7,0) (1,1)

La miglior strategia di questo gioco non cooperativo è ("collabora", "collabora") perché non sappiamo cosa sceglierà di fare l'altro. Per ognuno dei due lo scopo è infatti di minimizzare la propria condanna; e ogni prigioniero:

collaborando: rischia 0 o 6 anni
non collaborando: rischia 1 o 7 anni

La strategia "non collabora" è strettamente dominata dalla strategia "collabora". Eliminando le strategie strettamente dominate si arriva all'equilibrio di Nash, dove i due prigionieri collaborano e hanno 6 anni di carcere. Il risultato migliore per i due (ottimo paretiano) è di non collaborare (1 anno di carcere invece di 6), ma questo non è un equilibrio.

Supponiamo che i due si siano in precedenza promessi reciprocamente di non collaborare in caso di arresto. Sono ora rinchiusi in due celle diverse e si domandano se la promessa sarà mantenuta dall'altro; se un prigioniero non rispetta la promessa e l'altro sì, il primo è allora liberato. C'è dunque un dilemma: collaborare o non collaborare. La teoria dei giochi ci dice che c'è un solo equilibrio ("collabora", "collabora").

Se pensiamo agli Stati Uniti e all'URSS come ai due prigionieri, e alla confessione come l'armamento con l'atomica (per contro la negazione equivarrebbe al disarmo unilaterale), il dilemma descrive come per le due nazioni fosse inevitabile al tempo della guerra fredda la corsa agli armamenti, benché questo risultato finale fosse non ottimale per nessuna delle due superpotenze (e per l'intero mondo).[3]

Il paradosso

modifica

Il dilemma del prigioniero ha causato interesse come esempio di gioco in cui l'assioma di razionalità apparentemente fallisce, prescrivendo un'azione che procura più danno ad entrambi i contendenti della scelta alternativa ("non collabora", "non collabora"). Gli studiosi di teoria dei giochi fanno notare che chi la pensa in questo modo probabilmente si immagina un gioco diverso, in cui la vittoria viene valutata sulla somma degli anni di carcere, ossia il gioco:

collabora non collabora
collabora (12) (7)
non collabora (7) (2)

È facile vedere che questo nuovo gioco, semplificando le strategie dominanti, ha come equilibrio il ("non collabora", "non collabora"), ossia la scelta che conduce al miglior risultato possibile per entrambi.

Questa seconda formulazione (sommando gli anni di carcere) prevede che il prigioniero debba preferire il danno minore per la coppia ma non è questo il suo obiettivo nella formulazione originaria. In quella si suppone sia interessato solo ai rischi che corre personalmente.

Possibili soluzioni

modifica

A questo punto ci si potrebbe domandare:

  • «È possibile che non esista alcuna conclusione logica che permetta al prigioniero di sperare di rimanere in prigione un solo anno o addirittura nessuno?»
  • «È possibile che la logica non giunga a nessun'altra soluzione oltre all'accettazione di venire condannati a 6 anni senza alcuna speranza?»

Una possibile soluzione è la seguente, ma richiede due precisazioni e non è universalmente accettata:

a) si deve dare per scontato che tutti i personaggi abbiano una capacità logica pressoché perfetta. Questo non vuol dire che debbano essere buoni, altruisti o altro, ma solo che tutti capiscano il gioco allo stesso modo, e non facciano alcun errore;
b) dato il punto a) è facile capire che tutti prenderanno la stessa decisione. Non può esistere uno che fa il furbo a scapito degli altri, perché questo automaticamente vorrebbe dire che anche gli altri faranno come lui. Solo il lettore "disattento" può pensare di far fare il furbo ad un solo personaggio.

A questo punto appare chiaro che, se uno dei prigionieri capisce che le conclusioni a cui arriva lui sono le stesse a cui arriva l'altro, scegliere "non collabora" è l'unica azione possibile.

Infatti se ci si convince che è impossibile che diano risposte diverse (vedi il punto b), allora il discorso "egoista" cade. Rimanendo solamente le possibilità ("collabora", "collabora") e ("non collabora", "non collabora") la scelta è a prova di dubbio.

Un'altra soluzione è quella proposta dalla teoria dei giochi ad informazione incompleta.

Il dilemma del prigioniero e la dimensione temporale

modifica

Possiamo osservare due diverse soluzioni delle situazioni del tipo "dilemma del prigioniero" se gli attori del modello devono riprendere la stessa decisione più e più volte.

Costruiamo una matrice di pay off ordinale, dove   Consideriamo un gioco del tipo dilemma del prigioniero con   giocatori (ponendo nella nostra matrice in verticale la scelta di un giocatore ed in orizzontale la scelta di tutti gli altri).

inquina non inquina
inquina    
non inquina    

Per i giocatori il migliore dei mondi possibili è quello di vivere in un mondo pulito (immaginiamo che giochi un numero   di giocatori abbastanza grande da far sì che il comportamento del singolo influisca molto poco sul risultato finale ma abbia un diretto effetto sul proprio pay off), senza però affrontare i costi per mantenerlo pulito (la classica situazione da free rider).

Poniamo che:

  • Tutti gli agenti siano portati a decidere cosa fare infinite volte.
  • Gli agenti abbiano contratto un accordo che li obbligherebbe ad un atteggiamento cooperativo (come abbiamo visto una soluzione cooperativa garantirebbe un migliore risultato).
  • Ogni volta ognuno di essi, potendo osservare il comportamento degli altri giocatori, possa decidere se gli altri siano degni di fiducia.
  • Un giocatore che tradisce gli accordi è considerato costantemente non credibile dunque cade la possibilità di un accordo.

Consideriamo   come un tasso di sconto che viene applicato ai pay off per attualizzare il valore dei pay off futuri (un tasso insomma che esprima le preferenze intertemporali dei singoli giocatori).

Equilibrio cooperativo

modifica
 

Equilibrio non cooperativo

modifica
 

come si può notare, il giocatore guadagna molto nel primo periodo raggiungendo un pay off   ma nei periodi successivi si cade in un equilibrio non cooperativo.

La scelta dei giocatori sarà cooperativa se:

 

e in particolare ponendo che   sia uguale per entrambi i giocatori (cioè che le preferenze intertemporali siano uguali tra i due) se:

 

Falso paradosso della probabilità contro la logica

modifica

Si vede facilmente che se tutti e due tirassero una moneta avrebbero comunque più possibilità di fare poco carcere piuttosto che utilizzare la "strategia furba"; infatti:

Scelta "furba": 100% di prendere 6 anni
Scelta con la moneta: 25% di prendere 7 anni
25% di prendere 6 anni
25% di prendere 1 anno
25% di prendere 0 anni

Nella scelta con la moneta è la situazione è migliore per entrambi (  anni di prigionia media). Si ha a favore il 75% dei casi: nel 50% dei casi la pena verrà diminuita sensibilmente di 5 oppure 6 anni (in quest'ultimo caso sarà azzerata), e nel 25% dei casi invece si rischia di ottenere la stessa pena che giocando da "furbi". Apparirebbe dunque un paradosso, essendo una scelta migliore lanciare una moneta piuttosto che applicare la logica.

D'altra parte, tirare una moneta non è una scelta conveniente per un giocatore razionale, a meno di un accordo vincolante che obblighi entrambi a tirare la moneta; a quel punto, però, meglio ancora sarebbe un accordo vincolante che obbligasse entrambi a non collaborare.

Nel caso in cui uno dei due tirasse la moneta e l'altro effettuasse una scelta "furba", infatti, sapendo che l'altro ha tirato la moneta ma senza conoscere l'esito del tiro, la situazione spingerebbe comunque il secondo a collaborare: infatti in questo modo nel 50% dei casi prenderebbe 0 anni rispetto a 1 (se l'altro non collabora) e nel 50% dei casi 6 anni rispetto a 7 (se l'altro collabora).

L'apparente paradosso dunque non sussiste e un giocatore razionale, in assenza di accordi vincolanti, sceglierà sempre di collaborare.

  1. ^ Vedasi l'enciclopedia della filosofia di Stanford, alla voce dedicata:[1].
  2. ^ Matematica per strategie ed equilibri - Linx Magazine - La rivista di scienze per la classe Archiviato l'8 maggio 2014 in Internet Archive..
  3. ^ Questa situazione di equilibrio risponde all'"Equilibrio di Nash", uno dei teoremi più importanti della teoria dei giochi, enunciato dal matematico statunitense John Forbes Nash.

Voci correlate

modifica

Altri progetti

modifica

Collegamenti esterni

modifica
Controllo di autoritàThesaurus BNCF 58798 · LCCN (ENsh85106969 · GND (DE4139587-6 · BNE (ESXX550497 (data) · BNF (FRcb12526229f (data) · J9U (ENHE987007536357305171
  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica