Distribuzione di probabilità dei punti estremanti di un processo stocastico di Wiener

In alcuni problemi di ottimizzazione globale non è nota una definizione analitica della funzione obiettivo ed è solo possibile una sua valutazione in punti prefissati. Vi sono funzioni obiettivo in cui il costo di una valutazione è molto alto, come ad esempio avviene se la valutazione è il risultato di un esperimento o di una misurazione particolarmente onerosa. In questi casi la ricerca degli estremanti globali (massimi o minimi) deve essere effettuata con metodi denominati di “ottimizzazione bayesiana”, che tendono a ottenere il miglior risultato a priori possibile con un numero prefissato di valutazioni. In sintesi si ipotizza che al di fuori dei punti in cui la funzione è già stata valutata, questa abbia un andamento che può essere rappresentato da un processo stocastico con opportune caratteristiche. Il processo stocastico viene assunto come modello della funzione obiettivo, ipotizzando che la distribuzione di probabilità dei suoi punti estremanti dia la migliore indicazione a priori sui valori dei punti estremanti della funzione obiettivo. Nel caso più semplice della ottimizzazione unidimensionale, posto che la funzione obiettivo sia stata valutata in un certo numero di punti, si pone il problema di scegliere in quali degli intervalli così individuati sia più opportuno investire per l'effettuazione di una nuova valutazione. Se come modello della funzione obiettivo si è scelto un processo stocastico di Wiener, è possibile calcolare la distribuzione di probabilità dei punti estremanti del modello all’ interno di ciascun intervallo, condizionata dai valori noti assunti ai suoi estremi. Il confronto delle distribuzioni ottenute offre un criterio per la scelta dell'intervallo in cui iterare il procedimento. Un valore scelto a priori di probabilità di avere individuato un intervallo in cui cade il punto estremante globale della funzione obiettivo può fungere da criterio di arresto. L'ottimizzazione bayesiana non è un metodo efficiente per la ricerca precisa di estremanti locali per cui, una volta ristretto l'intervallo di ricerca, a seconda delle caratteristiche del problema si procede, se necessario, con metodi specifici per l'ottimizzazione locale.

La formula della distribuzione con un abbozzo di dimostrazione è indicata nell'articolo di H.J. Kushner (appendix 3, pagina 106) pubblicato nel 1964[1], la dimostrazione costruttiva dettagliata è ripresa da[2] , sviluppata nel contesto della ricerca nel campo degli algoritmi di ottimizzazione bayesiana.

Enunciato modifica

Sia la funzione reale di variabile reale   definita sull'intervallo   un processo stocastico di Wiener e sia inoltre  

Per le proprietà dei processi di Wiener, gli incrementi hanno distribuzione normale:    

Sia   la distribuzione di probabilità del valore minimo della funzione   nell'intervallo   condizionata dal valore   .

Si dimostra che [1][2][3]:


 

Dimostrazione costruttiva modifica

Il caso   è immediata conseguenza della definizione di minimo, nel seguito si supporrà sempre   e si escluderà il caso limite  .

Si consideri   definita in un numero finito di punti  .

Posto   al variare di   la successione di insiemi   sia tale che   e che   sia un insieme denso in  ,

per cui ogni intorno di ogni punto di   contiene un elemento di uno degli insiemi  .

Sia   un numero reale positivo tale che  

Sia   l'evento così definito:       .

Avendo escluso il caso limite  è sicuramente  .

Siano   gli eventi così definiti:   e sia   il primo k fra i   che definiscono  .

dato che   è evidentemente  . Si dimostrerà ora la (2.1):

(2.1)  

Dalla definizione degli eventi  ,  , per cui   . Si verificherà ora che vale anche la relazione   per cui resterà provata la (2.1).

La definizione di  , la continuità di   e l'ipotesi   implicano, per il teorema dei valori intermedi,  .

Dalla continuità di   e dall'ipotesi che   sia denso in   si deduce che   tale che per   risulti   ,

quindi   da cui la (2.1).

(2.2)  

La (2.2) si deduce dalla (2.1) considerando che  , per cui la successione delle probabilità   è monotona non decrescente e quindi converge al suo estremo superiore. Per la definizione degli eventi  ,   e per la (2.2)  .

Nel seguito si assume sempre  , per cui  è ben definito.

(2.3)  

Infatti dato che per definizione di   è  , vale la relazione  .

In modo analogo dato che per definizione di   è  , vale la relazione (2.4):

(2.4)  

(2.5) 

Infatti la variabile casuale   ha una densità di probabilità simmetrica rispetto alla sua media che è zero.

Mettendo in sequenza le relazioni (2.3), (2.5) e (2.4) si ottiene la (2.6) :

(2.6)  

Con lo stesso procedimento usato per ottenere (2.3), (2.4) e (2.5) sfruttando questa volta la relazione   si ottiene la (2.7):

(2.7)   

Applicando successivamente (2.6) e (2.7) si ha:

(2.8)    

Da  , per la continuità di   e il teorema dei valori intermedi   , da cui  

Sostituendo in (2.8) e passando ai limiti:   mentre per   l'evento   converge a  

(2.9)   

 , sostituendo   con  nella (2.9) si ottiene l'equivalente:

(2.10)  

Applicando il teorema di Bayes all'evento congiunto  

(2.11)     

Ponendo   risulta

 

(2.12)  

Sostituendo la (2.12) nella (2.11), si ottiene l'equivalente:

(2.13) 

Sostituendo (2.9) e (2.10) nella (2.13):

(2.14)   

Si osservi che nel secondo membro della (2.14) compare la distribuzione di probabilità della variabile casuale  , normale con media   e varianza  .

Ai valori delle realizzazioni   e   della variabile casuale   corrispondono rispettivamente le densità di probabilità:

(2.15)  

(2.16)  

Sostituendo (2.15) e (2.16) nella (2.14) e prendendo il limite per   si è dimostrata la tesi:

 

  

  

Note modifica

  1. ^ a b A New Method of Locating the Maximum Point of an Arbitrary Multipeak Curve in the Presence of Noise - H.J. Kushner - J. Basic Eng 86(1), 97-106 (Mar 01, 1964).
  2. ^ a b Una nuova classe di algoritmi stocastici per l'ottimizzazione globale - Dario Ballabio - Università degli Studi di Milano, Istituto di Matematica, tesi di laurea discussa il 12 Luglio 1978, pag. 29-33.
  3. ^ Il teorema, enunciato e dimostrato per il caso del minimo del processo di Wiener, vale anche per il massimo.

Bibliografia modifica

  • A versatile stochastic model of a function of unknown and time varying form - Harold J Kushner - Journal of Mathematical Analysis and Applications Volume 5, Issue 1, August 1962, Pages 150-167.
  • The Application of Bayesian Methods for Seeking the Extremum - J. Mockus, J. Tiesis, A. Zilinskas - IFIP Congress 1977, August 8-12 Toronto.

Voci correlate modifica

  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica