Probabilité stationnaire d'une chaîne de Markov

La probabilité stationnaire π = ( π i ) i E {\displaystyle \pi =(\pi _{i})_{i\in E}} d'une chaîne de Markov X = ( X n ) n 0 {\displaystyle X=(X_{n})_{n\geq 0}} s'interprète usuellement comme la fraction du temps passé en chaque état i {\displaystyle i} de l'espace d'états E {\displaystyle E} de cette chaîne de Markov, asymptotiquement. En effet, une version de la loi forte des grands nombres pour les chaînes de Markov stipule que :

π i   =   lim n   1 X 0 = i + 1 X 1 = i + + 1 X n 2 = i + 1 X n 1 = i n   =   lim n   S n ( i ) n , {\displaystyle \pi _{i}\ =\ \lim _{n}\ {\frac {1_{X_{0}=i}+1_{X_{1}=i}+\dots +1_{X_{n-2}=i}+1_{X_{n-1}=i}}{n}}\ =\ \lim _{n}\ {\frac {S_{n}(i)}{n}},}

presque sûrement, sous certaines hypothèses détaillées plus bas. La variable aléatoire S n ( i ) {\displaystyle S_{n}(i)} s'interprète comme le temps passé en i {\displaystyle i} lors des n {\displaystyle n} premiers pas de la chaîne de Markov X . {\displaystyle X.} La fraction S n ( i ) / n {\displaystyle S_{n}(i)/n} est donc la fraction de temps passé en l'état i {\displaystyle i} pendant les n {\displaystyle n} premiers pas de la chaîne de Markov. La convergence de cette fraction lorsque n {\displaystyle n} tend vers l'infini n'est pas un résultat anodin. On trouvera une discussion plus poussée sur le temps de séjour sur la page Récurrence et transience d'une chaîne de Markov.

Définition

Définition — 

  • Une mesure μ = ( μ i ) i E {\displaystyle \mu =(\mu _{i})_{i\in E}} sur l'espace d'états E {\displaystyle E} d'une chaîne de Markov X = ( X n ) n 0 {\displaystyle X=(X_{n})_{n\geq 0}} de matrice de transition P = ( p i , j ) ( i , j ) E 2 {\displaystyle P=\left(p_{i,j}\right)_{(i,j)\in E^{2}}} est dite stationnaire si
μ = μ P , {\displaystyle \mu =\mu \,P,}
ou, de manière équivalente,
j E , μ j = i E μ i p i , j . {\displaystyle \forall j\in E,\qquad \mu _{j}=\sum _{i\in E}\mu _{i}\,p_{i,j}.}
Une mesure stationnaire est une fonction propre de la transposée de la matrice de transition, associée à la valeur propre 1.
  • Une mesure stationnaire π {\displaystyle \pi } est appelée probabilité stationnaire ou loi stationnaire si elle remplit la condition supplémentaire :
i E π i   =   1. {\displaystyle \qquad \sum _{i\in E}\pi _{i}\ =\ 1.}
Remarques :
  • Comme toute mesure discrète, les mesures μ {\displaystyle \mu } et π {\displaystyle \pi } vérifient, implicitement, i E , μ i     0  et  π i     0. {\displaystyle \forall i\in E,\qquad \mu _{i}\ \geq \ 0{\text{ et }}\pi _{i}\ \geq \ 0.}
  • La chaîne de Markov X = ( X n ) n 0 {\displaystyle X=(X_{n})_{n\geq 0}} est un processus stationnaire, i.e., pour tout n 1 , {\displaystyle n\geq 1,} ( X n , X n + 1 , X n + 2 , ) {\displaystyle \left(X_{n},X_{n+1},X_{n+2},\dots \right)} a même loi de probabilité que ( X 0 , X 1 , X 2 , ) , {\displaystyle \left(X_{0},X_{1},X_{2},\dots \right),} si et seulement si la loi initiale de X {\displaystyle X} (la loi de X 0 {\displaystyle X_{0}} ) est une probabilité stationnaire.
  • Cela entraîne en particulier que si la loi initiale de la chaîne de Markov X {\displaystyle X} est une probabilité stationnaire, alors la loi de X n {\displaystyle X_{n}} est cette même probabilité stationnaire, indépendamment de n . {\displaystyle n.}
  • L'ensemble des probabilités stationnaires est convexe.

Existence et unicité : cas irréductible

L'existence d'une probabilité stationnaire π {\displaystyle \pi } pour une chaîne de Markov irréductible est liée aux propriétés du temps de retour en i , {\displaystyle i,} et en particulier aux propriétés de récurrence de l'état i . {\displaystyle i.}

Définition — 

  • Le temps de premier retour en i , {\displaystyle i,} noté T i , {\displaystyle T_{i},} est une variable aléatoire à valeurs dans N ¯ = N { + } , {\displaystyle {\overline {\mathbb {N} }}=\mathbb {N} \cup \{+\infty \},} définie par
T i = { inf { k 1 | X k = i }  si  { k 1 | X k = i } , +  sinon. . {\displaystyle T_{i}=\left\{{\begin{array}{ll}\inf\{k\geq 1\,|\,X_{k}=i\}&{\text{ si }}\{k\geq 1\,|\,X_{k}=i\}\neq \emptyset ,\\+\infty &{\text{ sinon.}}\end{array}}\right..}
  • L'état i {\displaystyle i} est récurrent positif si l'espérance du temps de premier retour en cet état, partant de cet état, est finie, i.e. si
E i [ T i ]   <   + . {\displaystyle \mathbb {E} _{i}\left[T_{i}\right]\ <\ +\infty .}

Rappelons que lorsqu'on étudie une chaîne de Markov particulière, sa matrice de transition est en général bien définie et fixée tout au long de l'étude, mais la loi initiale peut changer lors de l'étude et les notations doivent refléter la loi initiale considérée sur le moment : si à un moment de l'étude on considère une chaîne de Markov de loi initiale définie par i E , P ( X 0 = i ) = μ i , {\displaystyle \forall i\in E,\quad \mathbb {P} \left(X_{0}=i\right)=\mu _{i},} alors les probabilités sont notées P μ ( ) , {\displaystyle \mathbb {P} _{\mu }\left(\dots \right),} et les espérances sont notées E μ [ ] . {\displaystyle \mathbb {E} _{\mu }\left[\dots \right].} En particulier, si P ( X 0 = j ) = 1 , {\displaystyle \mathbb {P} \left(X_{0}=j\right)=1,} on dit que la chaîne de Markov part de j , {\displaystyle j,} les probabilités sont notées P j ( ) , {\displaystyle \mathbb {P} _{j}\left(\dots \right),} et les espérances sont notées E j [ ] . {\displaystyle \mathbb {E} _{j}\left[\dots \right].} Ci-dessus, dans la notation E i , {\displaystyle \mathbb {E} _{i},} l'indice i {\displaystyle i} signifie qu'on calcule l'espérance pour la chaîne de Markov partant de i , {\displaystyle i,} i.e. de loi initiale définie par P ( X 0 = i ) = 1. {\displaystyle \mathbb {P} (X_{0}=i)=1.} Ainsi E i [ T i ] {\displaystyle \mathbb {E} _{i}\left[T_{i}\right]} s'interprète comme l'intervalle de temps "typique" entre deux passages consécutifs à l'état i . {\displaystyle i.}

Théorème — Si une chaîne de Markov est irréductible, alors il existe au plus une probabilité stationnaire. On a alors équivalence entre les 3 propositions :

  • il existe une probabilité stationnaire,
  • il existe un état récurrent positif,
  • tous les états sont récurrents positifs.

Supposons qu'une des 3 conditions ci-dessus est remplie et notons π {\displaystyle \pi } l'unique probabilité stationnaire : alors

i E , π i   =   1 E i [ T i ] . {\displaystyle \forall i\in E,\quad \pi _{i}\ =\ {\frac {1}{\mathbb {E} _{i}\left[T_{i}\right]}}.}

Théorème — Une chaîne de Markov irréductible à espace d'états fini est récurrente positive (i.e. tous ses états sont récurrents positifs). Elle possède donc exactement une probabilité stationnaire.

La relation entre existence et unicité des probabilités stationnaires, classifications des états de la chaîne de Markov et récurrence positive est traité dans un cadre complètement général à la section Existence et unicité. Cependant les théorèmes ci-dessus, valables uniquement pour les chaînes de Markov irréductibles, sont suffisants dans un grand nombre d'exemples.

Loi forte des grands nombres

Graphe de la marche réfléchie en 0
Distribution empirique (rouge) et distribution stationnaire (bleue) pour la marche réfléchie en 0, départ à la moyenne stationnaire -1+1/ρ=2 : p=0.4, q=0.6, ρ=1/3, 2 000 pas
Distribution empirique (rouge) : départ à la moyenne stationnaire -1+1/ρ=12, p=0.48, q=0.52, ρ=1/13, 2 000 pas
Distribution empirique (rouge) : départ à la moyenne stationnaire -1+1/ρ=12, p=0.48, q=0.52, ρ=1/13, 5 000 pas
Distribution empirique (rouge) : départ à la moyenne stationnaire -1+1/ρ=12, p=0.48, q=0.52, ρ=1/13, 20 000 pas

Dans le cas d'une chaîne de Markov irréductible et récurrente positive, la loi forte des grands nombres est en vigueur : la moyenne d'une fonction f {\displaystyle f} sur les instances de la chaîne de Markov est égale à sa moyenne selon sa probabilité stationnaire. Plus précisément, sous l'hypothèse

i E | f ( i ) | π i   < + , {\displaystyle \sum _{i\in E}|f(i)|\,\pi _{i}\ <+\infty ,}

on a presque sûrement :

lim n 1 n k = 0 n 1 f ( X k )   =   i E f ( i ) π i   =   π f . {\displaystyle \lim _{n}\;{\frac {1}{n}}\;\sum _{k=0}^{n-1}f(X_{k})\ =\ \sum _{i\in E}f(i)\,\pi _{i}\ =\ \pi f.}

La moyenne de la valeur des instances est donc, sur le long terme, égale à l'espérance de la probabilité stationnaire. En particulier, cette équivalence sur les moyennes s'applique si f {\displaystyle f} est la fonction indicatrice d'un sous-ensemble A {\displaystyle A} de l'espace des états :

lim n 1 n k = 0 n 1 1 A ( X k )   =   i A   π i   =   π ( A ) . {\displaystyle \lim _{n}\;{\frac {1}{n}}\;\sum _{k=0}^{n-1}1_{A}(X_{k})\ =\ \sum _{i\in A}\ \pi _{i}\ =\ \pi (A).}

Cela permet d'approcher la probabilité stationnaire par un histogramme (la distribution empirique) construit à partir d'une séquence particulière.

Ergodicité

En particulier, si le processus est construit en prenant la probabilité stationnaire comme loi initiale, le shift θ {\displaystyle \theta } défini par

x = ( x 0 , x 1 , x 2 , ) E N θ x = ( x 1 , x 2 , x 3 , ) {\displaystyle x=(x_{0},x_{1},x_{2},\dots )\in E^{\mathbb {N} }\quad \rightarrow \quad \theta \,x=(x_{1},x_{2},x_{3},\dots )}

préserve la mesure, ce qui fait de la chaîne de Markov un système dynamique. La loi forte des grands nombres entraine alors que la chaîne de Markov est un système dynamique ergodique. L'ergodicité est à la fois plus forte que la loi forte des grands nombres car on peut en déduire, par exemple, que 1 n k = 0 n 1 f ( X k , X k + 1 ) , {\displaystyle {\frac {1}{n}}\;\sum _{k=0}^{n-1}f(X_{k},X_{k+1}),} a pour limite presque sûre i , j E f ( i , j ) π i p i , j , {\displaystyle \sum _{i,j\in E}f(i,j)\,\pi _{i}p_{i,j},} mais elle est aussi plus faible car elle réclame en principe la stationnarité de la chaîne de Markov, ce qui n'est pas le cas de la loi forte des grands nombres.

Convergence vers la loi stationnaire

Convergence de la loi marginale

Si la chaîne de Markov est irréductible, récurrente positive et apériodique, alors P k {\displaystyle P^{k}} converge vers une matrice dont chaque ligne est l'unique distribution stationnaire π . {\displaystyle \pi .} En particulier, la loi μ n {\displaystyle \mu _{n}} de X n {\displaystyle X_{n}} converge vers π {\displaystyle \pi } indépendamment de la loi initiale μ 0 . {\displaystyle \mu _{0}.} Dans le cas d'un espace d'état fini, cela se prouve par le théorème de Perron-Frobenius.

Typiquement, par exemple dans le cas d'une chaîne de Markov à espace d'états fini irréductible et apériodique, la convergence est exponentiellement rapide, i.e. pour une norme quelconque, on peut trouver K > 0 {\displaystyle K>0} et α ] 0 , 1 [ {\displaystyle \alpha \in ]0,1[} tels que

μ n π K   α n . {\displaystyle \Vert \mu _{n}-\pi \Vert \leq K\ \alpha ^{n}.}

On trouve plus loin dans l'article une démonstration de cette décroissance exponentielle dans le cas particulier des chaînes réversibles.

Convergence de la mesure empirique

Si la chaîne de Markov est irréductible et récurrente positive alors, par suite de la loi forte des grands nombres, la mesure empirique de la chaîne de Markov,

1 n k = 0 n 1 δ X k = 1 n i E   S n ( i ) δ i , {\displaystyle {\tfrac {1}{n}}\quad \sum _{k=0}^{n-1}\,\delta _{X_{k}}\quad =\quad {\tfrac {1}{n}}\quad \sum _{i\in E}\ S_{n}(i)\,\delta _{i},}

converge vers l'unique distribution stationnaire. Typiquement, par exemple dans le cas d'une chaîne de Markov à espace d'états fini irréductible et récurrente positive, la convergence est, en un certain sens, en O ( 1 / n ) . {\displaystyle {\mathcal {O}}(1/{\sqrt {n}}).} Cela permet d'approcher la probabilité stationnaire par un histogramme construit à partir d'une séquence particulière. Nota: alors que la loi de X n , {\displaystyle X_{n},} notée μ n {\displaystyle \mu _{n}} ci-dessus, est une mesure de probabilité fixée, la loi empirique est, elle, une mesure de probabilité aléatoire, ou bien, si l'on veut, une variable aléatoire à valeurs dans les mesures de probabilité.

Marche aléatoire réfléchie :

C'est la chaîne de Markov d'espace d'états E = N , {\displaystyle E=\mathbb {N} ,} de matrice de transition définie par p k , k + 1 = p , {\displaystyle p_{k,k+1}=p,} pour tout k , {\displaystyle k,} et p k , k 1 = 1 p = q , {\displaystyle \quad p_{k,k-1}=1-p=q,} pour k 1 , {\displaystyle k\geq 1,} p 0 , 0 = q . {\displaystyle \quad p_{0,0}=q.} Ce modèle est étroitement lié à l'étude des files d'attente M/M/1. La marche aléatoire réfléchie est

  • irréductible pour 0 < p < 1 , {\displaystyle 0<p<1,}
  • récurrente positive pour 0 < p < 0.5 , {\displaystyle 0<p<0.5,} de loi stationnaire π k = ( 1 ρ ) k ρ , ρ = ( q p ) / q , {\displaystyle \pi _{k}=(1-\rho )^{k}\rho ,\quad \rho =(q-p)/q,}
  • récurrente nulle pour p = 0.5 , {\displaystyle p=0.5,}
  • transiente pour p > 0.5. {\displaystyle p>0.5.}

On a dessiné ci-contre des exemples de distributions empiriques et de distributions stationnaires pour la marche réfléchie en 0, pour ρ > 0 {\displaystyle \rho >0}  : il semble que la convergence de l'une vers l'autre soit de plus en plus lente lorsque ρ {\displaystyle \rho } tend vers 0, i.e. quand on se rapproche des cas récurrents nuls et transients.

Chaînes réversibles

Critères

Théorème —  1. Si μ = ( μ i ) i E {\displaystyle \mu =(\mu _{i})_{i\in E}} est une mesure de masse μ {\displaystyle \Vert \mu \Vert } finie ( μ = i E μ i < + ) {\displaystyle (\Vert \mu \Vert =\sum _{i\in E}\mu _{i}<+\infty )} satisfaisant

i , j E , μ i p i , j = μ j p j , i , {\displaystyle \forall i,j\in E,\qquad \mu _{i}p_{i,j}=\mu _{j}p_{j,i},}

alors π = μ / μ {\displaystyle \pi =\mu /\Vert \mu \Vert } est une probabilité stationnaire.

2. Plus généralement, si pour une mesure de masse finie μ = ( μ i ) i E {\displaystyle \mu =(\mu _{i})_{i\in E}} il existe une matrice de transition ( q i , j ) i , j E {\displaystyle (q_{i,j})_{i,j\in E}} satisfaisant

i , j E , μ i p i , j = μ j q j , i , {\displaystyle \forall i,j\in E,\qquad \mu _{i}p_{i,j}=\mu _{j}q_{j,i},}

alors π = μ / μ {\displaystyle \pi =\mu /\Vert \mu \Vert } est une probabilité stationnaire.

3. Si π {\displaystyle \pi } est une probabilité stationnaire, associée à la matrice de transition ( p i , j ) i , j E , {\displaystyle (p_{i,j})_{i,j\in E},} telle que i E ,   π i > 0 , {\displaystyle \forall i\in E,\ \pi _{i}>0,} alors ( q i , j ) i , j E , {\displaystyle (q_{i,j})_{i,j\in E},} définie par

q i , j = π j p j , i π i , {\displaystyle q_{i,j}={\frac {\pi _{j}p_{j,i}}{\pi _{i}}},}

est une matrice de transition.

Démonstration
1. et 2.
( μ P ) j = i E μ i p i , j = i E μ j q j , i = μ j i E q j , i = μ j , {\displaystyle {\begin{aligned}(\mu \,P)_{j}&=\sum _{i\in E}\mu _{i}p_{i,j}\\&=\sum _{i\in E}\mu _{j}q_{j,i}\\&=\mu _{j}\sum _{i\in E}q_{j,i}\\&=\mu _{j},\end{aligned}}}

la dernière égalité découlant de ce qu'une matrice de transition (par exemple ( q i , j ) i , j E {\displaystyle (q_{i,j})_{i,j\in E}} ) est une matrice stochastique. Donc μ et π sont des vecteurs propres à gauche de P, associés à la valeur propre 1, CQFD. (Nota : 1. est un cas particulier de 2.) 3. Vérifions que ( q i , j ) i , j E {\displaystyle (q_{i,j})_{i,j\in E}} ) est une matrice stochastique : pour tout i dans E,

j E q i , j = j E π j p j , i π i = 1 π i   j E π j p j , i = 1. {\displaystyle {\begin{aligned}\sum _{j\in E}q_{i,j}&=\sum _{j\in E}{\frac {\pi _{j}p_{j,i}}{\pi _{i}}}\\&={\frac {1}{\pi _{i}}}\ \sum _{j\in E}\pi _{j}p_{j,i}\\&=1.\end{aligned}}}

La matrice ( q i , j ) i , j E {\displaystyle (q_{i,j})_{i,j\in E}} est l'adjointe de la matrice ( p i , j ) i , j E {\displaystyle (p_{i,j})_{i,j\in E}} pour le produit scalaire défini par

x , y   =   i E π i x i y i . {\displaystyle \langle x,y\rangle \ =\ \sum _{i\in E}\pi _{i}x_{i}y_{i}.}

Interprétation

Si une variable aléatoire X = ( X t ) t Z {\displaystyle X=(X_{t})_{t\in \mathbb {Z} }} à valeur dans E Z {\displaystyle E^{\mathbb {Z} }} satisfait, pour tout ( t , n ) Z × N , {\displaystyle (t,n)\in \mathbb {Z} \times \mathbb {N} ,} et toute suite ( i 0 , i 1 , , i n ) E n + 1 , {\displaystyle (i_{0},i_{1},\dots ,i_{n})\in E^{n+1},}

P ( ( X t , X t + 1 , , X t + n ) = ( i 0 , i 1 , , i n ) ) = π i 0 p i 0 , i 1 p i n 1 , i n {\displaystyle \mathbb {P} \left((X_{t},X_{t+1},\dots ,X_{t+n})=(i_{0},i_{1},\dots ,i_{n})\right)=\pi _{i_{0}}p_{i_{0},i_{1}}\dots p_{i_{n-1},i_{n}}}

on dit que X est une chaîne de Markov stationnaire, de matrice de transition ( p i , j ) i , j E , {\displaystyle (p_{i,j})_{i,j\in E},\qquad } et de loi stationnaire ( π i ) i E . {\displaystyle (\pi _{i})_{i\in E}.} En effet :

  • cela définit une et une seule mesure de probabilité sur E Z {\displaystyle E^{\mathbb {Z} }}  ;
  • X possède la propriété de Markov faible ;
  • stationnarité : la suite X ( s ) = ( X t ( s ) ) t Z {\displaystyle X^{(s)}=(X_{t}^{(s)})_{t\in \mathbb {Z} }} (définie par X t ( s ) = X s + t {\displaystyle X_{t}^{(s)}=X_{s+t}} ) a même loi que la suite X, pour tout entier relatif s.

Renversons le cours du temps, i.e. considérons la suite Y = ( Y t ) t Z {\displaystyle Y=(Y_{t})_{t\in \mathbb {Z} }} définie par

Y t = X t . {\displaystyle Y_{t}=X_{-t}.}

On a alors

Proposition — 

  • Y est une chaîne de Markov stationnaire, de matrice de transition ( q i , j ) i , j E , {\displaystyle (q_{i,j})_{i,j\in E},\qquad } (définie au point 3 ci-dessus) et de loi stationnaire ( π i ) i E . {\displaystyle (\pi _{i})_{i\in E}.}
  • Si ( q i , j ) i , j E = ( p i , j ) i , j E , {\displaystyle (q_{i,j})_{i,j\in E}=(p_{i,j})_{i,j\in E},} ou, de manière équivalente, si
    π i p i , j π j p j , i , {\displaystyle \pi _{i}p_{i,j}\equiv \pi _{j}p_{j,i},}
    alors X et Y ont même loi. On dit que ces deux chaînes de Markov sont réversibles.
Démonstration
π i n p i n , i n 1 p i 1 , i 0 = π i 0 q i 0 , i 1 q i n 1 , i n , {\displaystyle \pi _{i_{n}}p_{i_{n},i_{n-1}}\dots p_{i_{1},i_{0}}=\pi _{i_{0}}q_{i_{0},i_{1}}\dots q_{i_{n-1},i_{n}},}

or

P ( ( Y t , Y t + 1 , , Y t + n ) = ( i 0 , i 1 , , i n ) ) = P ( ( X t n , X t n + 1 , , X t ) = ( i n , i n 1 , , i 0 ) ) = π i n p i n , i n 1 p i 1 , i 0 . {\displaystyle {\begin{aligned}\mathbb {P} \left((Y_{t},Y_{t+1},\dots ,Y_{t+n})=(i_{0},i_{1},\dots ,i_{n})\right)&=\mathbb {P} \left((X_{-t-n},X_{-t-n+1},\dots ,X_{-t})=(i_{n},i_{n-1},\dots ,i_{0})\right)\\&=\pi _{i_{n}}p_{i_{n},i_{n-1}}\dots p_{i_{1},i_{0}}.\end{aligned}}}
Graphe de la marche du cavalier sur l'échiquier (quart Sud-Ouest), et degré des sommets

Exemples

Marche aléatoire sur un graphe

Soit G un graphe connexe, fini, simple et sans boucles. Par définition,

i , j E = V ( G ) ,  tels que  i j , p i , j = 1 d i , {\displaystyle \forall i,j\in E=V(G),{\text{ tels que }}i\sim j,\qquad p_{i,j}={\frac {1}{d_{i}}},}

i.e. à partir de i , {\displaystyle i,} on saute vers un de ses d i {\displaystyle d_{i}} voisins choisis au hasard (avec équiprobabilité), d i {\displaystyle d_{i}} désignant le degré de i {\displaystyle i} dans le graphe G . {\displaystyle G.} La connexité de G {\displaystyle G} entraîne l'irréductibilité de la marche aléatoire et l'unicité de la probabilité stationnaire. On remarque que μ i = d i {\displaystyle \mu _{i}=d_{i}\qquad } satisfait le critère 2, or μ = 2 | E ( G ) | , {\displaystyle \Vert \mu \Vert =2\vert E(G)\vert ,\qquad } i.e. μ {\displaystyle \Vert \mu \Vert \qquad } est deux fois le nombre d'arêtes de G . {\displaystyle G.\qquad } Ainsi π i = d i / ( 2 | E ( G ) | ) {\displaystyle \pi _{i}=d_{i}/(2\vert E(G)\vert )\qquad } est l'unique probabilité stationnaire : on passe d'autant plus de temps en un sommet que son degré est élevé, et ce temps de séjour asymptotique est proportionnel au degré du sommet, avec coefficient de proportionnalité 1 / ( 2 | E ( G ) | ) . {\displaystyle 1/(2\vert E(G)\vert ).\qquad } Un exemple amusant est la marche aléatoire d'un cavalier sur un échiquier.

Marche du cavalier sur l'échiquier

C'est un cas particulier de l'exemple ci-dessus, où 2 d i 8 ,   | V ( G ) | = | E | = 64 , {\displaystyle 2\leq d_{i}\leq 8,\ \vert V(G)\vert =|E|=64,} et μ = 2 | E ( G ) | = 336. {\displaystyle \Vert \mu \Vert =2\vert E(G)\vert =336.} Ainsi

π coin SO = 2 336 et E coin SO [ T coin SO ] = 168 , {\displaystyle \pi _{\text{coin SO}}={\frac {2}{336}}\quad {\text{et}}\quad \mathbb {E} _{\text{coin SO}}\left[T_{\text{coin SO}}\right]=168,}

c'est-à-dire qu'il faut en moyenne 168 sauts à un cavalier partant du coin Sud-Ouest pour y retourner. On peut étudier de la même manière les autres pièces du jeu d'échecs.

Modèle des urnes d'Ehrenfest

Deux chiens (disons A et B) se partagent N puces de la manière suivante : à chaque instant t entier, une des N puces est tirée au hasard et change alors de chien. Notons Xt le nombre de puces infestant A au temps t : X=(Xt )t≥0 est une chaîne de Markov en vertu du critère fondamental. Supposons que dans l'état initial, le chien A n'a aucune puce.

Cette chaîne de Markov est clairement irréductible. Si on la suppose réversible, on doit avoir

π k + 1 π k   =   p k , k + 1 p k + 1 , k   =   N k k + 1   =   ( N k + 1 ) ( N k ) , {\displaystyle {\frac {\pi _{k+1}}{\pi _{k}}}\ =\ {\frac {p_{k,k+1}}{p_{k+1,k}}}\ =\ {\frac {N-k}{k+1}}\ =\ {\frac {N \choose k+1}{N \choose k}},}

ce qui suggère une probabilité stationnaire, π = (πk )0≤k≤N , proportionnelle aux coefficients binomiaux. La seule loi de probabilité proportionnelle aux coefficients binomiaux est la loi binomiale de paramètre 1/2 (et N). La chaîne est donc bien réversible, et le temps écoulé entre deux passages par l'état initial est

E 0 [ T 0 ]   =   1 π 0   =   2 N . {\displaystyle \mathbb {E} _{0}\left[T_{0}\right]\ =\ {\frac {1}{\pi _{0}}}\ =\ 2^{N}.}

Cet exemple illustre la réponse de Boltzmann à Zermelo : Zermelo observait[1] une contradiction entre le théorème de récurrence de Poincaré[2],[3], selon lequel un système dynamique repasse infiniment souvent par un état donné, et le Théorème H de Boltzmann. La réponse de Boltzmann[4] consiste à estimer le temps de récurrence moyen : pour un gaz macroscopique contenant N 1 {\displaystyle N\gg 1} molécules, Boltzmann estime celui-ci d'ordre 10 N {\displaystyle 10^{N}} , une durée qui est largement supérieure à l'âge de l'univers[5] lorsque N N A = 6.02   10 + 23 {\displaystyle N\sim {\mathcal {N}}_{A}=6.02\ 10^{+23}}  ; les récurrences sont donc invisibles à notre échelle.

Théorie spectrale (cas fini)

On suppose

  • l'espace d'états E fini, à N éléments,
  • la chaîne réversible,
  • chaque πi strictement positif.

Alors[6]

Théorème — La matrice de transition P est diagonalisable à gauche dans une base orthonormée pour la distance du χ2 , i.e. dans une base orthonormée pour la forme bilinéaire

x , y   =   i = 1 N x i y i π i . {\displaystyle \langle x,y\rangle \ =\ \sum _{i=1}^{N}\,{\frac {x_{i}\,y_{i}}{\pi _{i}}}.}

Ses valeurs propres à gauche sont réelles et de valeurs absolues inférieures à 1.

Démonstration

Notons D la matrice diagonale de terme diagonal général π i . {\displaystyle {\sqrt {\pi _{i}}}.} Alors S = D.P.D-1 est une matrice symétrique, semblable à P. En effet

S i , j   =   π i p i , j π j   =   π j p j , i π i   =   S j , i . {\displaystyle S_{i,j}\ =\ {\frac {{\sqrt {\pi _{i}}}\,p_{i,j}}{\sqrt {\pi _{j}}}}\ =\ {\frac {{\sqrt {\pi _{j}}}\,p_{j,i}}{\sqrt {\pi _{i}}}}\ =\ S_{j,i}.}

En vertu du théorème spectral, on conclut donc que S est diagonalisable en base orthonormée, et n'a que des valeurs propres réelles. Si u et v sont deux vecteurs propres à gauches de S, orthogonaux (i.e. u.tv = 0 ), alors les vecteurs propres correspondants de P sont x = u.D et y = v.D. On a donc

0   =   u . t v   =   x . D 2 . t y   =   i = 1 N x i y i π i . {\displaystyle 0\ =\ u.^{t}v\ =\ x.D^{-2}.^{t}y\ =\ \sum _{i=1}^{N}\,{\frac {x_{i}\,y_{i}}{\pi _{i}}}.}

L'encadrement des valeurs propres découle des deux relations :

u ( Id D P D 1 ) t u   =   1 2   1 i , j N π i p i , j ( u i π i u j π j ) 2 , {\displaystyle u\left({\text{Id}}-DPD^{-1}\right)\,^{t}u\ =\ {\tfrac {1}{2}}\ \sum _{1\leq i,j\leq N}\,\pi _{i}p_{i,j}\,\left({\tfrac {u_{i}}{\pi _{i}}}-{\tfrac {u_{j}}{\pi _{j}}}\right)^{2},}

et

u ( Id + D P D 1 ) t u   =   1 2   1 i , j N π i p i , j ( u i π i + u j π j ) 2 . {\displaystyle u\left({\text{Id}}+DPD^{-1}\right)\,^{t}u\ =\ {\tfrac {1}{2}}\ \sum _{1\leq i,j\leq N}\,\pi _{i}p_{i,j}\,\left({\tfrac {u_{i}}{\pi _{i}}}+{\tfrac {u_{j}}{\pi _{j}}}\right)^{2}.}

En effet, les termes de droites de ces égalités sont positifs ou nuls. Si λ est une valeur propre quelconque de P, v un vecteur propre à gauche associé, et si on choisit u = vD-1 , alors les termes de gauche sont ( 1 λ ) u 2 {\displaystyle (1-\lambda )\Vert u\Vert ^{2}} et ( 1 + λ ) u 2 , {\displaystyle (1+\lambda )\Vert u\Vert ^{2},} respectivement. D'où l'encadrement annoncé.

Cas d'égalité. Si u est une probabilité stationnaire de la chaîne, alors, dans la première relation ci-dessus, la somme de droite est nulle, donc tous ses termes (qui sont positifs ou nuls) sont nuls. Cela entraine que la fraction uj j reste constante le long de n'importe quel chemin du graphe de la chaîne. Si la chaîne est irréductible, il suit que u est proportionnelle à π, donc égale à π. Ainsi il existe une seule probabilité stationnaire.

Une discussion analogue concernant la deuxième égalité permet de conclure à l'existence d'un vecteur propre pour la valeur propre -1 si et seulement si la chaîne est de période 2.

Convergence pour la distance du χ2

Si la chaîne est irréductible et apériodique, 1 est valeur propre de P de multiplicité 1, et les autres valeurs propres sont en valeur absolue strictement inférieures à 1. Si on note α le maximum de ces valeurs absolues et si on note μn la loi de la chaîne au temps n, on en déduit[6] que

μ n π , μ n π     C α 2 n . {\displaystyle \langle \mu _{n}-\pi ,\mu _{n}-\pi \rangle \ \leq \ C\,\alpha ^{2n}.}

Si l'erreur relative, au site i, est définie par

ε i = μ n , i π i π i , {\displaystyle \varepsilon _{i}={\frac {\mu _{n,i}-\pi _{i}}{\pi _{i}}},}

alors la distance du χ2 entre μn et π s'écrit

μ n π , μ n π   =   i = 1 N π i ε i 2 . {\displaystyle \langle \mu _{n}-\pi ,\mu _{n}-\pi \rangle \ =\ \sum _{i=1}^{N}\,\pi _{i}\,\varepsilon _{i}^{2}.}

Ainsi les erreurs relatives sont moins pénalisantes si elles affectent les états les moins probables mais sont, toutefois, plus pénalisantes que si on utilise la distance euclidienne classique :

μ n π 2   =   i = 1 N ( μ n , i π i ) 2   =   i = 1 N π i 2 ε i 2 . {\displaystyle \Vert \mu _{n}-\pi \Vert ^{2}\ =\ \sum _{i=1}^{N}\,(\mu _{n,i}-\pi _{i})^{2}\ =\ \sum _{i=1}^{N}\,\pi _{i}^{2}\,\varepsilon _{i}^{2}.}

Théorie spectrale (cas du modèle des urnes d'Ehrenfest)

Théorème — La matrice de transition P possède N+1 valeurs propres distinctes :

1 = λ 0 λ 1 λ k = N 2 k N λ N = 1. {\displaystyle 1=\lambda _{0}\geq \lambda _{1}\geq \dots \geq \lambda _{k}={\tfrac {N-2k}{N}}\geq \dots \geq \lambda _{N}=-1.}

Le vecteur ek défini par

( 1 X ) k ( 1 + X ) N k = j = 0 N   e k , j X j {\displaystyle (1-X)^{k}(1+X)^{N-k}\,=\,\sum _{j=0}^{N}\ e_{k,j}X^{j}}

est un vecteur propre à gauche de P associé à la valeur propre λk .

Démonstration

On considère l'opérateur T défini sur les suites de nombres réels par

( T u ) k = N k + 1 N u k 1 + k + 1 N u k + 1 , k 0 , {\displaystyle (Tu)_{k}\,=\,{\tfrac {N-k+1}{N}}\,u_{k-1}+{\tfrac {k+1}{N}}\,u_{k+1},\quad k\geq 0,}

avec la convention u-1 =0. Supposons que λ soit une valeur propre de T et notons u un vecteur propre associé. Posons

F ( X ) = k 0 u k X k . {\displaystyle F(X)\,=\,\sum _{k\geq 0}\,u_{k}X^{k}.}

Alors on devrait avoir

λ F ( X ) = k 0 ( N k + 1 N u k 1 + k + 1 N u k + 1 ) X k = X k 0 u k 1 X k 1 X 2 N k 0 ( k 1 ) u k 1 X k 2 + 1 N k 0 ( k + 1 ) u k + 1 X k = X F ( X ) X 2 N F ( X ) + 1 N F ( X ) = X F ( X ) + 1 X 2 N F ( X ) . {\displaystyle {\begin{aligned}\lambda F(X)&=\sum _{k\geq 0}\,\left({\tfrac {N-k+1}{N}}\,u_{k-1}+{\tfrac {k+1}{N}}\,u_{k+1}\right)X^{k}\\&=X\sum _{k\geq 0}\,\,u_{k-1}X^{k-1}-{\tfrac {X^{2}}{N}}\sum _{k\geq 0}\,(k-1)\,u_{k-1}X^{k-2}+\,{\tfrac {1}{N}}\,\sum _{k\geq 0}\,(k+1)\,u_{k+1}X^{k}\\&=XF(X)-{\tfrac {X^{2}}{N}}\,F^{\prime }(X)+\,{\tfrac {1}{N}}\,F^{\prime }(X)\\&=XF(X)+{\tfrac {1-X^{2}}{N}}\,F^{\prime }(X).\end{aligned}}}

Il faudrait donc (formellement) que

2 N F ( X ) F ( X ) = 2   λ X 1 X 2 = λ 1 1 X + λ + 1 1 + X . {\displaystyle {\begin{aligned}{\tfrac {2}{N}}\,{\frac {F^{\prime }(X)}{F(X)}}&=2\ {\frac {\lambda -X}{1-X^{2}}}\\&={\frac {\lambda -1}{1-X}}+{\frac {\lambda +1}{1+X}}.\end{aligned}}}

ou encore que

F ( X )   =   C ( 1 X ) ( 1 λ ) N / 2   ( 1 + X ) ( λ + 1 ) N / 2 . {\displaystyle F(X)\ =\ C\,(1-X)^{(1-\lambda )N/2}\ (1+X)^{(\lambda +1)N/2}.}

Par ailleurs, si v=(v0 ,v1 , ... ,vN ) est un vecteur ligne et si u désigne la suite obtenue en complétant v par une suite infinie de 0's, alors

v P   =   T u , {\displaystyle vP\ =\ Tu,}

et la série génératrice F associée à u est un polynôme de degré inférieur à N. Ainsi les valeurs de λ pour lesquelles l'expression de F donnée ci-dessus est un polynome (nécessairement de degré N car N est la somme des exposants) sont non seulement des valeurs propres de T, mais aussi des valeurs propres de P. Or si 1-λ est de la forme 2k/N (où k désigne un entier naturel) alors l'exposant de (1-X) est un entier naturel et l'exposant de (1+X) est un entier relatif. Si, de plus, k≤N, alors le deuxième exposant est un entier naturel. Cela fait à P autant de valeurs propres distinctes qu'il y a d'entiers entre 0 et N, soit N+1 valeurs propres, au moins. Mais la matrice P, de dimension N+1, ne peut avoir plus de N+1 valeurs propres. On a donc trouvé toutes les valeurs propres, et leurs vecteurs propres à gauche associés. Ce calcul est tiré d'un article de Mark Kac[7].

Ainsi, il y a convergence vers la loi stationnaire uniquement si la loi initiale μ est orthogonale à eN , i.e. si

i = 0 N ( 1 ) i μ i = 0. {\displaystyle \sum _{i=0}^{N}\,(-1)^{i}\,\mu _{i}=0.}

En ce cas, il existe une constante CN telle que, pour tout entier naturel k, on ait :

μ . P k π C N ( 1 2 N ) k . {\displaystyle \Vert \mu .P^{k}-\pi \Vert \leq C_{N}\,\left(1-{\tfrac {2}{N}}\right)^{k}.}

Existence et unicité

Graphe d'une chaîne de Markov non irréductible à espace d'états fini, possédant 3 classes : { 1 , 3 }     { 2 } {\displaystyle \{1,3\}\ \leftarrow \ \{2\}} et { 4 , 5 } . {\displaystyle \{4,5\}.}

Discuter l'existence et l'unicité d'une probabilité stationnaire π {\displaystyle \pi } telle que π i > 0 {\displaystyle \pi _{i}>0} amène à discuter les propriétés du graphe de la chaîne de Markov et la classification de ses états, amène aussi à étudier les propriétés de la variable aléatoire appelée "temps de retour" en i , {\displaystyle i,} et souvent notée T i . {\displaystyle T_{i}.}

Théorème —  On a équivalence entre les 2 propositions suivantes

  • L'état i {\displaystyle i} est récurrent positif,
  • il existe une probabilité stationnaire π {\displaystyle \pi } telle que π i > 0. {\displaystyle \pi _{i}>0.}

Si l'une des deux conditions précédentes est remplie, alors

  • la classe C {\displaystyle C} de l'état i {\displaystyle i} est une classe finale,
  • le support de π {\displaystyle \pi } contient C , {\displaystyle C,}
  • tous les éléments de C {\displaystyle C} sont récurrent positifs,
  • π i E i [ T i ] 1. {\displaystyle \pi _{i}\mathbb {E} _{i}\left[T_{i}\right]\leq 1.}

De plus, il y a équivalence entre

  • le support de π {\displaystyle \pi } est exactement C , {\displaystyle C,} i.e. { π j > 0 } { j C } , {\displaystyle \{\pi _{j}>0\}\Leftrightarrow \{j\in C\},}
  • π i E i [ T i ] = 1 , {\displaystyle \pi _{i}\mathbb {E} _{i}\left[T_{i}\right]=1,}
  • π {\displaystyle \pi } est un point extrémal de l'ensemble (convexe) des probabilités stationnaires.

En particulier, si une chaîne de Markov possède au moins un état récurrent positif, alors il existe une probabilité stationnaire.

Exemple :

Pour la chaîne dont le graphe est représenté ci-dessus, l'ensemble des probabilités stationnaires est le segment dont les extrémités, correspondant aux deux classes finales C = { 1 , 3 } {\displaystyle C=\{1,3\}} et C = { 4 , 5 } , {\displaystyle C^{\prime }=\{4,5\},} sont π C = ( 1 2 , 0 , 1 2 , 0 , 0 ) {\displaystyle \pi _{C}=\left({\tfrac {1}{2}},0,{\tfrac {1}{2}},0,0\right)} et π C = ( 0 , 0 , 0 , 1 2 , 1 2 ) . {\displaystyle \pi _{C^{\prime }}=\left(0,0,0,{\tfrac {1}{2}},{\tfrac {1}{2}}\right).} Une probabilité stationnaire est nécessairement de la forme π = ( α , 0 , α , β , β ) , α + β = 0.5. {\displaystyle \pi =\left(\alpha ,0,\alpha ,\beta ,\beta \right),\quad \alpha +\beta =0.5.}

Corollaire — Si une chaîne de Markov possède une seule classe finale C , {\displaystyle C,} alors il existe au plus une probabilité stationnaire. On a alors équivalence entre les 3 propositions :

  • il existe une probabilité stationnaire,
  • il existe un état récurrent positif,
  • tous les états de la classe finale sont récurrents positifs.

Supposons qu'une des 3 conditions ci-dessus soit remplie et notons π {\displaystyle \pi } l'unique probabilité stationnaire : alors

i E , π i   =   1 E i [ T i ] , {\displaystyle \forall i\in E,\quad \pi _{i}\ =\ {\frac {1}{\mathbb {E} _{i}\left[T_{i}\right]}},}

et on a la série d'équivalences

{ π i > 0 } { i C } { i  est récurrent positif } . {\displaystyle \{\pi _{i}>0\}\Leftrightarrow \{i\in C\}\Leftrightarrow \{i{\text{ est récurrent positif}}\}.}

Ce théorème vaut en particulier pour les chaînes de Markov irréductibles, puisque ces dernières possèdent une seule classe (qui est donc nécessairement une classe finale) ; les chaînes de Markov irréductibles vérifient en particulier C = E . {\displaystyle C=E.}

À voir

Notes

  1. Ernst Zermelo ; Uber einen Satz der Dynamik une der mechanischen Wärmetheorie, Wied. Ann. 57 (1896), 793.
  2. Henri Poincaré ; Sur le problème des trois corps et les équations de la dynamique, Acta Mathamatica 13 (1890), 1-270.
  3. Ludwig Boltzmann ; Uber einen mechanischen Satz von Poincaré, Wien. Ber. 106 (1897), 12.
  4. Ludwig Boltzmann ; Entgegnung auf die wärmetheoretische Betrachtung des Herrn Zermelo, Wied. Ann. \textbf{57} (1896), 773 ; et : \textbf{60} (1897), 392.
  5. Environ 15 milliards d'années.
  6. a et b Bernard Ycart, Modèles et algorithmes Markoviens, p.127-130.
  7. Mark Kac, Random Walk and the Theory of Brownian Motion, American Mathematical Monthly 54(7) (1947), 369-391. Texte au format pdf.

Bibliographie

  • Laurent Saloff-Coste, Lectures on finite Markov chains, Lectures on Probability Theory and Statistics, 301-413. Lecture Notes in Math. n° 1665. Springer (1997).
  • Jim Norris, Markov chains.
  • Samuel Karlin et Howard E. Taylor, A Second Course in Stochastic Processes.

Pages liées

  • icône décorative Portail des probabilités et de la statistique