Cadeias estocásticas com memória de alcance variável

Cadeias estocásticas com memória de alcance variável constituem uma família de cadeias estocásticas de ordem finita em um alfabeto finito. A ideia é que, para cada passado, apenas um sufixo finito do passado, chamado contexto, é suficiente para predizer o próximo símbolo. Esses modelos foram introduzidos na literatura da teoria da informação por Jorma Rissanen, em 1983, [1] como uma ferramenta universal para a compressão de dados. Recentemente, elas têm sido usadas para modelar dados em diferente áreas, como biologia,[2] linguística,[3] e música.[4]

Definicão

Uma cadeia com memória de alcance variável é uma cadeia estocástica ( X n ) n Z {\displaystyle (X_{n})_{n\in Z}} , tomando valores em um alfabeto finito A {\displaystyle A} e caracterizada por uma árvore probabilística de contextos ( τ , p ) {\displaystyle (\tau ,p)} , tal que

  1. τ {\displaystyle \tau } é o conjunto de todos os contextos. Um contexto X n l , , X n 1 {\displaystyle X_{n-l},\ldots ,X_{n-1}} , sendo l {\displaystyle l} o tamanho do contexto, é uma porção finita do passado X , , X n 1 {\displaystyle X_{-\infty },\ldots ,X_{n-1}} que é relevante para predizer o próximo símbolo X n {\displaystyle X_{n}} ;
  2. p {\displaystyle p} é uma família de probabilidade de transição associada a cada contexto.

História

A classe das cadeias estocásticas com memória de alcance variável foi introduzida em 1983 por Jorma Rissanen, no artigo A universal system for data compression system.[1] Essa classe de cadeias estocásticas foi popularizada na comunidade estatística e probabilística por P. Bühlmann e A. J. Wyner, em 1999, no artigo Variable Length Markov Chains. Chamadas por Bühlmann e Wyner de “cadeias de Markov de alcance variável" (em inglês, VLMC, sigla de "Variable length Markov chains"), essas cadeias também são conhecidas por "Modelos de Markov de ordem variável" (em inglês, VOM, da sigla de "Variable order Markov Models"), “Árvores probabilísticas de sufixos” [2] e “Modelos gerados por árvores de contexto”[5] (Em inglês, “Context tree models”`). A designação “Cadeias estocásticas com memória de alcance variável” parece ter sido introduzida por Galves e Löcherbach, em 2008, no artigo Stochastic chains with memory of variable length.[6]

Exemplos

Fonte de Luz Interrompida

Considere um sistema composto por uma lâmpada, um observador e uma porta entre ambos. A lâmpada possui dois estados possíveis: acesa, representada por 1, ou apagada, representada por zero. Quando a lâmpada está acesa, o observador pode receber a luz emitida através da porta, que também pode se encontrar em dois estados: aberta, 1, ou fechada, 0. Estes estados independem do estado original da lâmpada.

Seja ( X n ) n 0 {\displaystyle (X_{n})_{n\geq 0}} uma cadeia de Markov que represente o estado da lâmpada, com valores em A = 0 , 1 {\displaystyle A={0,1}} e com uma matriz de probabilidade de transição p {\displaystyle p} . Seja também ( ξ n ) n 0 {\displaystyle (\xi _{n})_{n\geq 0}} uma sequência de variáveis aleatórias independentes que represente o estado da porta, também assumindo valores em A {\displaystyle A} , independente da cadeia ( X n ) n 0 {\displaystyle (X_{n})_{n\geq 0}} e tal que

P ( ξ n = 1 ) = 1 ϵ {\displaystyle \mathbb {P} (\xi _{n}=1)=1-\epsilon }

onde 0 < ϵ < 1 {\displaystyle 0<\epsilon <1} . Define-se uma nova sequência ( Z n ) n 0 {\displaystyle (Z_{n})_{n\geq 0}} tal que

Z n = X n ξ n {\displaystyle Z_{n}=X_{n}\xi _{n}} para todo ( Z n ) n 0 {\displaystyle (Z_{n})_{n\geq 0}} .

Para descobrir o último instante em que o observador conseguiu ver a lâmpada acesa, isto é, identificar o menor instante k {\displaystyle k} , com k < n {\displaystyle k<n} tal que Z k = 1 {\displaystyle Z_{k}=1} .

Utilizando uma árvore de contextos é possível representar os estados passados da sequência, mostrando qual é relevante para identificar o próximo estado.

A cadeia estocástica ( Z n ) n Z {\displaystyle (Z_{n})_{n\in \mathbb {Z} }} é, então, uma cadeia com memória de alcance variável, assumindo valores em A {\displaystyle A} e compatível com uma árvore probabilística de contextos ( τ , p ) {\displaystyle (\tau ,p)} , onde

τ = { 1 , 10 , 100 , } { 0 } {\displaystyle \tau =\{1,10,100,\cdots \}\cup \{0^{\infty }\}} .

Propriedades probabilísticas

Existência

Simulação perfeita

Inferência em cadeias com memória de alcance variável

Dada uma amostra X l , , X n {\displaystyle X_{l},\ldots ,X_{n}} , como encontrar a árvore de contexto adequada? Os principais algoritmos já formulados para a solução desse problema são apresentados a seguir.

O algoritmo contexto

No artigo A Universal Data Compression System,[1] Rissanen introduziu um algoritmo consistente para estimar a árvore probabilística de contextos finita geradora dos dados. O modo como tal algoritmo funciona pode ser sumarizado em dois passos:

  1. Dada um amostra produzida por uma cadeia com memória de alcance variável, começamos com a árvore máxima cujos ramos são todos os candidatos à contextos para a amostra;
  2. Os ramos dessa árvore são então podados até se obter a menor árvore que esteja bem adaptada aos dados. A decisão por encurtar ou não o contexto se dá por meio de uma dada função de ganho, como por exemplo, a razão do logaritmo das verossimilhanças.

Vamos à descrição mais formal do algoritmo. Seja X 0 , , X n 1 {\displaystyle X_{0},\ldots ,X_{n-1}} uma amostra de uma árvore probabilística finita ( τ , p ) {\displaystyle (\tau ,p)} . Para qualquer sequência x j 1 {\displaystyle x_{-j}^{-1}} com j n {\displaystyle j\leq n} , denotamos por N n ( x j 1 ) {\displaystyle N_{n}(x_{-j}^{-1})} o número de ocorrências da sequência na amostra, isto é,

N n ( x j 1 ) = t = 0 n j 1 { X t t + j 1 = x j 1 } {\displaystyle N_{n}(x_{-j}^{-1})=\sum _{t=0}^{n-j}\mathbf {1} \left\{X_{t}^{t+j-1}=x_{-j}^{-1}\right\}}

Rissanen primeiramente construiu um candidato máximo de contexto, dado por X n K ( n ) n 1 {\displaystyle X_{n-K(n)}^{n-1}} , onde K ( n ) = C log n {\displaystyle K(n)=C\log {n}} e C {\displaystyle C} uma constante positiva arbitrária. A razão intuitiva para a escolha de C log n {\displaystyle C\log {n}} decorre da impossibilidade de estimar as probabilidades de sequência de comprimento maior que log n {\displaystyle \log {n}} baseado em uma amostra de tamanho n {\displaystyle n} .

A partir daí, Rissanen encurta o candidato máximo à contexto por meio de sucessivas podas dos ramos de acordo com uma sequência de testes baseados na estatística de razão de verossimilhanças. Para uma definição mais formal, se b A N n ( x k 1 b ) > 0 {\displaystyle \sum _{b\in A}N_{n}(x_{-k}^{-1}b)\,>\,0} defina o estimador da probabilidade de transição p {\displaystyle p} por

p ^ n ( a | x k 1 ) = N n ( x k 1 a ) b A N n ( x k 1 b ) {\displaystyle {\hat {p}}_{n}(a|x_{-k}^{-1})={\frac {N_{n}(x_{-k}^{-1}a)}{\sum _{b\in A}N_{n}(x_{-k}^{-1}b)}}}

onde x j 1 a = ( x j , , x 1 , a ) {\displaystyle x_{-j}^{-1}a=(x_{-j},\ldots ,x_{-1},a)} . Caso b A N n ( x k 1 b ) = 0 {\displaystyle \sum _{b\in A}N_{n}(x_{-k}^{-1}b)\,=\,0} , defina p ^ n ( a | x k 1 ) = 1 / | A | {\displaystyle {\hat {p}}_{n}(a|x_{-k}^{-1})\,=\,1/|A|} .

Para i 1 {\displaystyle i\geq 1} definimos

Λ n ( x i 1 ) = 2 y A a A N n ( y x i 1 a ) log [ p ^ n ( a | x i 1 y ) p ^ n ( a | x i 1 ) ] {\displaystyle \Lambda _{n}(x_{-i}^{-1})\,=\,2\,\sum _{y\in A}\sum _{a\in A}N_{n}(yx_{-i}^{-1}a)\log \left[{\frac {{\hat {p}}_{n}(a|x_{-i}^{-1}y)}{{\hat {p}}_{n}(a|x_{-i}^{-1})}}\right]\,}

onde y x i 1 = ( y , x i , , x 1 ) {\displaystyle yx_{-i}^{-1}=(y,x_{-i},\ldots ,x_{-1})} e

p ^ n ( a | x i 1 y ) = N n ( y x i 1 a ) b A N n ( y x i 1 b ) . {\displaystyle {\hat {p}}_{n}(a|x_{-i}^{-1}y)={\frac {N_{n}(yx_{-i}^{-1}a)}{\sum _{b\in A}N_{n}(yx_{-i}^{-1}b)}}.}

Note que Λ n ( x i 1 ) {\displaystyle \Lambda _{n}(x_{-i}^{-1})} é a razão do logaritmo das verossimilhanças para testar a consistência da amostra com a árvore probabilística de contextos ( τ , p ) {\displaystyle (\tau ,p)} contra a alternativa que é consistente com ( τ , p ) {\displaystyle (\tau ',p')} , onde τ {\displaystyle \tau } e τ {\displaystyle \tau '} diferem apenas por um conjunto de nós irmãos.

O comprimento do atual contexto estimado é então definido por

^ n ( X 0 n 1 ) = max { i = 1 , , K ( n ) : Λ n ( X n i n 1 ) > C log n } {\displaystyle {\hat {\ell }}_{n}(X_{0}^{n-1})=\max \left\{i=1,\ldots ,K(n):\Lambda _{n}(X_{n-i}^{n-1})\,>\,C\log n\right\}\,}

onde C {\displaystyle C} é qualquer constante positiva. Por fim, por Rissanen(1983)[1] temos o seguinte resultado. Dada uma realização X 0 , , X n 1 {\displaystyle X_{0},\ldots ,X_{n-1}} de uma árvore probabilística de contextos ( τ , p ) {\displaystyle (\tau ,p)} finita, então

P ( ^ n ( X 0 n 1 ) ( X 0 n 1 ) ) 0 , {\displaystyle P\left({\hat {\ell }}_{n}(X_{0}^{n-1})\neq \ell (X_{0}^{n-1})\right)\longrightarrow 0,}

quando n {\displaystyle n\rightarrow \infty } .

Critério de informação Bayesiana (BIC)

O estimador da árvore de contexto pelo BIC com constante penalizadora c > 0 {\displaystyle c>0} é definido como

τ ^ B I C = arg max τ T n { log L τ ( X 1 n ) c df ( τ ) log n } {\displaystyle {\hat {\tau }}_{BIC}={\underset {\tau \in {\mathcal {T}}_{n}}{\arg \max }}\{\log {L_{\tau }(X_{1}^{n})-c{\textrm {df}}(\tau )\log {n}}\}}

Critério do menor maximizador (SMC)

O critério do menor maximizador [3] se dá ao selecionar a menor árvore τ ^ {\displaystyle {\hat {\tau }}} de um conjunto de árvores C {\displaystyle C} tal que

lim n log L τ ( X 1 n ) log L τ ^ ( X 1 n ) n = 0 {\displaystyle \lim _{n\to \infty }{\frac {\log L_{\tau }(X_{1}^{n})-\log L_{\hat {\tau }}(X_{1}^{n})}{n}}=0}

Ver também

Referências

  1. a b c d Rissanen, J (setembro de 1983). «A Universal Data Compression System». IEEE Transactions on Information Theory. 29 (5): 656–664. doi:10.1109/TIT.1983.1056741 
  2. a b Bejenaro, G (2001). «Variations on probabilistic suffix trees: statistical modeling and prediction of protein families». Bioinformatics. 17 (5): 23-43. doi:10.1093/bioinformatics/17.1.23 
  3. a b Galves, A; Galves, C; García, J; Garcia, N L; Leonardi, F (2012). «Context tree selection and linguistic rhythm retrieval from written texts». The Annals of Applied Statistics. 6 (5): 186-209. doi:10.1214/11-AOAS511  A referência emprega parâmetros obsoletos |coautores= (ajuda)
  4. Dubnov, S; Assayag, G; Lartillot, O; Bejenaro G (2003). «Using machine-learning methods for musical style modeling». Computer. 36 (10): 73-80. doi:10.1109/MC.2003.1236474  A referência emprega parâmetros obsoletos |coautores= (ajuda)
  5. Galves, A; Garivier, A; Gassiat, E (2012). «Joint estimation of intersecting context tree models». Scandinavian Journal of Statistics. 40 (2): 344-362. doi:10.1111/j.1467-9469.2012.00814.x  A referência emprega parâmetros obsoletos |coautores= (ajuda)
  6. Galves, A; Löcherbach, E (2008). «Stochastic chains with memory of variable length». TICSP Series. 38: 117-133  A referência emprega parâmetros obsoletos |coautores= (ajuda)
  • v
  • d
  • e
Tempo discreto
Tempo contínuo
Ambos
Campos e outros
Modelos de série temporal
Modelos financeiros
  • Black–Derman–Toy
  • Black–Karasinski
  • Chen
  • Cox–Ingersoll–Ross (CIR)
  • Garman–Kohlhagen
  • Heath–Jarrow–Morton (HJM)
  • Heston
  • Ho–Lee
  • Hull–White
  • LIBOR market
  • Rendleman–Bartter
  • SABR volatility
  • Vašíček
  • Wilkie
Modelos atuariais
  • Bühlmann
  • Cramér–Lundberg
  • Sparre–Anderson
Modelos de filas
Propriedades
Teoremas limites
Desigualdades
Ferramentas
Disciplinas
  • Categoria:Processos estocásticos