introduc¸˜ao aos processos estoc´asticos -...

120
Introdu¸ c˜aoaosProcessosEstoc´asticos Domingos H. U. Marchetti Depto. F´ ısica Geral Email: marchett@if.usp.br Web: http://gibbs.if.usp.br/marchett Ifusp - 2010

Upload: truongkhuong

Post on 19-Mar-2018

224 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

Introducao aos Processos Estocasticos

Domingos H. U. MarchettiDepto. Fısica Geral

Email: [email protected]

Web: http://gibbs.if.usp.br/∼marchett

Ifusp - 2010

Page 2: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2

RESUMO

Page 3: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

Indice

Prologo 5

1 Estatıstica dos Dıgitos de Numeros Normais 71.1 Funcoes de Rademacher . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.1 Formula de Viete . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.1.2 Interpretacao Probabilıstica . . . . . . . . . . . . . . . . . . . . . 121.1.3 Lei dos Grandes Numeros . . . . . . . . . . . . . . . . . . . . . . 15

1.2 Numeros Normais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.2.1 Distribuicao Uniforme Modulo 1 . . . . . . . . . . . . . . . . . . . 181.2.2 Interpretacao Dinamica . . . . . . . . . . . . . . . . . . . . . . . . 231.2.3 Paradoxos da Teoria Cinetica dos Gases . . . . . . . . . . . . . . 28

1.3 Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331.3.1 Exercıcios Adicionais . . . . . . . . . . . . . . . . . . . . . . . . . 331.3.2 Identidade de Parseval . . . . . . . . . . . . . . . . . . . . . . . . 351.3.3 Completeza das funcoes de Walsh–Kaczmarz . . . . . . . . . . . . 37

2 Introducao a Probabilidade 412.1 Lei Normal e Difusao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.1.1 Teorema de DeMoivre–Laplace . . . . . . . . . . . . . . . . . . . 422.1.2 Passeios Aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.2 Teoria da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 502.2.1 Espaco de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 502.2.2 Variaveis Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . 562.2.3 Funcao Distribuicao . . . . . . . . . . . . . . . . . . . . . . . . . 592.2.4 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 642.2.5 Esperanca e Funcao Caracterıstica . . . . . . . . . . . . . . . . . 69

2.3 Distribuicao Limite de Somas de Variaveis Aleatorias Independentes . . . 742.3.1 Teorema Central do Limite I . . . . . . . . . . . . . . . . . . . . . 74

Page 4: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

4 Indice

2.3.2 Teorema Central do Limite II . . . . . . . . . . . . . . . . . . . . 772.3.3 Divisibilidade Infinita . . . . . . . . . . . . . . . . . . . . . . . . . 832.3.4 Teorema de Levy–Khintchin . . . . . . . . . . . . . . . . . . . . . 86

3 Cadeias de Markov 913.1 Passeio Aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

3.1.1 Matriz de Green . . . . . . . . . . . . . . . . . . . . . . . . . . . 933.1.2 Tempo de Parada e Tempo de Retorno . . . . . . . . . . . . . . . 943.1.3 Recorrencia e Transiencia . . . . . . . . . . . . . . . . . . . . . . 96

3.2 O Problema da Recorrencia . . . . . . . . . . . . . . . . . . . . . . . . . 993.2.1 Caso Homogeneo . . . . . . . . . . . . . . . . . . . . . . . . . . . 1003.2.2 Caso Nao–Homogeneo . . . . . . . . . . . . . . . . . . . . . . . . 1023.2.3 Criterio de Convergencia . . . . . . . . . . . . . . . . . . . . . . . 106

3.3 Alguns Resultados sobre o Limite de Cadeias de Markov Estacionarias . 1083.3.1 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1083.3.2 Recorrencia em cadeias de Markov . . . . . . . . . . . . . . . . . 1103.3.3 Medidas Estacionarias . . . . . . . . . . . . . . . . . . . . . . . . 113

Page 5: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

Prologo

Programa: Nocoes e leis da Probabilidade; passeio aleatorio e movimento Browniano;processos de Markov e estacionarios; equacoes estocasticas e de Fokker-Planck; radiacaodo corpo negro e diversas aplicacoes.

Segue uma pequena lista de sugestoes de textos:E. W. Montroll e J. L. Lebowitz (Editores), Fluctation Phenomena, North-Holland

Personal Library 1987P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic Processes, Waveland

Press 1972S. R. S. Varadhan, Probability Theory, Courant Lecture Notes 7, American Mathemat-

ical Society 2001Domingos H. U. Marchetti, Aplicacoes da Analise Combinatoria a Mecanica Estatıstica,

25o Coloquio Brsileiro de Matematica, IMPA 2005Richard Durret, Probability: Theory and Examples, Duxbury Press 1991Nelson Wax (Editor), Selected Papers on Noise and Stochastic Processes, Dover 1954

(Pheonex editions series 2003)C. W. Gardiner, Handbook of Stochastic Methods: for Physics, Chemistry and Natural

Sciences, Springer, segunda edicao (sexta impressao) 2002Mark Kac, Statistical Independence in Probability, Analysis and Number Theory, The

Carus Mathematical Monograph 12, 1959

Page 6: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

6 Prologo

Page 7: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1

Estatıstica dos Dıgitos de Numeros Normais

Segundo Kac1, a formula do matematico frances do Sec. XVI, Viete,

sin x

x=

∞∏

k=1

cos(2−kx

), (1.1)

possui um conteudo estatıstico o qual pode ser revelado pela introducao de um conjuntode funcoes ortogonais. Para estabelecer esta conexao devemos recordar que as funcoesde quadrado integravel possuem propriedades semelhantes a vetores de um espaco Eu-clideano. Para uma revisao deste assunto, consulte notas do curso de Fısica–MatematicaII em http://gibbs.if.usp.br/˜marchett/fismat2.

Uma vez desvelada a estatıstica dos dıgitos de um numero normal, a sequencia dedıgitos, munida pela dinamica de deslocamento a esquerda, servira como um modelo es-tatıstico para distribuicao de moleculas de um gas contido em um recipiente com doiscompartimentos. Esclareceremos, por intermedio deste modelo, o aparente paradoxo daTeoria cinetica dos gases. O presente capıtulo e uma breve introducao de conceitos etecnicas que serao desenvolvidas em muito mais detalhes no decorrer do curso. Os con-ceitos de ergodicidade, tempo de permanencia e de retorno, envolvidos na argumentacaoem favor da Teoria cinetica, motivam o uso de modelos estocasticos para descrever certosaspectos da Fısica do contınuo (Termodinamica, Fluidodinamica e etc.).

1.1 Funcoes de Rademacher

Dado um numero real x ∈ [0, 1) e um inteiro q ≥ 2 existe uma unica representacao de xna base q dada pela expansao

x =

∞∑

k=1

εk

qk=ε1

q+ε2

q2+ · · · + εk

qk+ · · · (1.2)

1“Statistical Independence in Probability, Analysis and Number Theory”, The Carus Mathematical Monographs no 12.

Page 8: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

8 1. Estatıstica dos Dıgitos de Numeros Normais

onde os dıgitos εk, sao inteiros tais que 0 ≤ εk < q para k = 1, 2, . . ., e εk < q−1 para umainfinidade de k’s. Denotando o conjunto das sequencia de dıgitos com tais propriedadesDq, (1.2) define uma funcao X : Dq −→ [0, 1) tal que

x = X((εj)j≥1)

Se q = 10, (1.2) coincide com a representacao decimal

x = 0.ε1ε2 · · · εk · · · (1.3)

Vamos algumas vezes usar esta notacao para representar x na base q mesmo quandoq 6= 10.

Exceto quando mencionado, consideraremos a seguir q = 2. Neste caso, a expansao(1.2) estabelece uma correspondencia 1 para 1 entre um numero real x ∈ [0, 1] e umasequencia binaria

ε = (εj)j≥1 , εj ∈ 0, 1com uma infinidade de dıgitos εj ’s iguais a 0.

Observacao 1.1

1. Note que a segunda condicao, εj = 0 para uma infinidade de ındices, escolhe umaentre as duas possıveis representacoes

3

4=

1

2+

1

22+

0

23+

0

24+ · · ·

=1

2+

0

22+

1

23+

1

24+ · · ·

De fato, a condicao εj < q − 1 para uma infinidade de j’s, elimina qualquer am-biguidade. Note que, devido a condicao εj ≤ q − 1, a serie (1.2) converge

∞∑

k=1

εk

qk≤ (q − 1)

∞∑

k=1

1

qk= 1 .

Se ε = (εj)j≥1 e η = (ηj)j≥1 sao duas sequencias de dıgitos que diferem a partir deum dado ındice j∗ e representam um mesmo numero x, entao

0 = x− x =εj∗ − ηj∗

qj∗+

∞∑

k=j∗+1

εk − ηk

qk

implica (ηj∗ − εj∗ > 0)

1 ≤ ηj∗ − εj∗ =

∞∑

k=1

εj∗+k − ηj∗+k

qk≤ (q − 1)

∞∑

k=1

1

qk= 1

cuja unica solucao ηj∗ = εj∗ + 1, ηj = 0 e εj = q − 1 para j > j∗, contradiz acondicao εj < q − 1 para uma infinidade de j’s.

Page 9: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.1 Funcoes de Rademacher 9

2. Para que a representacao (1.2) seja unica e necessario que funcao X : Dq −→ [0, 1),que associa um unico numero real x a cada sequencia (εk)k≥1 de dıgitos em Dq, sejasobrejetiva. Mas isso segue do algoritmo

εj =[qjx]− q

[qj−1x

], j = 1, 2, . . .

onde [y] e a parte inteira do numero y.

3. O conjunto dos numeros racionais Q e contavel. Isto e, e possıvel estabelecer umacorrespondencia um–para–um entre os conjuntos Q e N. Nao e difıcil mostrar que eimpossıvel estabelecer tal correspondencia entre os numeros reais no intervalo [0, 1)e N. Apesar desta diferenca fundamental entre os racionais e os numeros reais, Q

e denso em R pois entre quaisquer dois elementos q1 < q2 de Q existe q ∈ Q comq1 < q < q2. Veremos ainda neste curso conjuntos que nao e denso em parte algumacuja cardinalidade e do contınuo.

Como a relacao (1.2) e valida nos dois sentidos (isto e, X e bijetiva), denotamos por(εj(x))j≥1 a sequencia de dıgitos εj ∈ 0, 1, j = 1, 2, . . ., estabelecida pela expansao donumero x. Note que esta colecao varia conforme x varia. Por exemplo,

ε1(x) =

0 se x ∈ [0, 1/2)1 se x ∈ [1/2, 1)

,

ε2(x) =

0 se x ∈ [0, 1/4) ∪ [1/2, 3/4)1 se x ∈ [1/4, 1/2) ∪ [3/4, 1)

e etc.

Definicao 1.2 Para cada k ∈ N, a k–esima funcoes de Rademacher e dada por

rk(x) = 1 − 2εk(x) , (1.4)

por exemplo,

r1(x) =

1 se x ∈ [0, 1/2)−1 se x ∈ [1/2, 1)

,

r2(x) =

1 se x ∈ [0, 1/4) ∪ [1/2, 3/4)−1 se x ∈ [1/4, 1/2) ∪ [3/4, 1)

e etc. Qualquer que seja n , rn(x) e constante igual a ±1 nos intervalos

In,j = [j/2n, (j + 1)/2n), (1.5)

j = 0, 1, . . . , 2n − 1, alternando o sinal quando x passa de um para o intervalo seguinte,com rn(0) = 1.

As funcoes de Rademacher satisfazem a seguinte importante propriedade.

Exercıcio 1.3 Demonstre as relacoes∫ 1

0

ri(x) rj(x) dx = δij . (1.6)

Page 10: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

10 1. Estatıstica dos Dıgitos de Numeros Normais

Introduzindo ao espaco L2[0, 1) de funcoes f : [0, 1) −→ R de quadrado Riemann–integravel um produto interno

(f, g) :=

∫ 1

0

f(x) g(x) dx ,

as funcoes de Rademacher R = rj(x)j≥1, em vista das relacoes (1.6), formam umconjunto ortonormal. Veremos mais adiante que este conjunto nao e completo. O sentidode completeza aqui e analogo ao de completeza no espaco Euclideano. Para formar umabase em Rn e necessario um conjunto de n vetores linearmente independentes ejn

j=1 equalquer vetor x = (x1, . . . , xn) ∈ Rn pode ser escrito como uma combinacao linear doselementos da base

x =n∑

j=1

cj ej

Se os vetores ej, j = 1, . . . , n, forem ortonormais, ei · ej = δij , entao os coeficientes daexpansao

cj = ej · x =n∑

i=1

ej,i xi (1.7)

satisfazem a relacaon∑

j=1

|cj |2 =n∑

j=1

x2j .

Se, por outro lado, esta relacao for satisfeita para todo x ∈ Rn, entao ej forma umabase ortonormal. Embora esta questao seja um pouco mais delicada para o espaco defuncoes L2[0, 1), segue de forma analoga

Proposicao 1.4 Para que um sistema ortonormal ϕj(x)j≥1 seja completo em L2[0, 1)e necessario e suficiente que a relacao de Parseval

∫ 1

0

|f(x)|2 dx =∞∑

j=1

|(ϕj, f)|2 (1.8)

seja satisfeita para todo f ∈ L2[0, 1).

Observacao 1.5

1. Uma definicao de completeza e a seguinte (veja, por exemplo, o livro de Djairo G. deFigueiredo, Analise de Fourier e equacoes diferenciais parciais, pag. 86): ϕj(x)j≥1

e completo em L2[0, 1) se e somente se (ϕj, g) = 0 para todo j ≥ 1 implica g(x) = 0em todos os pontos x de continuidade de g. Se f ∈ L2[0, 1) e uma funcao para aqual

Φn(x) =n∑

j=1

(ϕj , f) ϕj(x)

Page 11: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.1 Funcoes de Rademacher 11

converge em media quadratica, entao

limn→∞

‖Φn − f‖22 = lim

n→∞

∫ 1

0

|Φn(x) − f(x)|2 dx

= limn→∞

(∫ 1

0

|f(x)|2 dx−n∑

j=1

|(ϕj , f)|2)

= 0

e a identidade (1.8) e satisfeita. A assercao reversa e tambem verdadeira. Logo,

(ϕj, g) = 0 para todo j ≥ 1 implica, por Parseval,∫ 1

0|g(x)|2 dx = 0 que, por sua

vez, implica a completeza de ϕj(x)j≥1. Para uma prova da identidade de Parsevalem series de Fourier, veja pags. 84-86 do livro do Djairo (veja roteiro no ApendiceA ao final do Capıtulo).

2. As funcoes de Rademacher R = rj(x)j≥1 formam um conjunto incompleto pois,para cada n ∈ N,

rn+1(x) =1

2n/2

2n∑

k=1

χ(k)n (x)

e escrita como uma particular combinacao linear de funcoes, tambem ortogonais,de Haar, dadas por

χ(k)n (x) =

2n/2 sek − 1

2n< x <

k − 1/2

2n

−2n/2 sek − 1/2

2n< x <

k

2n

0 de outra forma

para n ∈ N, k ∈ 1, . . . , 2n com χ(0)0 ≡ 1.

1.1.1 Formula de Viete

De (1.2) com q = 2 e (1.4), temos

1 − 2x = 1 − 2∞∑

k=1

εk

2k

=

∞∑

j=1

1

2k(1 − 2εk)

=∞∑

k=1

1

2krk(x) .

Combinando∫ 1

0

exp iξ (1 − 2x) dx = eiξ 1

2iξ

(1 − e−2iξ

)=

sin ξ

ξ

com a expansao acima, obtemos

sin ξ

ξ=

∫ 1

0

∞∏

j=1

expiξ2−jrj(x)

dx (1.9)

Page 12: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

12 1. Estatıstica dos Dıgitos de Numeros Normais

Exercıcio 1.6 Utilize a identidade

sinα = 2 sinα

2cos

α

2

sucessivamente para obter

sin ξ = 2n sinξ

2ncos

ξ

2ncos

ξ

2n−1· · · cos

ξ

2.

Em seguida, use este resultado para demonstrar a formula de viete (1.1).

Exercıcio 1.7 Demonstre∫ 1

0

expiξ2−krk(x)

dx = cos

ξ

2k. (1.10)

Equacoes (1.1), (1.9) e (1.10), nos sugere a seguinte

Proposicao 1.8

∫ 1

0

∞∏

k=1

exp iξckrk(x) dx =

∞∏

k=1

∫ 1

0

exp iξckrk(x) dx . (1.11)

Proposicao 1.8 com ck = 2−k e a formula de Viete escrita em termos das funcoes ortog-onais de Rademacher. Esta formula sera utilizada a seguir para obter outras propriedadesdestas funcoes.

1.1.2 Interpretacao Probabilıstica

Faremos duas demonstracoes da Proposicao 1.8 sendo que a segunda emprega uma ter-minologia tecnica mais concisa e abstrata.

Inicialmente, notemos que a combinacao linear

ψ(x) =

n∑

k=1

ck rk(x)

e uma funcao constante em cada intervalo In,j dado por (1.5), de comprimento

|In,j| =1

2n.

Observe que os intervalos onde rk, k < n, assumem valores constante ±1 sao compatıveiscom os intervalos In,j e os contem.

Usando as expressoes (1.2) e (1.4) podemos estabelecer uma relacao um–para–um entreos ındices j do intervalo In,j e os vetores σ = (σ1, . . . , σn) de componentes σm ∈ −1, 1:

j

2n=

1

2

1 − σ1

2+

1

22

1 − σ2

2+ · · ·+ 1

2n

1 − σn

2(1.12)

Substituindo σ = (1, . . . , 1) em

j =1 − σ1

22n−1 +

1 − σ2

22n−2 + · · · + 1 − σn

2

Page 13: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.1 Funcoes de Rademacher 13

obtemos j = 0. Outros exemplos sao:

(1, . . . , 1, 1,−1) ⇐⇒ j = 1

(1, . . . , 1,−1, 1) ⇐⇒ j = 2

(1, . . . , 1,−1,−1) ⇐⇒ j = 3...

(−1, . . . ,−1,−1,−1) ⇐⇒ j = 2n−1 + · · · + 1 = 2n − 1

Exercıcio 1.9 Derive explicitamente a dependencia em j de σ = σ(j) dada pela ex-pressao (1.12).

Se x ∈ In,j, ψ(x) e uma constante igual a

ψ(x) = ψ(j/2n) =

n∑

k=1

ck σk = c · σ ,

onde usamos a notacao (1.7). Logo, para F : R −→ R, temos

∫ 1

0

F (ψ(x)) dx =2n−1∑

j=0

|In,j| F (ψ(j/2n))

=1

2n

σ∈−1,1n

F (c · σ) .

onde na segunda linha utilizamos a relacao j ⇐⇒ σ estabelecida em (1.12). SubstituindoF (ψ) = exp iξψ, temos

∫ 1

0

exp

n∑

k=1

ckrk(x)

dx =

1

2n

σ∈−1,1n

exp

n∑

k=1

ckσk

=n∏

k=1

1

2

σ∈−1,1exp iξckσ

=

n∏

k=1

cos (ξck)

=n∏

k=1

∫ 1

0

exp iξckrk(x) dx (1.13)

por (1.10). Concluımos a demonstracao da Proposicao 1.8 fazendo ck = 2−k tomando emseguida o limite n→ ∞.

2

Um Espaco de Probabilidade consiste de uma tripla (Ω,B, µ) aqui formada pelointervalo Ω = [0, 1), a σ–algebra de Borel B gerada pelos conjuntos da forma uniaodisjunta de um numero finito de subintervalos [a, b) de [0, 1) e a medida de Lebegue (oua medida de Borel) µ : B −→ R que atribui a cada intervalo o valor µ ([a, b)) = b− a.

Page 14: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

14 1. Estatıstica dos Dıgitos de Numeros Normais

Uma funcao

X : Ω −→ R

mensuravel, isto e, cuja imagem inversa de um conjunto de Borel A, X−1 (A) pertencea B, e denominada variavel aleatoria. Por esta definicao, r1(x), . . . , rn(x) formam umacolecao de variaveis aleatorias definidas no espaco ([0, 1),B, µ). Note que a imagem inversar−1k (A) da k–esima funcao de Rademacher e uma uniao disjunta de intervalos que, por

sua vez, esta contido em B.A probabilidade de uma variavel aleatoria X assumir um valor no intervalo I = [c, d) ⊂

R e a medida de Lebesgue do conjunto X−1(I) = x ∈ [0, 1) : c ≤ X(x) < d:

P (c ≤ X < d) = µ (x ∈ [0, 1) : c ≤ X(x) < d) =∣∣X−1(I)

∣∣ .

Como as funcoes de Rademacher rk(x) assumem apenas os valores ±1, a probabilidadede rk(x) = ±1 e dada por

P (rk = ±1) = µ (x ∈ [0, 1) : rk(x) = ±1)

=

∫ 1

0

1 ± rk(x)

2dx =

1

2. (1.14)

A formula de Viete (1.11) e satisfeita devido a seguinte propriedade das funcoes deRademacher. Considere o evento de rk(x) assumir o valor σk ∈ −1, 1 para cada k =1, . . . , n individualmente:

Ek = x ∈ [0, 1) : rk(x) = σk

=

2k−1−1⋃

j=0

Ik,2j+(1−σk)/2

e o evento de rk(x) assumir o valor σk para k = 1, . . . , n conjuntamente:

E(n) = x ∈ [0, 1) : rk(x) = σk, k = 1, . . . , n

=

n⋂

k=1

Ek .

Segue da definicao de rk, que a probabilidade destes eventos satisfaz a relacao

P(E(n)

)= µ (x ∈ [0, 1) : rk(x) = σk, k = 1, . . . , n)

=

n∏

k=1

µ (x ∈ [0, 1) : rk(x) = σk)

=

n∏

k=1

P (Ek) =1

2n. (1.15)

No caso de n = 3 verificamos por inspecao que a medida de Lebesgue do conjuntodos x’s tais que r1(x) = +1, r2(x) = −1 e r3(x) = −1 e o comprimento do intervalo

Page 15: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.1 Funcoes de Rademacher 15

I3,3 = [3/8, 1/2):

|I3,3| =1

8= |I1,0| · |I2,1 ∪ I2,3| · |I3,1 ∪ I3,3 ∪ I3,5 ∪ I3,7|

=1

2· 1

2· 1

2.

Deixamos como exercıcio a verificacao do caso geral.

Exercıcio 1.10 Demonstre (1.15).

Dizemos que as variaveis r1, . . . , rn satisfazendo (1.15) sao variaveis aleatorias inde-pendentes. Utilizando ainda a terminologia da Teoria de Probabilidade, a integral naprimeira linha de (1.13) e denominada esperanca da funcao integrada

E exp

n∑

k=1

ckrk

=

∫ 1

0

exp

n∑

k=1

ckrk(x)

dx .

Estamos prontos para provar a Proposicao 1.8 usando (1.15). Temos

E exp

n∑

k=1

ckrk

=

σ∈−1,1n

exp

n∑

k=1

ckσk

µ (x : rk(x) = σk, k = 1, . . . , n)

=∑

σ∈−1,1n

exp

n∑

k=1

ckσk

n∏

k=1

µ (x : rk(x) = σk)

=n∏

k=1

σ∈−1,1exp iξckσµ (x : rk(x) = σ)

=

n∏

k=1

E exp iξckrk

2

1.1.3 Lei dos Grandes Numeros

As funcoes de Rademacher permitem estabelecer um importante resultado da Teoria dosNumeros devido a Borel conhecido por lei dos grandes numeros.

Teorema 1.11 Para todo x ∈ [0, 1), com excessao de um conjunto de medida de Lebesguenula,

limn→∞

r1(x) + · · ·+ rn(x)

n= 0 . (1.16)

Observacao 1.12 Teorema 1.11 e um caso particular da lei dos grandes numeros, cujoenunciado e o seguinte: A soma

Sn = X1 + · · ·+Xn

Page 16: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

16 1. Estatıstica dos Dıgitos de Numeros Normais

de n variaveis aleatoria X1, . . . , Xn em (Ω,B,µ), independentes e igualmente distribuıdas,dividida por n converge quase certamente,

Sn

n−→ EX1

no limite n→ ∞, para media de X1. Na equacao (1.16), as funcoes de Rademacher temmesma distribuicao (1.14) e media

Er1 =

∫ 1

0

r1(x) dx = 1 · P (r1 = 1) + (−1) · P (r1 = −1) = 0 . (1.17)

Observacao 1.13 Os termos “com excessao de um conjunto de medida nula”, “quasecertamente” e “com probabilidade 1” sao equivalentes. A medida de probabilidade emquestao e a medida de Lebesgue em [0, 1), que atribui medida nula a todos os conjuntoscontaveis. Ja observamos que os racionais sao contaveis e qualquer uniao contavel deconjuntos contaveis de [0, 1) e contavel e, portanto, tem medida de Lebesgue nula. Hatambem conjuntos que apesar de nao ser contavel possue medida de Lebesgue nula. Teo-rema 1.11 nao exclui a possibilidade do limite (1.16) nao convergir para 0. No entanto,se excluirmos o conjunto N de todos os pontos x’s para os quais (1.16) nao e satisfeita,a medida de Lebesgue µ ([0, 1)\N) = 1.

A demonstracao do Teorema 1.11 pode ser evitada em uma primeira leitura. Indicare-mos por (∗) as demonstracoes deste e de outros resultados que sao facultativos, nestemomento, pela falta de contato com os topicos a serem desenvolvidos no curso. A provasegue no entanto o resultado pois e por intermedio dela que o enunciado torna–se maistransparente.

Prova do Teorema 1.11.(∗) Seja fn(x)n≥1 uma sequencia de funcoes fn : [0, 1] −→ R

integraveis nao negativas. Se a serie numerica

∞∑

n=1

∫ 1

0

fn(x) dx (1.18)

convergir, entao a serie

∞∑

n=1

fn(x) converge para todo x ∈ [0, 1], com excessao de um

conjunto de medida de Lebesgue nula.Escolhemos a seguinte sequencia

fn(x) =

(r1(x) + · · ·+ rn(x)

n

)4

,

n = 1, 2, . . ..

Exercıcio 1.14 Utilize a formula multinomial

(r1 + · · · + rn)4 =∑

k1,...,kn:k1+···+kn=4

4!

k1! · · · kn!rk11 · · · rkn

n ,

Page 17: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.1 Funcoes de Rademacher 17

com a soma percorrendo os numeros inteiros nao–negativos k1, . . . , kn cuja soma e 4, parademonstrar ∫ 1

0

fn(x) dx =1

n4

(n+

4!

2!2!

(n

2

)). (1.19)

Note que r2j ≡ 1 e na expansao

(r1 + · · ·+ rn)4 =

n∑

j=1

r4j +

4!

2!2!

i<j

r2i r

2j + multinomios ımpares

somente os termos pares contribuem para experanca devido a (1.17). Substituindo(n

2

)=

n!

(n− 2)!2!=n(n− 1)

2

em1

n2

(n+

4!

2!2!

(n

2

))=

1

n2

(3n2 − 2n

)≤ 3 ,

temos, em vista de (1.19),

∞∑

n=1

∫ 1

0

fn(x) dx ≤ 3∞∑

n=1

1

n2=π2

2<∞ .

Por um teorema de integracao por Lebesgue, para quase todo x

∞∑

n=1

(r1(x) + · · ·+ rn(x)

n

)4

<∞

e, por ser somavel, o somando deve ir para zero:

r1(x) + · · · + rn(x)

n−→ 0 (1.20)

quando n→ ∞, concluindo a demonstracao.2

Interpretacao de (1.16). Seja N o conjunto nao especificado de medida de Lebesguenula que e necessario ser excluıdo e seja A±(x, n) ⊂ 1, . . . , n o conjunto de ındices j’spara os quais rj(x) = ±1. Os conjuntos A+ e A− sao disjuntos (A+ ∩ A− = ∅) e paracada x ∈ [0, 1), A+, A− e uma particao de 1, . . . , n determinada pelos valores dasfuncoes de Rademacher no ponto. A conclusao (1.20) e verdadeira se para x ∈ [0, 1)\Ne n suficientemente grande, os conjuntos A+(x, n) e A−(x, n) forem da mesma ordem degrandeza: ∣∣A±∣∣ =

n

2+ o (n) (1.21)

onde o (n) significa uma funcao que cresce mais lentamente que n e |A| indica a cardinali-dade de A. O numero real cuja expansao (binaria) possue 0’s e 1’s em igual ”proporcao”edenominado numero normal. O Teorema de Borel afirma que os numeros normais em[0, 1) tem medida de Lebesgue 1, isto e, ocorrem com probabilidade 1 se forem escolhidosao acaso.

Page 18: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

18 1. Estatıstica dos Dıgitos de Numeros Normais

1.2 Numeros Normais

Introduziremos mais precisamente a definicao dos numeros normais e daremos, em se-guida, uma caracterizacao destes em termos de sequencias numericas uniformemente dis-tribuıdas.

Seja x ∈ [0, 1) e considere a expansao (1.2) de x na base q, q ≥ 2. Denotamos porNq(α, n; x) o numero de ındices j’s em 1, . . . , n tais que εj(x) = α na sequencia(εj(x))j≥1. De maneira mais geral, dado um bloco Bk = α1α2 · · ·αk de dıgitos αl ∈1, . . . , q − 1 de tamanho k, denotamos por Nq (Bk, n; x) o numero de ocorrencias dobloco Bk na cadeia de dıgitos ε1ε2 · · · εn determinada pela expansao

x = 0.ε1ε2 · · · εn · · ·

Definicao 1.15 O numero x ∈ [0, 1) e dito ser simplesmente normal para a base qse

limn→∞

Nq(α, n; x)

n=

1

q

para todo α ∈ 1, . . . , q − 1.O numero x e normal para a base q se

limn→∞

Nq(Bk, n; x)

n=

1

qk

para todo k ≥ 1 e todo bloco Bk.

Claramente, um numero x normal para a base q e simplesmente normal para a mesmabase. A afirmacao reversa nao e verdadeira em geral. Por exemplo, o numero dado pelaexpansao binaria

0.01010101 · · ·e simplesmente normal para a base 2 mas nao e normal pois o bloco de dıgitos 11 detamanho 2 nao ocorre na expansao.

E muito mais facil demonstrar que a grande maioria dos numeros reais sao normais doque exibir um deles. O exemplo mais simples de um numero normal x ∈ [0, 1) escrito nabase q = 10 e a constante de Champernowne

0.123456789101112131415161718192021 · · ·

no qual concatenamos, apos a vırgula, todos os inteiros positivos em sucessao. Nao e umatarefa simples demonstrar que este numero e normal. Para mais exemplos e referencias,consulte o site http://mathworld.wolfram.com/ChampernowneConstant.html.

O objetivo da presente secao e demonstrar o seguinte caracterizacao: x e numero nor-mal para a base q se e somente se (qnx)n≥1 for uma sequencia uniformemente dis-tribuıda modulo 1.

1.2.1 Distribuicao Uniforme Modulo 1

As seguintes Definicoes e Teoremas, devido a H. Weyl, ilustram o entrelacamento dealguns topicos da Teoria dos Numeros, Teoria Ergodica e Analise.

Page 19: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.2 Numeros Normais 19

Definicao 1.16 Dado uma sequencia de numeros reais ω = (xk)k≥1 e um subconjuntoA de [0, 1), seja N (A, n;ω) o numero de termos xk, 1 ≤ k ≤ n, cuja parte fracionariapertence a A:

xk = xk − [xk] ∈ A

(como anteriormente, [x] denota a parte inteira de x ∈ R).Dizemos que ω = (xk)k≥1 e uniformemente distribuıda modulo 1 (abreviado por

u.d. mod 1) se

limn→∞

N ([a, b), n;ω)

n= b− a (1.22)

para cada par de numeros reais, a e b, tais que 0 ≤ a < b ≤ 1.

Por intermedio da funcao caracterıstica do conjunto A:

χA(x) =

1 se x ∈ A0 se x /∈ A

a equacao (1.22) pode ser escrita como

limn→∞

1

n

n∑

k=1

χ[a,b) (xk) =

∫ 1

0

χ[a,b) (x) dx

Esta observacao, juntamente com a construcao da integral de uma funcao (veja, porexemplo, o livro Analise de Djairo Figueiredo) leva–nos ao seguinte criterio

Teorema 1.17 A condicao necessaria e suficiente para que ω = (xk)k≥1 seja u.d. mod 1e que

limn→∞

1

n

n∑

k=1

f(xk) =

∫ 1

0

f(x) dx

seja satisfeita para toda funcao f Riemann integravel, periodica de perıodo 1.

Teorema 1.18 (Criterio de Weyl) A sequencia ω = (xk)k≥1 e u.d. mod 1 se e so-mente se

limn→∞

1

n

n∑

k=1

exp 2πihxk = 0 (1.23)

para todo inteiro h 6= 0.

Prova.(∗) (⇒) Aplicando o Teorema anterior para a funcao f(x) = exp 2πihx, temosque o lado esquerdo de (1.23) e igual a

∫ 1

0

exp 2πihx dx =1

2πih(exp 2πih − 1) = 0 .

Para a implicacao contraria (⇐), dado ε > 0, pelo Teorema da aproximacao de Weier-strass, existe um polinomio

P (z) = c0 + c1z + · · ·+ ckzk = c0 + P1(z)

Page 20: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

20 1. Estatıstica dos Dıgitos de Numeros Normais

com P1(0) = 0, tal que

supx∈[0,1)

∣∣P(e2πix

)− f(x)

∣∣ < ε

3. (1.24)

Usando a desigualdade triangular, temos∣∣∣∣∣1

n

n∑

k=1

f(xk) −∫ 1

0

f(x) dx

∣∣∣∣∣ ≤∣∣∣∣∫ 1

0

(P(e2πix

)− f(x)

)dx

∣∣∣∣

+

∣∣∣∣∣1

n

n∑

k=1

P(e2πixk

)−∫ 1

0

P(e2πix

)dx

∣∣∣∣∣

+

∣∣∣∣∣1

n

n∑

k=1

(f(xk) − P

(e2πixk

))∣∣∣∣∣

A primeira e terceira linha e menor que ε/3 devido a (1.24). Na segunda linha, note que∫ 1

0

P1

(e2πix

)dx = 0 e usando (1.23), temos

1

n

n∑

k=1

P1

(e2πixk

)<ε

3

para n suficientemente grande. Note tambem nesta linha que o termo constante de P (z) =c0 + P1(z) se cancela. Como ε e arbitrario, conclui–se a demonstracao do teorema.

2

Ilustraremos a seguir o Criterio de Weyl com alguns exemplos.

Teorema 1.19 A sequencia ω = (xk)k≥1 com xk = kx e u.d. mod 1 para todo x ∈ [0, 1)irracional.

Prova. Explicitamente, temos∣∣∣∣∣1

n

n∑

k=1

exp 2πihkx∣∣∣∣∣ =

∣∣e2πihnx − 1∣∣

n |e2πihx − 1| ≤1

n sin (πhx)

para todo inteiro h 6= 0. Se x for irracional, sin (πhx) 6= 0 e o limite da expressao acimaconverge para 0. (kx)k≥1 e u.d. mod 1 pelo Teorema 1.18.

2

O conjunto dos numeros racionais e contavel e, como ja dito, tem medida de Lebesguenula. A seguir daremos uma prova alternativa do Teorema 1.19 na qual nao e especificadoo conjunto excepcional.Prova do Teorema 1.19.(∗) Para quase todo x ∈ [0, 1). Se

S(x, n) =1

n

n∑

k=1

exp 2πihkx (1.25)

temos

|S(x, n)|2 = S(x, n)S(x, n) =1

n2

n∑

k,l=1

exp 2πih(k − l)x

Page 21: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.2 Numeros Normais 21

e pela ortonormalidade das funcoes exp 2πikxk≥0

∫ 1

0

|S(x, n)|2 dx =1

n2

n∑

k,l=1

∫ 1

0

exp 2πih(k − l)x dx

=1

n2

n∑

k,l=1

δkl =1

n.

Devido ao Lema de Fatou

∞∑

m=1

∫ 1

0

∣∣S(x,m2)∣∣2 dx =

∞∑

m=1

1

m2=π2

6<∞

implica em∞∑

m=1

∣∣S(x,m2)∣∣2 < ∞ para todo x ∈ [0, 1) com excessao de um conjunto de

medida de Lebesgue nula. Este resultado por sua vez implica em

limm→∞

∣∣S(x,m2)∣∣ = 0

para h ∈ Z\ 0 e quase todo x.Dado n, existe m tal que

m2 < n ≤ (m+ 1)2 .

Note que m = m(n) → ∞ quando n→ ∞ e

(m+ 1)2 − (m2 + 1) = 2m .

Segue

|S(x, n)| ≤∣∣S(x,m2)

∣∣+ 1

n

∣∣∣∣∣

n∑

k=m2+1

exp 2πihkx∣∣∣∣∣

≤∣∣S(x,m2)

∣∣+ 1

n

(m+1)2∑

k=m2+1

|exp 2πihkx|

≤∣∣S(x,m2)

∣∣+ 2m

n≤∣∣S(x,m2)

∣∣+ 2√n

e, portanto, limn→∞

|S(x, n)| = 0.

Dado h ∈ Z\ 0, considere o conjunto Nh ⊂ [0, 1) de valores de x para os quais olimite acima nao converge para 0. Devido a aditividade contavel, µ(Nh) = 0 para cada h

implica que N =⋃

h⊂Z\0Nh tem medida de Lebesgue nula tambem. Pelo criterio de Weyl,

(kx)k≥1 e u.d. mod 1 para todo x ∈ [0, 1) com excessao de um conjunto N de medida deLebesgue nula.

2

Page 22: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

22 1. Estatıstica dos Dıgitos de Numeros Normais

Teorema 1.20 A sequencia ω = (xk)k≥1 com xk = qkx, q um inteiro ≥ 2, e u.d. mod 1para quase todo x ∈ [0, 1).

Prova. Seja S(x, n) como na equacao (1.25) com kx substituıdo por qkx. Segue de

∫ 1

0

exp2πih(qk − ql)x

dx = 0

se k 6= l, que a demonstracao anterior pode ser repetida passo a passo. De onde se concluique ω =

(qkx)

k≥1e u.d. mod 1 para todo x ∈ [0, 1) com excessao de um conjunto N de

medida de Lebesgue nula.2

Observacao 1.21 Pode-se igualmente mostrar, por um teorema geral metrico, que asequencia ω =

(x−k)

k≥1e u.d. mod 1 para quase todo x ∈ [0, 1). Os numeros α =

1/x para os quais ω =(αk)

k≥1nao e u.d. mod 1 sao denominados numeros de Pisot-

Vijayaraghavan (P.V.). Ate o presente nao se conhece se as sequencias(ek)

k≥1,(πk)

k≥1

ou mesmo((3/2)k

)k≥1

sao u.d. mod 1.

Enunciaremos agora o resultado principal.

Teorema 1.22 Um numero x ∈ [0, 1) e normal para base q se, e somente se, a sequenciaω =

(qkx)

k≥1for u.d. mod 1.

Prova.(∗) Considere a expansao (1.2) de x na base q e seja Bk = α1α2 · · ·αk um blocode dıgitos αl ∈ 1, . . . , q − 1 de tamanho k. Para m ≥ 1, o bloco εmεm+1 · · · εm+k−1 eidentico a Bk se e somente se

x =

m−1∑

j=1

εj

qj+α1

qm+ · · · + αk

qm+k−1+

∞∑

j=m+k

εj

qj. (1.26)

Note que

y := qm−1m−1∑

j=1

εj

qj

e um inteiro nao negativo e, portanto, sua parte fracionaria e nula: y = y − [y] = 0.Logo, a parte fracionaria de qm−1x com x dada por (1.26) e

qm−1x

=α1q

k−1 + α2qk−2 + · · ·+ αk

qk+

∞∑

j=k+1

εj+m−1

qj

Como

0 ≤∞∑

j=k+1

εj+m−1

qj<

1

qk(1.27)

segue que

qm−1x

∈[α1q

k−1 + · · · + αk

qk,α1q

k−1 + · · · + αk + 1

qk

):= I(Bk) (1.28)

Page 23: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.2 Numeros Normais 23

e a condicao necessaria e suficiente para que o bloco εmεm+1 · · · εm+k−1 seja identico aBk.

Concluimos desta analise que

Nq (Bk, n; x) = N (I(Bk), n− k + 1;ω) .

Vamos provar a implicacao (⇐). Se ω e u.d. mod 1, entao

limn→∞

Nq (Bk, n; x)

n= lim

n→∞

N (I(Bk), n− k + 1;ω)

n− k + 1

n− k + 1

n= |I(Bk)| =

1

qk

e, consequentemente, x e normal para a base q. Para a implicacao contraria (=⇒), se xe normal para a base q, entao

limn→∞

N (I(Bk), n;ω)

n= lim

n→∞

Nq (Bk, n+ k − 1; x)

n+ k − 1

n+ k − 1

n=

1

qk= |I(Bk)|

e satisfeito para todos intervalos semi–abertos da forma I(Bk) para algum Bk, isto e,intervalos cujas extremidades sao racionais da forma p/qk para p, k inteiros, k ≥ 1.Como o conjunto

p/qk

dos racionais com esta forma e denso em [0, 1), este resultado

se estende para todo intervalo [a, b) ∈ [0, 1), concluindo a demonstracao do teorema.2

1.2.2 Interpretacao Dinamica

A sequencia formada pela parte fracionariaqkx, k ∈ N (1.29)

de ω =(qkx)

k≥1pode ser obtida pela iteracao sucessiva do mapa Sq : [0, 1) −→ [0, 1)

dado pory′ = Sq (y) = qy . (1.30)

Se Skq = Sq · · · Sq︸ ︷︷ ︸

k termos

denota a k–esima composicao do mapa Sq, a sequencia

=(Sk

q (x))

k∈N(1.31)

descreve uma orbita (ou trajetoria) em [0, 1) a partir de x. A aplicacao sucessiva de Sq

define um sistema dinamico cujo fluxo e formado pela colecao das orbitas (1.31) quandox varia no intervalo [0, 1).

Seja x e εkk≥1 o par obtido pela relacao um–para–um (1.2) e seja Eq o conjuntoformado pelos vetores ε = (ε1, ε2, ε3, . . .) determinados por esta relacao para todo x ∈[0, 1). A acao de Sq em [0, 1) induz uma transformacao linear T sobre Eq:

ε′ = Tε = (ε2, ε3, . . .)

Para ver isso, note que

qx = q∞∑

k=1

εk

qk= ε1 +

∞∑

j=1

εj+1

qj

Page 24: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

24 1. Estatıstica dos Dıgitos de Numeros Normais

onde εk ∈ 0, 1, . . . , q − 1, para todo k ≥ 1. Portanto,

Sqx = qx =∞∑

j=1

εj+1

qj

associa, por intermedio de (1.2), Sqx a ε′ = (ε2, ε3, . . .) = Tε. Note ainda que

qkx

=

qk−1ε1 + · · ·+ εk +

∞∑

j=1

εj+k

qj

=

∞∑

j=1

εj+k

qj= Sk

q (x)

e isso demonstra que as duas sequencias (1.29) e (1.31) coincidem e tambem estabelece arelacao entre as dinamicas geradas pela acao de Sk

q e T k em [0, 1) e Eq, respectivamente.Visto que as sequencias determinam o fluxo desta dinamica, deve ser possıvel iden-

tificar no mapa Sq a propriedade responsavel pela distribuicao uniforme, modulo 1, deω =

(qkx)

k≥1para quase todo x ∈ [0, 1). Introduzimos para isso as seguintes definicoes.

Definicao 1.23 Seja (Ω,B, µ) um espaco de probabilidade e S : Ω −→ Ω uma trans-formacao mensuravel. Dizemos que S preserva a medida ou, equivalentemente, µ e umamedida invariante, se para qualquer A ∈ B, temos

µ(S−1(A)

)= µ (A) . (1.32)

Uma transformacao S e nao–singular se preserva os conjuntos de medida nula:

µ(S−1(A)

)= 0 =⇒ µ(A) = 0 .

Uma transformacao que preserva a medida e claramente nao–singular. De acordo com estadefinicao, uma transformacao S nao–singular nao e necessariamente inversıvel porem, seS for inversıvel, S e nao–singular. De um modo geral, o conjunto A para o qual (1.32) esatisfeita e denominado conjunto invariante, mais precisamente, A e invariante se, amenos de um conjunto de medida de Lebesgue nula, S−1 (A) = A.

Definicao 1.24 Seja (Ω,B, µ) um espaco de probabilidade e S : Ω −→ Ω uma trans-formacao nao–singular. S e ergodica se para cada conjunto invariante A ∈ B temosµ(A) = 0 ou µ(Ω\A) = 0.

Enunciaremos a seguir um resultado conhecido por teorema ergodico de Birkhoff.

Teorema 1.25 Seja (Ω,B, µ) um espaco de probabilidade e S : Ω −→ Ω uma trans-formacao ergodica que preserva a medida µ. Entao, com excecao de um conjunto N demedida nula,

limn→∞

1

n

n∑

k=1

f(Sk(x0)) =

Ω

f(x) dµ(x) (1.33)

para toda funcao integravel f : Ω −→ R e x0 ∈ Ω\N .

Page 25: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.2 Numeros Normais 25

Prova.(∗) Por simplicidade, considere f = χA a funcao caracterıstica do conjunto A ⊂ Ωe denote por f(x0) o limite do lado esquerdo da equacao2. Entao, em vista de χA ∈ 0, 1e de Sq ser nao–singular, f(x0) e uma funcao mensuravel limitada, 0 ≤ f(x0) ≤ 1,satisfazendo

f(S(x0)) = f(x0)

para quase todo x0 ∈ Ω.Note que o ultimo termo do lado direito de

1

n

n∑

k=1

f(Sk(x0)) =1

n

(f(S(x0)) − f(Sn+1(x0))

)+

1

n

n∑

k=1

f(Sk(S(x0)))

converge para f(S(x0)) e, consequentemente, o conjunto

Hα =x0 ∈ Ω : f(x0) < α

com α ∈ [0, 1), e invariante: para quase todo y ∈ S−1 (Hα),

f(S(y)) = f(y) < α

e y ∈ Hα.A invariancia de Hα juntamente com S ser ergodica implica que, para cada α ∈ [0, 1),

µ(Hα) = 0 ou µ(Hα) = 1. Logo f(x0) e uma funcao constante.Para determinar o valor da constante usaremos o teorema da convergencia limitada

(veja notas de aula de Fismat 3). Como o limite do lado esquerdo de (1.33) e uma funcaoconstante de x0, temos

limn→∞

1

n

n∑

k=1

f(Sk(x0)) = limn→∞

1

n

n∑

k=1

Ω

f(Sk(x0))dµ(x0)

= limn→∞

1

n

n∑

k=1

Ω

f(x0)dµ(x0)

=

Ω

f(x0)dµ(x0) = µ(A)

onde usamos na segunda e terceira linhas que S preserva a medida µ e f = χA, concluindoa prova do Teorema.

2

Considere agora a transformacao Sq dada por (1.30) juntamente com o espaco deprobabilidade ([0, 1),B, µ) introduzido na Subsecao 1.1.2 onde µ e a medida de Lebesgue.Definicao (1.30) e Teoremas 1.17, 1.20 quando comparados ao Teorema 1.25 leva–nos aconcluir que Sq e ergodica. Note que a medida de Lebesgue e invariante, pois

S−1q ([a, b)) =

[a

q,b

q

)∪[a+ 1

q,b+ 1

q

)∪ · · · ∪

[a+ q − 1

q,b+ q − 1

q

)

2A existencia do limite f(x0) e aqui assumida. Veja Kateznelson e Weiss, “A simple proof of some ergodic theorems”,Isr. Journ. Math. 42, 291-296 (1982), para uma demonstracao simples, porem nao elementar.

Page 26: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

26 1. Estatıstica dos Dıgitos de Numeros Normais

e

µ(S−1

q ([a, b)))

= qµ

([a

q,b

q

))= q

b− a

q= b− a = µ ([a, b))

Exercıcio 1.26 Plote a funcao Sq e verifique que a imagem inversa S−1q ([a, b)) do inter-

valo [a, b) e a uniao disjunta de q intervalos de igual comprimento, contraıdos pelo fator1/q.

Claramente os conjuntos ∅ e [0, 1) sao invariantes por Sq e tem, respectivamente, medida

0 e 1. E difıcil, no entanto, dizer se ha algum conjunto E invariante de medida µ (E) 6= 0, 1.Assim, verificar se Sq e ergodica pela definicao nao e pratico. As definicoes e resultadosa seguir podem ser evitados em uma primeira leitura. No paragrafo logo a seguir aoTeorema 1.28 concluımos que Sq e, de fato, uma transformacao nao–singular ergodicapor um criterio equivalente a definicao de ergodicidade.

Para isso, considere no espaco de funcoes L2[0, 1) a transformacao de Koopman(∗)

U : L2[0, 1) −→ L2[0, 1),

Uf(x) = (f Sq) (x) ≡ f (Sq(x)) .

Como a medida de Lebesgue e invariante, segue que Uq e unitario:

(Uf, Ug) =

∫ 1

0

f (Sq(x)) g (Sq(x)) dx

=

∫ 1

0

f (y) g(y) dS−1q (y)

=

∫ 1

0

f (y) g(y) dy = (f, g) .

Mais interessante ainda, U esta bem definida no espaco das funcoes limitadas: U :L∞[0, 1) −→ L∞[0, 1). Note que

f(x) ≤ ‖f‖∞ := esssupx∈[0,1) |f(x)|

para quase todo x implica (Uf) (x) = f(Sq(x)) ≤ ‖f‖∞ para quase todo x. Neste espaco,o operador adjunto P

(Uf, g) = (f, Pg) =

∫ 1

0

f (y) g(S−1q (y)) dy (1.34)

para todo f ∈ L∞[0, 1) e g : [0, 1) −→ [0, 1) integravel, define o operador de Perron–Frobenius associado a Sq. Fazendo f = χA, com A ∈ B, obtemos por esta equacao umaforma mais conhecida ∫

A

(Pg)(y) dy =

S−1q (A)

g(y) dy . (1.35)

Para se calcular explicitamente este operador, tomamos A = [0, x). Segue do Exercıcio1.26 e (1.35),

S−1q ([0, x)) =

q−1⋃

j=0

[j

q,j + x

q

)

Page 27: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.2 Numeros Normais 27

e ∫ x

0

(Pg)(y) dy =

q−1∑

j=0

∫ (j+x)/q

j/q

g(y) dy =

q−1∑

j=0

∫ x/q

0

g(z + j/q) dz

devido a transformacao de variavel y = z + j/q. Finalmente, pelo teorema fundamentaldo calculo,

(Pg)(x) =d

dx

∫ x

0

(Pg)(y) dy

=

q−1∑

j=0

d

dx

∫ x/q

0

g(z + j/q) dz

=1

q

q−1∑

j=0

g(x+ j

q) . (1.36)

Note que a funcao constante g = χ[0,1) e um ponto fixo deste operador

(Pχ[0,1)

)(x) =

1

q

q−1∑

j=0

χ[0,1)(x+ j

q) = χ[0,1)(x)

e este fato e importante para determinar a ergodicidade de Sq.Os seguintes resultados sao importantes para essa finalidade.

Proposicao 1.27 Seja (Ω,B, µ) um espaco de probabilidade, S : Ω −→ Ω uma trans-formacao nao–singular e P o operador de Perron–Frobenius associado a S. Se g for umafuncao nao negativa integravel entao a medida

µg(A) =

A

g(x) dx

e invariante se e somente se Pg = g. Em particular, a medida de Lebesgue µ e invariantese e somente se PχΩ = χΩ.

Prova. Isso segue imediatamente da definicoes de medida invariante (1.32), µg(A) =µg(S

−1(A)), e operador de Perron–Frobenius (1.35):

A

g(x) dx =

S−1(A)

g(x) dx =

A

(Pg)(y) dy .

2

Teorema 1.28 Seja (Ω,B, µ) um espaco de probabilidade e S : Ω −→ Ω uma trans-formacao nao–singular. S e ergodica se para cada funcao mensuravel f : Ω −→ R,(Uf) (x) = f(x) para quase todo x implica f(x) e constante para quase todo x.

A demonstracao deste teorema e similar a do Teorema 1.25 e nao sera repetida aqui.Teorema 1.28 e equivalente a afirmacao que 1 e um autovalor simples (de multiplicidade1) de U . Retornando ao mapa (1.30), podemos agora verificar a ergodicidade de Sq. Vimos

Page 28: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

28 1. Estatıstica dos Dıgitos de Numeros Normais

que g = χ[0,1) e um ponto fixo de P e segue de (1.34) com f = g = χ[0,1) que para quasetodo x (

Uχ[0,1)

)(x) = χ[0,1)(x) .

Em outras palavras, χ[0,1) e a autofuncao de U associada ao autovalor λ = 1. Logo Sq eergodica.

A ergodicidade de Sq pode tambem ser determinada diretamente da equacao (1.36).Considere g : [0, 1) −→ R Riemann integravel nao negativa. Iterando a equacao (1.36) nvezes, temos

(P ng)(x) =1

qn

qn−1∑

j=0

g(x+ j

qn) (1.37)

que converge, quando n→ ∞, para

limn→∞

(P ng)(x) =

∫ 1

0

g(y) dy

uniformemente em x ∈ [0, 1).

Exercıcio 1.29 Demonstre (1.37) por inducao.

S e dita ser uma transformacao exata se o operador de Perron–Frobenius associado fortal que P ng converge uniformemente para funcao constante. Esta propriedade implicaque S e ergodica porem a recıproca nao e verdadeira. A afirmacao anterior implica que atransformacao Sq, alem de ergodica, e exata.

1.2.3 Paradoxos da Teoria Cinetica dos Gases

A teoria cinetica dos gases fornece explicacoes microscopica a conceitos e princıpiosbasicos da Termodinamica. Muito antes da teoria atomica ser concebida, as seguinteshipoteses da teoria cinetica dos gases ja haviam sido formuladas no Sec. XVII porGassendi, Hooke e D. Bernoulli: (i) O gas e constituıdo por um grande numero de”moleculas”identicas; (ii) O tamanho de uma molecula em um gas e desprezıvel com-parado com a distancia que as separam; (iii) As moleculas estao em movimento con-stante, em todas as direcoes; (iv) As forcas de interacao entre as moleculas sao de curtoalcance, atuando somente durante as colisoes; e, finalmente, (v) tanto as colisoes entreas moleculas quanto as colisoes entre elas e as paredes do recipiente, sao perfeitamenteelasticas.

A teoria cinetica dos gases, juntamente com os princıpios da mecanica classica, conval-ida uma variedade de leis (Boyle, Avogadro, Graham e etc...) empıricas da termodinamica,fornece a equacao de estado de gases perfeitos e, com as devidas correcoes nas hipoteses, aequacao de estado para gases reais tambem (veja Caps. 11 e 12 de H. Moyses Nussenzveig,Curso de Fısica Basica, vol. 2).

Diante da concordancia com dados experimentais, parece–nos razoavel que o movi-mento das moleculas de um gas seja regido pelas leis da mecanica que, por sua vez, saoreversıveis no tempo. Sob esta hipotese, poder–se–ia em princıpio fazer com que o gasretornasse a uma configuracao inicial muito especial revertendo–se a seta do tempo.

Page 29: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.2 Numeros Normais 29

A entropia de um gas em equilıbrio e, em contraposicao, uma funcao nao–decrescentedo tempo. De acordo com a segunda lei da Temodinamica, se removermos a divisoria entredois compartimentos, um ocupado pelo gas e o outro vazio, existe um sentido preferencialdo tempo que leva o gas a ocupar todo o espaco disponıvel.

Em 1876 Loschmidt argumentou que esta profunda contradicao entre as leis da meca-nica e as leis da termodinamica, que nos parece ser intransponıvel, inviabiliza a fundacaoda teoria cinetica dos gases como proposta por Maxwell e Boltzmann.

Um empecilho a Teoria Cinetica mais serio ainda foi levantado por Zermelo evocandoum Teorema devido a Poincare sobre sistemas dinamicos conservativos. Sob condicoesgerais, e nao muito restritivas, quase toda condicao inicial ao sistema dinamico estasujeita a recorrer, isto e, retornar a uma vizinhanca de onde partiu, com uma precisaotao acurada quanto se queira. Novamente, este resultado se encontra em desacordo como comportamento irreversıvel de um sistema em equilıbrio termodinamico.

Do ponto de vista microscopico nao se espera que um sistema conservativo deve seaproximar de um estado de equilıbrio pois nao ha estados estacionarios passıveis de seremalcancados. Afim de justificar a convergencia para o equilıbrio, e comum se acreditar queeste sistema possui flutuacoes mesmo na escala intermediaria entre micro e macroscopica.A natureza das leis da termodinamica diz respeito nao a um estado em um determinadotempo fixo do sistema dinamico subjacente, mas a uma medida realizada sobre um perıodode tempo T relativamente longo comparado com os tempos caracterısticos de relaxacaoou de colisao. Como T depende especificamente da dinamica, deve–se esperar que ocomportamento termodinamico do sistema seja atingido apenas no limite T → ∞.

Suponhamos que um estado do sistema seja representado por um ponto x0 no espacode fase Γ =

(q,p) ∈ R6N

, onde N e numero de componentes, e que exista, para cada

τ , um mapa Φτ : Γ −→ Γ tal que x = Φτ (x0) e o estado resultante de x0 no instante τ0apos aguardar um instante adicional τ . Claramente, Φt satisfaz as propriedades de umgrupo a um parametro:

1. Φτ+τ ′ = Φt Φτ ′

e

2. limτ→0

Φτ = I, com I a funcao identidade.

Como os observaveis energia, momento e etc., sao funcoes do espaco de fase, as gran-dezas termodinamicas devem ser descritas pela media temporal

µf = limT→∞

1

T

∫ T

0

f (Φtx0) dt (1.38)

com o limite, caso exista, independente da condicao inicial x0. Para sistema conservativodescrito pela funcao Hamiltoniana H = H(q,p), f e uma funcao contınua na superfıciedo espaco de fase ΩE ⊂ Γ com energia E = H(q,p) constante e x0 ∈ ΩE . Note que µf

satisfaz

1. µaf+bg = aµf + bµg

Page 30: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

30 1. Estatıstica dos Dıgitos de Numeros Normais

2. µ1 = 1

3. µf ≥ 0 se f ≥ 0.

Podemos sempre associar uma medida de probabilidade µ em (ΩE ,B), onde B e aalgebra de Borel gerada pelos cilindros de ΩE e µ (ΩE) = 1, tal que

µf =

ΩE

f(x) dµ(x) .

A medida de Lebesgue d3Nq d3Np em Γ e invariante pelo fluxo Φt gerado pela Hamiltoni-ana H(q,p), fato conhecido na literatura por Teorema de Liouville. A medida invarianterestrita a ΩE e dada por

µE(A) =

A

δ (H(q,p) − E) d3Nq d3Np =

A

|∇H|

/∫

ΩE

|∇H|

onde |∇H| e a norma Euclideana do gradiente de H , A ∈ B e σ e a medida na superfıciede energia ΩE .

Podemos agora formular a resposta de Boltzmann a Loschmidt e Zermelo. Seja H aHamiltoniana de um sistema de moleculas pontuais em um compartimento com duascamaras. A medida dos conjuntos B e C contidos em ΩE (B,C ∈ B), B correspondendoa todas as moleculas em uma dada camara e C referente a moleculas igualmente divididasentre as duas camaras sao, segundo Boltzmann, extremamente pequena e extremamenteproxima de 1, µE(B) ≪ 1 e µE(C) ≈ 1, respectivamente.

Boltzmann argumenta que o tempo relativo em que as orbitas no espaco de fasepermanecem nos conjuntos B e C sao, respectivamente, extremamente pequeno e ex-tremamente grande. Em outras palavras, o sistema em um estado incomum x ∈ B iraquase que imediatamente abandona–lo, muito embora o Teorema de Poincare assegureque sua orbita eventualmente retorna a B; as orbitas de um sistema que passam por umestado normal x ∈ C permanecem quase que permanentemente em C.

Para justificar esta resposta, Boltzmann introduziu a hipotese que as orbitas de Φτ

cobrem todos os pontos de ΩE . A assim denominada hipotese ergodica (ergogenhypothese)por Boltzmann e falsa e tornou–se com o tempo comum chamar de hipotese ergodica suaconsequencia (1.38). Seja t (T, x0, A) o tempo que a orbita partindo de x0 permanece noconjunto A ⊂ ΩE ate o tempo T . O tempo relativo de permanencia em A, caso exista, edado pelo limite

limT→∞

t (T, x0, A)

T.

Escolhendo em (1.38) a funcao caracterıstica do conjunto A, f = χA, identificamos ime-diatamente a integral no lado direito de (1.38) com o limite acima. De onde se concluique µχA

e o tempo relativo de permanencia em A.

Um modelo elementarSao raros os exemplos de sistemas sujeitos as leis da mecanica no qual e possıvel

provar ergodicidade. O estadio de Sinai e o gas de Lorentz tem sido empregados paradescrever irreversibilidade macroscopica a partir de primeiros princıpios. As tecnicas em-pregadas, no entanto, ainda nao sao suficientes para uma abordagem matematica de um

Page 31: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.2 Numeros Normais 31

sistema Fısico. O estudo de processos estocasticos pode, concomitantemente, trazer al-guns esclarecimentos sobre comportamento macroscopico observado em fluidos e cineticade gases.

Ilustraremos por um modelo elementar como as contradicoes mencionadas anterior-mente desaparecem no ambito do Teorema Ergodico. Modelos mais elaborados seraoestudados no presente curso.

Suponha que os n primeiros dıgitos da expansao de um numero x ∈ [0, 1) na basebinaria (q = 2)

x = 0.ε1ε2 · · · εn︸ ︷︷ ︸n−bloco

· · ·

representam o estado de um gas constituido de n partıculas em um recipiente com odıgito εk(x) ∈ 0, 1 do n–bloco correspondendo a um dos dois compartimentos que ak–esima partıcula do gas pode ocupar.

As partıculas movem de um para outro compartimento de acordo com a dinamicainduzida por S2 (veja (1.30)). No instante k ∈ N o estado das n partıculas e representadopelo n–bloco

Sk2 (x) = 0.εk+1εk+2 · · · εk+n︸ ︷︷ ︸

n−bloco

· · ·

Por exemplo: a expansao

0. 0101110︸ ︷︷ ︸010 · · ·

de x representa um sistema de 7 partıculas tal que: em k = 0, a primeira, terceira esetima partıculas se encontram no estado 0 e as demais no estado 1; em k = 1,

0.0 1011100︸ ︷︷ ︸10 · · ·

a segunda, sexta e setima partıculas se encontram no estado 0; em k = 2

0.01 0111001︸ ︷︷ ︸0 · · ·

a primeira, quinta e sexta partıculas estao no estado 0 e etc.Se x e um numero normal, todo bloco Bn = α1 · · ·αn de n dıgitos e equiprovavel

P (Bn) =1

2n.

Consequentemente, a probabilidade de n partıculas ocupar um unico compartimento

P (0 · · ·0) = P (1 · · ·1) =1

2n

e a mesma de qualquer outra configuracao. Entretanto, a probabilidade de l partıculasocupar o compartimento 1 e, de acordo com o Exercıcio 1.34,

P

(n∑

k=1

εk(x) = l

)=

1

2n

n!

(n− l)!l!

Page 32: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

32 1. Estatıstica dos Dıgitos de Numeros Normais

Usando a formula de Stirling

n! =√

2πn(ne

)n(

1 +1

12n+ · · ·

)(1.39)

a probabilidade das partıculas estarem igualmente divididas em cada compartimento e

P

(n∑

k=1

εk(x) =n

2

)=

1

2n

n!

(n/2)!(n/2)!

∼ 1

2n

√2πn (n/e)n

πn (n/2e)n

∼√

2

πn

e a probabilidade de desviar por no maximo√n do valor n/2 e estimado por

P

(n−√

n

2≤

n∑

k=1

εk(x) ≤n+

√n

2

)≈√

2

π= 0.79 . (1.40)

O desvio com respeito a media n/2 e quantificado de maneira mais precisa pelo Teoremade deMoivre–Laplace:

limn→∞

P

(a ≤ 2√

n

(n

2−

n∑

k=1

εk(x)

)≤ b

)= lim

n→∞P

(a ≤ 1√

n

n∑

k=1

rk(x) ≤ b

)

=1√2π

∫ b

a

e−y2/2dy

para todo −∞ < a < b <∞.Como o bloco Bn = α1 · · ·αn de n dıgitos ocorre com frequencia 1/2n, a configuracao

do gas associada e infinitamente recorrente com o tempo medio entre dois aparecimentosigual a kn = 2n. De acordo com a prova do Teorema 1.22, o tempo de permanenciaem uma dada configuracao Bn ate o instante k e dado por

k∑

j=1

χI(Bn)

(Sj(x)

)

onde I(Bn) e definido pela equacao (1.28). Pelo Teorema ergodico, o tempo relativo depermanencia na configuracao Bn e

limk→∞

1

k

k∑

j=1

χI(Bn)

(Sj(x)

)=

∫ 1

0

χI(Bn)(y)dy = |I(Bn)| =1

2n

tempo este extremamente curto comparado como o tempo relativo de permanencia em

A =

x ∈ [0, 1) :

n−√n

2≤

n∑

k=1

εk(x) ≤n+

√n

2

Page 33: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.3 Complementos 33

que e, por (1.40), juntamente com o Teorema ergodico, aproximadamente 0.79 indepen-dentemente de n.

Nestas notas examinaremos dois outros modelos nos quais estas questoes podem serquantitativamente examinadas. O modelo da Urna de Uhlenbeck e a versao discreta doprocesso estocastico de Ornstein–Uhlenbeck. O outro modelo proposto por Kac, mod-elo do anel, e determinıstico. Em ambos pode–se calcular o tempo de permanencia erecorrencia em conjuntos normais e excepcionais.

1.3 Complementos

1.3.1 Exercıcios Adicionais

Exercıcio 1.30 Escreva a expansao ternaria de x ∈ [0, 1)

x =η1

3+η2

32+η3

33+ · · ·

onde cada ηj ∈ 0, 1, 2 e ηj < 2 para uma infinidade de ındices, e mostre que η1(x),η2(x), η3(x), . . . sao variaveis aleatorias definidas em ([0, 1),B, µ) independentes.

Exercıcio 1.31 Utilize o Exercıcio 1.30 para demonstrar a formula

sin x

x=

∞∏

k=1

1 + 2 cos(2x/3k

)

3. (1.41)

Indicacao: Defina a sequencia de funcoes uk(x) = 1 − ηk(x), k = 1, 2, . . ., x ∈ [0, 1),que desempenham um papel semelhante as funcoes de Rademacher, e reescreva (1.41)em termos destas funcoes. Em seguida, repita os passos da demonstracao da formula deViete.

Exercıcio 1.32 Seja rn(x)n≥1 o conjunto das funcoes de Rademacher. Demonstre quea relacao ∫ 1

0

ri1(x) ri2(x) · · · rik(x) dx = 0

e satisfeita para todo k ≥ 2 e i1 < i2 < · · · < ik.Escreva o numero 2n, n ∈ N, na notacao binaria

2n = 2i1 + 2i2 + · · ·+ 2ik

com 1 ≤ i1 < i2 < · · · < ik e defina as funcoes wn(x) de Walsh–Kaczmarz da seguinteforma:

w0(x) = 1

ewn(x) = ri1(x) ri2(x) · · · rik(x)

para n ≥ 1. Demonstre

1.

∫ 1

0

wn(x) wm(x) dx = δnm

Page 34: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

34 1. Estatıstica dos Dıgitos de Numeros Normais

2. Se f(x) e integravel e ∫ 1

0

wn(x) f(x) dx = 0

para todo n ≥ 0, entao f(x) = 0 para quase todo x ∈ [0, 1).

3.

∫ 1

0

∫ 1

0

∣∣∣∑2n−1

k=0wk(x) wk(y)

∣∣∣ dx dy = 1

Exercıcio 1.33 Considere a expansao (1.2) de x ∈ [0, 1) na base q e seja Nq(α, n) onumero de vezes que o dıgito α ∈ 0, 1, . . . , q − 1 ocorre entre os primeiros n coeficientesεj’s. Demonstre o limite

limn→∞

Nq(α, n)

n=

1

q

para q = 3 usando os resultados dos Exercıcios 1.30 e 1.31.

Exercıcio 1.34 (Moeda Tendenciosa) Seja Tp : [0, 1) −→ [0, 1), 0 < p < 1, a funcaodefinida por

Tp(x) =

x

pse 0 ≤ x < p

x− p

1 − pse p ≤ x < 1

e seja

θp(x) =

1 se 0 ≤ x < p0 se p ≤ x < 1

.

Defina as funcoes

θ(p)1 (x) = θp(x), θ

(p)2 (x) = θp(Tp(x)), · · · , θ

(p)n+1(x) = θp(T

np (x)) , · · ·

onde T np (x) = Tp · · · Tp(x) e a n–esima composicao de Tp com ela mesma. Plote as

funcoes θ(p)1 , θ

(p)2 e θ

(p)3 e mostre que sao variaveis aleatorias em ([0, 1),B, µ) indepen-

dentes. Note que θ(p=1/2)k (x) = 1 − εk(x) onde εk sao os coeficientes da expansao binaria

de x.Defina a variavel aleatoria

Σ(p)n = θ

(p)1 + · · ·+ θ(p)

n

Mostre que a probabilidade desta variavel assumir o valor l, 0 ≤ l ≤ n, e dada por

P(Σ(p)

n = l)

=

(n

l

)pl(1 − p)n−l =

n!

l!(n− l)!pl(1 − p)n−l

Indicacao: Note que

χ(x) =1

∫ 2π

0

expiξ(Σ(p)

n (x) − l)dξ

Page 35: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.3 Complementos 35

e uma funcao que assume valor 1 se Σ(p)n (x) = l e 0 se Σ

(p)n (x) 6= l. Logo

P(Σ(p)

n = l)

= Eχ =

∫ 1

0

χ(x) dx .

Calcule esta integral trocando de ordem a integracao em ξ com a integracao em x.

Exercıcio 1.35 Mostre que para qualquer funcao contınua f : [0, 1) −→ R, temos

Ef(Σ(p)n /n) =

∫ 1

0

f

(p)n (x)

n

)dx = Bn(p)

onde

Bn(p) =

n∑

l=0

f (l/n)

(n

l

)pl(1 − p)n−l

e o polinomio de Bernstein associado a f calculado no ponto p.

Exercıcio 1.36 Supondo que x ∈ [0, 1) nao seja um racional para a base q = 2, mostreque x e um numero normal para base 2 (veja Definicao 1.15) se e somente se

limn→∞

1

n

n−1∑

k=0

rk+k1(x)rk+k2(x) · · · rk+ks(x) = 0

para todo s ≥ 1 e inteiros 1 < k1 < k2 < · · · < ks.

Exercıcio 1.37 Mostre que o conjunto dos reais x ∈ [0, 1) tais que x escrito na baseq ≥ 3 nao contem o dıgito 2 tem medida de Lebesgue nula. Em seguida, deduza a partirdeste fato a existencia de dois conjuntos A e B, ambos de medida nula, tal que todonumero real x pode ser escrito como x = a+ b com a ∈ A e b ∈ B.Indicacao. O conjunto resultante para q = 3 e denominado conjunto de Cantor ternarioC3 que tambem pode ser obtido por um procedimento de disseccao. Inicialmente, dividimoso intervalo [0, 1) em tres segmentos de comprimento 1/3 e retiramos o intervalo do meio.Dividimos cada um dos dois segmentos restantes em tres segmentos de igual comprimentoe retiramos o do meio. Repetindo este procedimento indefinidamente obtemos o conjuntoC3. Calcule o comprimento total dos intervalos restantes no n–esimo passo e mostre queseu valor tende a 0 quando n tende a infinito.

1.3.2 Identidade de Parseval

Denotamos por L2 [−L,L] o conjunto das funcoes f : R −→ R periodicas de perıodo 2L,integravel e de quadrado integravel em [−L,L]. Por integral de f , entende–se o valor daarea sob a curva (x, f(x)) entre −L e L pelo procedimento de Riemann.

Dizemos que uma sucessao (fn)n≥0 de funcoes em L2 [−L,L] converge em mediaquadradica para uma funcao f ∈ L2 [−L,L] se

limn→∞

∫ L

−L

|fn(x) − f(x)|2 dx = 0

Page 36: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

36 1. Estatıstica dos Dıgitos de Numeros Normais

Em outras palavras, (fn)n≥0 converge em media quadratica para f se o erro medioquadratico

ǫn :=1

2L

∫ L

−L

|fn(x) − f(x)|2 dx (1.42)

tende a zero quando n tende a infinito.Considere a sucessao de series parciais de Fourier

fn(x) =n∑

k=−n

ckei kπ

Lx (1.43)

ck =1

2L

∫ L

−L

f(y)e−i kπL

y

Substituindo os coeficientes de Fourier ck’s em fn, temos

fn(x) =

∫ L

−L

Dn(x− y)f(y)dy

onde

Dn(z) =1

2L

sinπz

L(n+ 1/2)

sinπz

2L

e o nucleo integral de Dirichlet. Substituindo (1.43) em (1.42), resulta

ǫn =1

2L

∫ L

−L

|f(x)|2 dx−n∑

k=−n

|ck|2

e a identidade de Parseval e satisfeita se, e somente se, o erro quadratico medio ǫn tendera zero quando n→ ∞.

Daremos a seguir um roteiro da demonstracao da convergencia de ǫn para 0. Os detalhespodem ser seguidos no texto Analise de Fourier e equacoes diferenciais parciais de DjairoG. de Figueiredo.

Primeiramente, note que (1.43) e um polinomio trigonometrico de ordem n:

fn(x) =a0

2+

n∑

k=1

(ak cos

kπx

L+ bk sin

kπx

L

)

com 2ak = ℜeck e 2bk = ℑmck.Se

gn(x) =α0

2+

n∑

k=1

(αk cos

kπx

L+ βk sin

kπx

L

)

e qualquer outro polinomio trigonometrico de ordem n, onde as constantes αk e βk saoescolhidas de forma arbitraria, entao a desigualdade

ǫn ≤ ǫn , (1.44)

Page 37: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.3 Complementos 37

e satisfeita para todo n ≥ 0, onde

ǫn =1

2L

∫ L

−L

|gn(x) − f(x)|2 dx

e o erro medio quadratico associado com o polinomio trigonometrico gn (veja pag. 61 dotexto do Djairo).

A desigualdade e satisfeita, em particular, se

gn(x) =f0 + f1(x) + · · · + fn(x)

n+ 1

=

∫ L

−L

1

n + 1

n∑

k=0

Dk(x− y)f(y)dy

=

∫ L

−L

Fn+1(x− y)f(y)dy

onde

Fn+1(z) =1

2L(n+ 1)

sinπz

2L(n+ 1)

sinπz

2L

2

e o nucleo integral de Fejer. Neste caso, o Teorema de Fejer (veja Teorema 3.7 na pag. 82do texto do Djairo) afirma que gn converge uniformemente para f se f for uma funcaocontınua, periodica de perıodo 2L. Consequentemente.

ǫn ≤ ǫn =1

2L

∫ L

−L

|gn(x) − f(x)|2 dx ≤ 2L max−L≤x≤L

|gn(x) − f(x)|2 −→ 0 ,

quando n tende a ∞, e a identidade de Parseval fica estabelecida para as funcoes contı-nuas. Para estender a identidade para toda funcao quadrado integravel, observamos quef ∈ L2 [−L,L] pode ser aproximada por funcoes contınuas ψ, em media quadratica e comprecisao arbitraria, concluindo a assercao.

O ponto a ser ressaltado e que o sistema trigonometrico

(1√2Lei nπ

Lx

)

n∈Z

de funcoes

ortonormais e completo para as funcoes de quadrado Riemann–integraveis. Aqui, a com-pleteza do sistema ortonormal em L2 [−L,L] se da no sentido geometrico – formar umabase para representar as funcoes deste espaco vetorial. Esta questao difere da completezapropriamente dita do espaco L2 [−L,L], onde toda a sucessao de Cauchy converge (emmedia quadratica) para uma funcao do espaco (veja comentario sobre o Teorema deRiesz-Fischer na pag. 87 do texto do Djairo).

1.3.3 Completeza das funcoes de Walsh–Kaczmarz

Seja wn(x)n≥0 o conjunto ortonormal das funcoes definidas no Exercıcio 1.32. O objetivoe demonstrar que as funcoes de Walsh formam um sistema completo no espaco L1 [0, 1]das funcoes f(x) integraveis e absolutamente integraveis em [0, 1]. Para toda funcao f ∈L1 [0, 1], ∫ 1

0

wn(x) f(x) dx = 0

Page 38: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

38 1. Estatıstica dos Dıgitos de Numeros Normais

para todo n ≥ 0, implica f(x) = 0 em todos os pontos x ∈ [0, 1] de continuidade de f .Pela observacao feita no Apendice anterior, e suficiente considerar f uma funcao

contınua. Dado f , defina a sucessao (qn(x))n≥1 de aproximantes

qn(x) = f

(j + 1/2

2n

)se x ∈ In,j

para j = 0, 1, . . . , 2n − 1, dada por funcoes constante em cada intervalo In,j de compri-mento 2−n igual ao valor de f no ponto medio de intervalo.

Como f e contınua, a variacao de f em um intervalo In,j vai a zero quando n tende azero. Portanto, para todo ε > 0, existe n0 = n0(ε) tal que

|f(x) − qn(x)| < ε

uniformemente em [0, 1], para todo n ≥ n0. Disso se conclui

∫ 1

0

|f(x) − qn(x)| dx < ε

e, como ε e arbitrario, a convergencia da sucessao (qn(x))n≥1 para f em media.Vamos agora mostrar que qn(x) admite uma unica expansao em funcoes de Walsh,

bastando para isso tomar os primeiros 2n termos da sucessao:

qn(x) =

2n−1∑

j=0

cjwj(x)

onde cj’s sao coeficientes univocamente determinados pela relacao de ortogonalidade(analogo aos coeficientes de Fourier)

cj =

∫ 1

0

qn(x)wj(x)dx , (1.45)

lembrando, para isso, que w0(x) = 1 e, para j > 1,

wj(x) = rj1(x) rj2(x) · · · rjk(x)

onde

2j = 2j1 + 2j2 + · · · + 2jk (1.46)

para alguma colecao de numeros naturais tais que 1 ≤ j1 < j2 < · · · < jk.Para j = 0, 1, . . . , 2n − 1 podemos escrever analogamente

2j = 2ε1 + 22ε2 + · · · + 2nεn (1.47)

com n dıgitos ε1, . . . , εn binarios εk ∈ 0, 1, de tal forma que cada j considerado tenhaum unico vetor (ε1, . . . , εn) correspondente. Comparando (1.46) com (1.47), vemos que osındices j1, j2, . . . , jk sao exatamente aqueles para os quais o dıgito binario e 1. Notamostambem que 1 ≤ j1 < j2 < · · · < jk ≤ n e o menor intervalo em que a funcao wj(x) e

Page 39: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

1.3 Complementos 39

constante tem tamanho 2−n. Concluımos desta maneira que wj(x) e constante em cadaintervalo In,k onde qn(x) e constante e, consequentemente, ambas funcoes sao na verdadevetores em R2n

, denotados por wj e qn, respectivamente.As 2n equacoes (1.45) podem ser escritas como

c = Wqn

onde c = (c0, . . . , c2n−1) e W =

w1...

w2n−1

e uma matriz com o vetor wj na j–esima

linha. Como os vetores nas linhas de W sao ortonormais: wi · wj = δij , W e umamatriz ortogonal, W T = W−1, satisfaz detW = 1 e, portanto, e uma matriz inversıvel.Consequentemente, a unica solucao da equacao

0 = Wqn

e qn identicamente 0. Em outras palavras, se os coeficientes cj, j = 0, 1, . . . , 2n − 1, saotodos nulos, entao a funcao qn(x) tambem e identicamente nula. No limite quando n tendea infinito, se os coeficientes cj ’s da funcao f sao todos nulos, a funcao f e identicamentenula, provando a completeza das funcoes de Walsh.

Page 40: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

40 1. Estatıstica dos Dıgitos de Numeros Normais

Page 41: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2

Introducao a Probabilidade

O objetivo e introduzir a Teoria de Probabilidade e explorar alguns teoremas sobre olimite de somas de variaveis aleatorias independentes. Introduziremos a nocao de dis-tribuicao, experancas com respeito a esta e daremos outras caracterizacoes possıveis deuma variavel aleatoria. Ilustraremos estes conceitos com diversos exemplos. Iniciaremoscom a interpretacao da soma de variaveis aleatorias de Rademacher como a posicao deuma partıcula se difundindo devido ao espalhamento das moleculas que compoe o meio.O Teorema central do limite tem um papel relevante nesta e em outras secoes destecapıtulo. Introduziremos distribuicoes com divisibilidade infinita e a sua representacaopelo Teorema de Levy–Khinchin.

2.1 Lei Normal e Difusao

As funcoes de Rademacher r1, r2, . . . , rk, . . . , sao variaveis aleatorias independentes.Queremos dizer com isso que, para cada k ∈ N,

rk : [0, 1) −→ −1, 1

e uma funcao mensuravel com respeito ao espaco de probabilidade ([0, 1),B, µ) e, por-tanto, a imagem inversa

r−1k (1) = [0, 2−k) ∪ [2 · 2−k, 3 · 2−k) ∪ · · · ∪ [(2k − 2)2−k, (2k − 1)2−k)

r−1k (−1) = [2−k, 2 · 2−k) ∪ [3 · 2−k, 4 · 2−k) ∪ · · · ∪ [(2k − 1)2−k, 1)

de cada um de seus possıveis valores ±1, e um elemento da algebra de Borel B, geradapor uniao finita de intervalos disjuntos semi–abertos a direita. Alem disso, rk tem umadistribuicao de probabilidade

P (rk = ±1) = µ (x ∈ [0, 1) : rk(x) = ±1)= µ

(r−1k (±1)

)= 2k−1 · 2−k =

1

2(2.1)

Page 42: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

42 2. Introducao a Probabilidade

induzida pela medida de Lebesgue µ, uniforme em [0, 1).Denomina-se distribuicao de Bernoulli aquela que atribui valores (estritamente) posi-

tivos a apenas dois pontos de R. A funcao de Rademacher rk e uma variavel aleatoria deBernoulli pois a sua distribuicao (2.1):

P (rk = −1) = P (rk = 1) =1

2, P (rk = −1) + P (rk = 1) = 1

e Bernoulli. Como a distribuicao de rk independe de k, dizemos que r1, r2, . . . , rk,. . . , sao variaveis aleatorias igualmente distribuidas. A independencia destas variaveis foiestabelecida no Capıtulo 1.

Definimos, para cada n ∈ N, uma nova variavel aleatoria

Xn : [0, 1) −→ R

no mesmo espaco de probabilidade ([0, 1),B, µ) por

Xn(x) = r1(x) + r2(x) + · · ·+ rn(x) .

Note que a imagem inversa, X−1n (p), de cada um dos possıveis valores p que Xn pode

assumir, p ∈ −n,−n + 2, . . . , n, e uma uniao de intervalos disjuntos semi–abertos adireita, contida, portanto, na algebra de Borel B.

Exercıcio 2.1 Calcule a distribuicao de probabilidade da variavel aleatoria Xn

P (Xn = p) =1

2n

n!(n + p

2

)!

(n− p

2

)!

e verifique a sua normalizacao

p∈−n,...,n:p+n e par

P (Xn = p) = 1 .

2.1.1 Teorema de DeMoivre–Laplace

O objetivo desta subsecao e demonstrar um teorema devido a DeMoivre e Laplace, evo-cado anteriormente no contexto da teoria cinetica dos gases.

Teorema 2.2 A distribuicao da variavel aleatoria Xn/√n converge, quando n tende a

infinito, para a distribuicao normal, isto e,

limn→∞

P

(a <

Xn√n≤ b

)= lim

n→∞µ

(x ∈ [0, 1) : a <

r1(x) + · · ·+ rn(x)√n

≤ b

)

=1√2π

∫ b

a

e−y2/2 dy

para quaisquer a e b tais que −∞ < a < b <∞.

Page 43: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.1 Lei Normal e Difusao 43

Observamos que os possıveis valores que a variavel Xn/√n pode assumir,

−√n,

−n + 2√n

, . . . ,√n

se estendem, quando n→ ∞, de −∞ a ∞ ao mesmo tempo que a distancia, 2/√n, entre

cada par de sucessivos valores tende a 0. No limite, Xn/√n assume qualquer valor em R.

Teorema 2.2 pode ser anunciado como a convergencia

Xn√n

=⇒ Z ,

em distribuicao, da variavel aleatoria Xn/√n para a variavel aleatoria Gaussiana Z, de

media 0 e variancia 1 (normal). Em outras palavras, a soma de n variaveis aleatoriasindependentes de Bernoulli

Xn = r1 + · · · + rn ,

de distribuicao P (rk = −1) = P (rk = −1) = 1/2, quando dividida por√n converge, em

distribuicao, para a variavel aleatoria Z normal.

”Prova”do Teorema 2.2 pelo metodo de Markov. O metodo, devido a Markov, tornou-seposteriormente uma prova em vista das justificativas de Paul Levy a certas passagensformais. Acrescentaremos a correcao nas observacoes finais.

A funcao indicadora do intervalo (a, b]

χ(a,b](x) =

1 se x ∈ (a, b]0 se x /∈ (a, b]

(2.2)

pode ser escrita como

χ(a,b](x) =1√2π

∫ ∞

−∞eikxΞ(k) dk

=1

∫ ∞

−∞eikxe

−ika − e−ikb

ikdk (2.3)

onde primeiramente tomamos a transformada de Fourier

Ξ(k) =1√2π

∫ ∞

−∞e−ikxχ(a,b](x) dx

=1√2π

∫ b

a

e−ikx dx =1√2π

e−ika − e−ikb

ik,

seguida do Teorema da inversa de Fourier (veja Djairo G. Figueiredo, ”Analise de Fouriere Equacoes Diferenciais Parciais”). Note que Ξ(k) e quadrado integravel.

Concluimos daı

Υn : = µ

(a <

r1(x) + · · ·+ rn(x)√n

≤ b

)

=

∫ 1

0

χ(a,b]

(r1(x) + · · ·+ rn(x)√

n

)dx

=

∫ 1

0

(1

∫ ∞

−∞exp

ik√n

(r1(x) + · · · + rn(x))

e−ika − e−ikb

ikdk

)dx . (2.4)

Page 44: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

44 2. Introducao a Probabilidade

Vamos supor legıtima a troca de ordem de integracao. Resulta da independencia dasfuncoes de Rademacher:

∫ 1

0

exp

ik√n

(r1(x) + · · ·+ rn(x))

dx

=

n∏

j=1

∫ 1

0

exp

ik√nrj(x)

dx

=

(cos

k√n

)n

,

juntamente com as integrais trocadas de ordem,

Υn =1

∫ ∞

−∞

(cos

k√n

)ne−ika − e−ikb

ikdk . (2.5)

Resta ainda demonstrar que

limn→∞

Υn =1√2π

∫ b

a

e−y2/2 dy .

Novamente, vamos supor legıtima a troca do limite n → ∞ com a integral sobre avariavel k. Ao final da prova faremos observacoes que justificam as duas trocas.

Tomando o limite dentro da integral (2.5) juntamente com o

Lema 2.3

limn→∞

(cos

k√n

)n

= e−k2/2 , k ∈ R (2.6)

resulta

limn→∞

Υn =1

∫ ∞

−∞lim

n→∞

(cos

k√n

)ne−ika − e−ikb

ikdk

=1

∫ ∞

−∞e−k2/2 e

−ika − e−ikb

ikdk

=

∫ ∞

−∞F (k) Ξ(k) dk

=

∫ ∞

−∞f(x) χ(a,b](x) dx =

∫ b

a

f(x) dx (2.7)

pelo Teorema de Plancherel–Parseval e (2.3), onde

F (k) =1√2π

∫ ∞

−∞e−ikxf(x) dx

=1√2π

∫ ∞

−∞e−ikx 1√

2πe−x2/2 dx =

1√2πe−k2/2 ,

e a transformada de Fourier da distribuicao normal

f(x) =1√2πe−x2/2

Page 45: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.1 Lei Normal e Difusao 45

(veja Aplicacao I. na pag. 233 do texto de Djairo G. de Figueiredo ”Analise de Fourier eEquacoes Diferenciais Parciais”). Isto conclui a ”demonstracao”do teorema.

2

Prova do Lema 2.3. Para k ∈ R fixo, a sequencia (αn)n≥0 com

αn = n

(1 − cos

k√n

)

converge para α = k2/2. Para isso, aplicamos o Teorema de Taylor

cosx = 1 − 1

2x2 + r(x)

com resto r(x) de Lagrange cotado por

|r(x)| ≤ 1

4!sup

y

∣∣cos(4) y∣∣ |x|4 ≤ |x|4

4!,

e, consequentemente,

|αn − α| =

∣∣∣∣n(

1 − cosk√n

)− k2

2

∣∣∣∣ = n

∣∣∣∣r(

k√n

)∣∣∣∣ ≤|k|44!n

vai a zero quando n vai a infinito.Como

cosk√n

= 1 − αn

n,

para verificar (2.6), basta mostrar

limn→∞

(1 − αn

n

)n

= e−α . (2.8)

Vamos provar o limite (2.8). Para n suficientemente grande, a igualdade

(1 − αn

n

)n

− e−α =(1 − αn

n

)((1 − αn

n

)n−1

− e−α(n−1)/n

)+

((1 − αn

n

)− e−α/n

)e−α(n−1)/n

juntamente com a desigualdade triangular: |a+ b| ≤ |a| + |b| e o fato que 1 − αn

ne

e−α(n−1)/n serem limitados por 1, leva-nos a desigualdade∣∣∣(1 − αn

n

)n

− e−α∣∣∣ ≤

∣∣∣∣(1 − αn

n

)n−1

− e−α(n−1)/n

∣∣∣∣+∣∣∣(1 − αn

n

)− e−α/n

∣∣∣ .

Logo, por iteracao da desigualdade,∣∣∣(1 − αn

n

)n

− e−α∣∣∣ ≤ n

∣∣∣(1 − αn

n

)− e−α/n

∣∣∣

≤ |α− αn| + n

∣∣∣∣∣

∞∑

k=2

(−1)k

k!

(αn

)k

∣∣∣∣∣

≤ |α− αn| +α2

2neα/n −→ 0

Page 46: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

46 2. Introducao a Probabilidade

quando n→ ∞, concluindo a demonstracao do lema.2

Resta–nos comentar as inversoes de ordem das integracoes em (2.4) e do limite com aintegracao em (2.7). Os aproximantes χ+

(a,b] (χ−(a,b]) da funcao indicadora (2.2) do intervalo

(a, b] da forma de um trapezoide regular de altura 1 e bases b− a+2ε e b− a (resp. b− ae b− a− 2ε), sao funcoes contınuas tais que

χ(a,b](x) − χ−(a,b](x) =

1 − (x− a)/ε se a ≤ x < a + ε1 + (x− b)/ε se b− ε ≤ x < b0 de outra forma

χ+(a,b](x) − χ(a,b](x) =

(x− a+ ε)/ε se a− ε ≤ x < a(b+ ε− x)/ε se b ≤ x < b+ ε0 de outra forma

e satisazemχ−

(a,b](x) ≤ χ(a,b](x) ≤ χ+(a,b](x) .

Consequentemente,Υ−

n ≤ Υn ≤ Υ+n

onde

Υ±n =

∫ 1

0

χ±(a,b]

(r1(x) + · · ·+ rn(x)√

n

)dx

Exercıcio 2.4 Mostre que as transformada de Fourier de χ±(a,b]

Ξ±(k) =

∫ ∞

−∞e−ikxχ±

(a,b](x) dx

sao funcao absolutamente integraveis em k para todo ε > 0.

Pelo Teorema da Convergencia de Lebesgue juntamente com o Lema 2.3, temos

limn→∞

Υ±n = lim

n→∞

1

∫ ∞

−∞Ξ±(k)

(cos

k√n

)n

dk

=1

∫ ∞

−∞Ξ±(k) lim

n→∞

(cos

k√n

)n

dk

=1

∫ ∞

−∞Ξ±(k) e−k2/2 dk

e repetindo os passos da demonstracao do Teorema 2.2, para cada ε > 0,(χ−

(a,b] ∗ f)

(0) ≤ limn→∞

Υn ≤(χ+

(a,b] ∗ f)

(0) .

Como ε e arbitrario, a sequencia converge para o limite enunciado no Teorema 2.2.O resultado do Exercıcio 2.4 implica, juntamente com o Teorema de Fubini, que a troca

de ordem das integrais em (2.4) e legıtima. Para aplicar o Teorema de Fubini e suficienteque ∣∣∣∣exp

ik√n

(r1(x) + · · ·+ rn(x))

Ξ±(k)

∣∣∣∣ ≤∣∣Ξ±(k)

∣∣

seja integravel em [0, 1] × R.2

Page 47: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.1 Lei Normal e Difusao 47

2.1.2 Passeios Aleatorios

Retornaremos propriamente ao tema passeios aleatorios no capıtulo sobre cadeias deMarkov. Aqui o trataremos como um modelo matematico ilustrativo do fenomeno dedifusao.

Graos de polem em suspensao executam, de acordo com as observacoes do botanicoIngles Robert Brown (1829) e a interpretacao de Einstein (1905), movimentos aleatoriosdevido aos choques com as moleculas do fluido. A teoria de Einstein nao somente com-provou a existencia das moleculas como tambem permitiu a Perrin (1910) realizar exper-imentos com a finalidade de estimar o numero de Avogadro. O trabalho de Einstein jun-tamente com Smoluchowski (1906) dao inicio as investigacoes dos processos estocasticos.O movimento dos graos de polem pode ser melhor apreciado pelas trajetorias de umacaminhada ou passeio aleatorio.

A cada x ∈ [0, 1) associamos uma unica trajetoria de uma caminhada aleatoria definidapela sequencia infinita de dıgitos ±1:

x⇐⇒ (rk(x))k∈N.

O k–esimo passo e dado a direita ou a esquerdas dependendo se rk(x) = 1 ou −1. Aaleatoriedade da trajetoria e expressa pelo fato de x ser sorteado, de forma imparcial euniforme no intervalo [0, 1).

A posicao da caminhada em relacao a origem (ponto de partida) apos n passos e umavariavel aleatoria

Xn(x) = r1(x) + · · ·+ rn(x)

cuja probabilidade de assumir o valor p ∈ −n,−n + 2, . . . , n e, de acordo com o resul-tado do Exercıcio 2.1,

P (Xn = p) = µ (x ∈ [0, 1) : r1(x) + · · ·+ rn(x) = p)

=1

2n

(n

(n− p)/2

). (2.9)

Inserindo a duracao δ e o comprimento a de cada passo, temos que a probabilidade dacaminhada se encontrar a uma distancia z = ka no instante t = nδ

2aP (t, z) := P (Xn = k) =1

2nN(n, k) (2.10)

onde N(n, k) , o numero de trajetoria com n passos da origem a k, satisfaz a relacao derecorrecia

N(n, k) = N(n− 1, k + 1) +N(n− 1, k − 1) (2.11)

com N(0, 0) = 1 e N(0, k) = 0 se k 6= 0. Note que as trajetorias de n passos ate k saoformadas pela uniao das trajetorias de n − 1 passos ate k + 1 e ate k − 1, que estao adistancia unitaria de k.

Equacao (2.10) juntamente com (2.11), resulta

P (t+ δ, z) − P (t, z)

δ=

1

2δ(P (t, z + a) + P (t, z − a) − 2P (t, z))

=a2

1

a

(1

a(P (t, z + a) − P (t, z)) − 1

a(P (t, z) − P (t, z − a))

)

Page 48: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

48 2. Introducao a Probabilidade

com P (0, 0) = (2a)−1 e P (0, z) = 0 se z 6= 0. Tomando δ → 0 e a→ 0 mantendo a razaoa2/2δ constante igual a κ, resulta que P (t, z) e a solucao fundamental da equacao docalor

∂u

∂t= κ

∂2u

∂z2(2.12)

no domınio D = (t, z) ∈ R2 : t > 0, −∞ < z <∞.

Nota 2.5 O problema de Cauchy para a equacao do calor (2.12) e um problema de valorinicial tratado, por exemplo, por Djairo G. de Figueiredo na pg. 216 de seu texto Analisede Fourier e Equacoes Diferenciais Parciais. Seja

u(0, z) = g(z) , −∞ < z <∞

o dado inicial da equacao (2.12) e

U(t, ξ) =1√2π

∫ ∞

−∞e−iξz u (t, z) dz = F [u(t, ·)](ξ)

a transformada de Fourier da solucao. Aplicando a transformada de Fourier F a equacao(2.12), temos que U , para cada ξ fixo, satisfaz

Ut + κξ2U = 0

com U(0, ·) = G = F [g] e cuja solucao e

U(t, ξ) = e−κξ2tG (ξ)

= F (ξ)G (ξ)

Aplicando o Teorema da convolucao, resulta

u(t, z) =1√2πf ∗ g(z)

=

∫ ∞

−∞

1√4κπt

e−(z−y)2/(4κt) g(y) dy .

A funcao

1√2πf(z) =

1√2π

F−1 [F ] (z)

=1

∫ ∞

−∞eiξz F (ξ) dξ

=1√

4κπte−z2/(4κt) (2.13)

e a solucao fundamental do problema do calor e tambem o nucleo integral do operadoreκ t d2/dz2

.

Page 49: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.1 Lei Normal e Difusao 49

2

Examinemos a seguir o comportamento de (2.9) para n e k grandes. Note que ao tomarδ e a para zero com t e z fixos, tomamos n e k para infinito. Pela formula de Stirling(1.39), temos

1

2nN(n, k) ∼

√2

1√1 − k2/n2

(1

1 − k2/n2

)n/2(1 − k/n

1 + k/n

)k/2

∼√

2

nπexp

−k2

2n

. (2.14)

Somando esta expressao sobre os valores de k admissiveis tais que z < a · k ≤ z + dz,temos, em virtude de (2.10) com a =

√δ =

√t/n,

2a∑

z<a·k≤z+dz

P (t, z) ∼√

πtexp

−z2δ

2a2t

dz

2a

∼ 1√2πt

exp

−z2

2t

dz . (2.15)

de onde se conclui que as trajetorias do passeio aleatorio tornam–se, no limite em quen→ ∞, trajetorias do movimento Browniano.

Denotando por Wt a variavel aleatoria da posicao da partıcula no instante t = δn,constatamos que

Wt = an∑

k=1

rk =1√n

n∑

k=1

(√trk) =

1√n

n∑

k=1

ξk

e uma soma de variaveis aleatorias independentes de Bernoulli

ξk : [0, 1) −→−√t,√t

de media 0 e variancia t. Como ξ1, ξ2, . . . sao igualmente distribuidas, Wt converge, quandon tende a infinito, para uma variavel aleatoria Gaussiana Zt de media 0 e variancia t,cuja distribuicao e a funcao de Gauss (2.13) com κ = 1/2.

Nota 2.6 Uma breve deducao da formula assintotica de Stirling. A funcao Gama deEuler

Γ(k + 1) =

∫ ∞

0

e−s sk ds = k!

para k um numero natural. Fazendo a mudanca de variavel s = k w, obtemos

Γ(k + 1) = kk+1

∫ ∞

0

e−k h(w) dw

ondeh(w) = w − lnw.

Por ser uma integral de Laplace, sua contribuicao principal se concentra, para k sufi-cientemente grande, em uma vizinhanca do valor mınimo de h. O valor da integral e

Page 50: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

50 2. Introducao a Probabilidade

estimado expandindo o expoente h(w) em serie de Taylor em torno do ponto de mınimoate a segunda ordem. Temos

h′(w) = 1 − 1

w

h′′(w) =1

w2≥ 0

de onde se conclui que w = 1 e um mınimo local de h1. Substituindo

h(w) = 1 +1

2(w − 1)2 + O

((w − 1)3

)

na integral, estendendo o limite inferior para −∞, resulta

Γ(k + 1) ∼(k

e

)k

k

∫ ∞

−∞e−k(w−1)2/2 dw

=√

2πk

(k

e

)k

(2.16)

a ordem dominante de (1.39).

2.2 Teoria da Probabilidade

O proposito desta secao e fazer com que conceitos intuitivos em nossa experiencia sobreprobabilidade tornem–se objetos matematicos.

2.2.1 Espaco de Probabilidade

Problema 2.7 Qual a probabilidade de

1. uma moeda ao ser lancada tenha cara voltada para cima?

2. ao lancarmos um dado, obtermos um numero par na face superior?

3. retirarmos quatro ases em seguida de um maco de baralho?

Resposta. P1 = 1/2, P2 = 3/6 = 1/2 e P3 = 4/52 · 3/51 · 2/50 · 1/49 ≈ 3.7 × 10−6 (4 em1 milhao).

A Teoria da Probabilidade permite nao so entender o por que das respostas, comotambem formular e responder uma variedade de outras questoes de interesse em FısicaEstatıstica.

Suponha o seguinte experimento: lancamos um dado honesto, e observamos o nume-ro X na face voltada para cima. Os possıveis valores de X pertencem ao conjunto

Ω = 1, 2, 3, 4, 5, 6

1Como pode ser visto diretamente do grafico de h, w = 1 e um mınimo global.

Page 51: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.2 Teoria da Probabilidade 51

denominado espaco amostral (reservamos a letra Ω para nos referir ao conjunto detodos os possıveis resultados de um experimento).

Para se compreender Probabilidade devemos ter uma ideia mais precisa do termoevento. Um evento corresponde a uma questao que pode ser respondida com um “sim”ou “nao”.

No experimento do dado, considere os seguintes eventos:

E1 = X e um numero par.

E2 = X e menor que 4.

E3 = X e um numero maior que 6.

E4 = X nao e menor que 4.

E5 = X e um numero impar e maior ou igual a 4.

E6 = X e um numero par ou menor que 4.

O subconjuntos de Ω associado com o “sim” sao: E1 = 2, 4, 6 , E2 = 1, 2, 3 ,E3 = ∅ , E4 = 4, 5, 6 , E5 = 5 e E6 = 1, 2, 3, 4, 6.

Os subconjuntos de Ω associados com o “nao” sao os subconjuntos complementares.Denotando por Ec o complemento do conjunto E com respeito a Ω, temos (E2)

c = E4 ,(E3)

c = Ω e (E5)c = E6.

Podemos ainda compor eventos atraves das conjuncoes e, ou, obtendo desta formaeventos compostos: E5 = (E1)

c ∩ (E4)c = (E1 ∪ E4)

c e E6 = E1 ∪ E4 = (E5)c (Recorde

(Ec)c = E e a lei de De Morgan).Em vista deste exemplo, parece–nos razoavel definir eventos todos os subconjuntos

do espaco amostral Ω. E, mais importante, os eventos formam uma algebra Booleanade conjuntos denotada por F, fechada pelas operacoes de uniao e complemento: E ∈F =⇒Ec ∈ F e E1, E2 ∈ F =⇒E1 ∪E2 ∈ F .

O par (Ω,F) e denominado espaco mensuravel. Naturalmente, a nocao de medidade um conjunto E neste exemplo e, simplesmente, contar os seus elementos (µ : F −→ R

e aqui uma medida de contagem) e todos os subconjuntos de Ω sao mensuraveis. Nocaso do espaco amostral Ω considerado ser o intervalo [0, 1), o conjunto dos eventos F

e formado pela algebra sigma B gerada pela uniao disjunta de intervalos semi-abertos[a, b), 0 ≤ a < b < 1 , denominada algebra de Borel.

Varios experimentos interessantes possuem um espaco amostral com infinitos pontos e,por essa razao, e conveniente exigir que F seja uma algebra σ, fechada por uniao contavel:⋃∞

n=1En ∈ F se E1, E2, · · · ∈ F. Embora tecnica esta exigencia e importante a certasaplicacoes tratadas neste texto.

Um exemplo envolvendo a uniao contavel de eventos e o seguinte: Considere o experi-mento de um dado honesto ser lancado repetidamente ate que o numero 6 apareca voltadocom a face para cima. Considere agora o evento

En = a face 6 surge pela primeira vez na n− esima tentativa .

Page 52: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

52 2. Introducao a Probabilidade

O evento

E =∞⋃

n=1

En

ocorre se, e somente se, o jogo terminar em um numero finito de tentativas.

Resta–nos agora introduzir o terceiro elemento da teoria. A pergunta: Qual a probabil-idade de certo evento? esperamos um numero como resposta. Portanto, probabilidade euma funcao

P : F −→ R

que associa a cada evento E ∈ F um numero P (E) ≥ 0 e esta funcao deve estar definidapara todos os subconjuntos de Ω mensuraveis.

Intuitivamente, a probabilidade P(E) de um evento e uma medida da frequencia comque E ocorre. Se X representa a face voltada para cima de um dado lancado entao,P(X e par) = 1/2 e P(X = 1) = 1/6. Isto e, ao lancarmos muitas vezes um dado,veremos que um numero par ocorre com frequencia igual a um numero impar e que onumero 1 e tao frequente como qualquer outro numero.

Alem disso, a probabilidade do evento composto

E = X = 1 ou X e um numero par

deve ser P(E) = 1/6 + 1/2. Note que 1 ∩ 2, 4, 6 = ∅. O resultado e esperado poisa frequencia da uniao dos dois eventos disjuntos 1, 2, 4, 6, e a soma das respectivasfrequencias 4/6 = 1/6 + 3/6. Em palavras, a funcao P deve satisfazer a condicao deaditividade: se E e F forem dois eventos disjuntos, E ∩ F = ∅, entao

P(E ∪ F ) = P(E) + P(F ) . (2.17)

Definicao 2.8 A medida de Probalilidade e uma funcao P : F −→ R satisfazendo

1. P(E) ≥ 0

2. Aditividade contavel: se (En)∞n=1 for uma sequencia de eventos mutuamentedisjuntos, Ei ∩Ej = ∅, i 6= j, entao

P

( ∞⋃

n=1

En

)=

∞∑

n=1

P(En)

3. P(Ω) = 1

A tripla (Ω,F,P) e denominada espaco de probabilidade. Uma funcao µ : F −→ R

positiva, satisfazendo aditividade contavel com µ(∅) = 0 no lugar de 3. e uma medida

sobre (Ω,F).

Observacao. Se (En)∞n=1 for uma sequencia decrescente de eventos, En ⊃ En+1 paraqualquer n ≥ 1, chama–se axioma da continuidade a propriedade

En ↓ ∅ =⇒ P(En) −→ 0 .

Page 53: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.2 Teoria da Probabilidade 53

Os axiomas de aditividade finita (2.17) e de continuidade juntos equivalem ao axioma deaditividade contavel (ıtem 2. da Definicao 2.8). Para isso, escrevemos

n⋃

j=1

Ej =n−1⋃

j=1

Ej\Ej+1 ∪En

onde a uniao do lado direito e sobre conjuntos mutuamente disjuntos. Pela aditividadefinita, temos

P

(n⋃

j=1

Ej

)=

n−1∑

j=1

P (Ej\Ej+1) + P (En) . (2.18)

Tomando n para infinito, ıtem 2. da Definicao 2.8 e satisfeito se e somente se limn→∞

P (En) =

0.

Exercıcio 2.9 Mostre que as seguintes propriedades sao verdadeiras para uma medidade probabilidade P:

a. P(∅) = 0;

b. P(E ∪ F ) + P(E ∩ F ) = P(E) + P(F );

c. Se F ⊂ E, entao P(F ) ≤ P(E).

A seguir daremos alguns exemplos de espacos de probabilidade.

Um dado Seja Ω = 1, 2, 3, 4, 5, 6, e seja F o conjunto de todos subconjuntos de Ω.Assumindo que Ω seja o conjunto dos possiveis resultados de um dado honesto,cada resultado e igualmente provavel

P(X = 1) = P(X = 2) = · · · = P(X = 6) =1

|Ω| =1

6.

Consequentemente, para cada evento E ∈ F

P(E) =|E||Ω|

onde |A| denota a cardinalidade (numero de elementos) do conjunto A.

Dois dados Seja Ω = 1, 2, 3, 4, 5, 6 × 1, 2, 3, 4, 5, 6, isto e,

Ω = (i, j) : i, j = 1, 2, . . . , 6 .

Note que |Ω| = 36. Se F e o conjunto de todos subconjuntos de Ω, entao

P(E) =|E|36

=|E1|6

· |E2|6

para cada evento E = E1 ×E2 ∈ F.

Page 54: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

54 2. Introducao a Probabilidade

Espaco produto Seja (Ωi,Fi,Pi), i = 1, 2, . . . , n, uma colecao qualquer de . (Ω,F,P)e o seguinte espacos de probabilidade

Ω = Ω1 × Ω2 × · · · × Ωn

= (ω1, ω2, . . . , ωn) : ωi ∈ Ωi;F = F1 × F2 × · · · × Fn e uma colecao de subconjuntos de Ω contendo os eventosda forma

E = E1 × E2 × · · · ×En (2.19)

com Ej ∈ Fj , j = 1, 2, . . . , n; e P e a medida produto sobre F definida por

P(E1 × E2 × · · · × En) = P(E1) · P(E2) · · · · · P(En) , (2.20)

para todo evento Ej ∈ Fj, j = 1, . . . , n. Por um procedimento analogo a construcaoda medida de Lebesgue, pode–se estender P a algebra de conjuntos mensuraveisgerada pelos eventos da forma (2.19).

O primeiro e segundo exemplos sao casos particulares de espaco de probabilidade(Ω,F,P) com Ω um conjunto contavel, F a colecao de todos os subconjuntos de Ω, epara todo E ∈ F

P(E) =∑

ω∈E

p(ω)

onde p(ω) ≥ 0 e∑

ω∈Ω p(ω) = 1. No terceiro exemplo os eventos Ej podem nao sercontavel e requer alguns comentarios.

Definicao 2.10 Uma colecao C de subconjuntos de Ω e dito formar um conjunto cilın-

drico se

1. ∅ ∈ C e Ω ∈ C

2. A1, A2 ∈ C =⇒ A1 ∩ A2 ∈ C

3. A ∈ C =⇒ Ac e uma uniao disjunta finita de elementos de C.

Exercıcio 2.11 Mostre que a colecao de conjuntos da forma

A = [a1, b1) ∪ [a2, b2) ∪ · · · ∪ [an, bn)

com0 ≤ a1 < b1 < a2 < b2 < · · · < an < bn < 1

forma uma colecao cilındrica de subconjuntos de [0, 1).

Uniao disjunta de intervalos semi–abertos a direita de [0, 1) formam uma colecaocilındrica assim como a uniao de elementos na forma (2.19). Os elementos de uma colecaocilındrica, denominados cilındros, sao os elementos aos quais sabemos atribuir uma me-dida: o comprimento l(I) = b − a do intervalo I = [a, b); a medida produto (2.20) doconjunto E da forma (2.19). Ocorre, porem, que a colecao cilındrica nao e suficientementeampla pois somente e fechada por uniao finita.

Os elementos de uma colecao cilındrica desempenham, no entanto, um papel centralno importante resultado em teoria da medida conhecido por Teorema de extensao deCaratheodory.

Page 55: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.2 Teoria da Probabilidade 55

Definicao 2.12 Uma algebra σ gerada pela colecao C e a menor algebra σ que contemC:

F =⋂

Σ∈AΣ

onde A = Σ : Σ ⊃ C e uma algebra σ.Teorema 2.13 Qualquer medida de probabilidade P contavelmente aditiva (c. a.) em C

estende–se univocamente como uma medida de probabilidade c. a. para a algebra σgerada por C.

Daremos apenas os passos para demonstracao do teorema. O procedimento de extensaoe analogo ao usado nos livros textos para a construcao da medida de Lebesgue.Etapa 1. Introduz–se a medida exterior

P∗ (E) = infS

n An⊃E

∞∑

n=1

P (An) , (2.21)

onde o ınfimo e sobre todas coberturas de E por uma colecao contavel An de elementoscilındricos (podemos assumir, sem perda de generalidade, que sejam disjuntos).Etapa 2. Verifica–se

(i) P∗ e uma funcao contavelmente subaditiva

P∗

( ∞⋃

n=1

An

)≤

∞∑

n=1

P∗ (An) ;

para qualquer colecao An de subconjuntos de Ω;

(ii) P∗ (A) = P (A), ∀A ∈ C.

Etapa 3. Um conjunto E e mensuravel se

P∗ (A) = P∗ (A ∩ E) + P∗ (A ∩Ec) ,

para todo A ⊂ Ω. Verifica–se

a. A colecao M dos conjuntos mensuraveis forma uma algebra σ

b. P∗ e contavelmente aditivo em M.

Etapa 4. Verifica–se

1. M ⊃ C. Como M forma uma algebra σ, concluimos M ⊃ F e a restricao de P∗ a F

e uma extensao de P sobre F;

2. (Ω,F,P∗) e a unica extensao;

3. P∗|M

e completa onde o sentido de completeza e que todos os subconjuntos D ⊂ Atal que P (A) = 0 tambem sao de medida nula (P (D) = 0).

Page 56: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

56 2. Introducao a Probabilidade

Exemplo 2.14 Espaco de probabilidade (Ω,F, P ) de um passeio aleatorio. O espacoamostral

Ω = −1, 1N = −1, 1 × −1, 1 × · · ·consiste no conjunto das sequencias infinitas

ω = (ω1, ω2, ω3, . . .)

com ωj = ±1. A algebra dos eventos F e dada pela menor algebra σ que contem todos oscilındros da forma

An = ω ∈ Ω : ω1 = σ1, . . . , ωn = σn ,n ∈ N, para algum conjunto de valores σjn

j=1 fixos (os primeiros n passos determinadose o resto sendo qualquer coisa). A funcao de probabilidade P e a unica extensao da seguintefuncao definida sobre os cilındros

P(An) = p(σ1) · · ·p(σn) ,

onde

p(σ) =

q se x = 11 − q se x = −1

,

0 < q < 1 (q = 1/2 no caso do passeio simetrico). O exemplo em questao e um espaco pro-duto de uma colecao contavel Ωj ,Fj,Pjj∈N

de espacos de probabilidade: Ωj = −a, a,Fj = ∅, −1 , 1 , −1, 1 e Pj (±1) = 1/2.

2.2.2 Variaveis Aleatorias

Uma variavel aleatoria X e uma funcao

X : Ω −→ R

mensuravel que associa a cada possıvel realizacao ω do espaco amostral em (Ω,F,P) umnumero real X(ω). Como X e mensuravel, X−1 (B) ∈ F para todo conjunto B ∈ B deBorel em R.

Uma variavel aleatoria X induz uma medida de probabilidade PX em (R,B) atravesda relacao

PX ((a, b]) = P(X−1 ((a, b])

)(2.22)

ondeX−1 (I) = ω : X(ω) ∈ I

e a pre–imagem do intervalo I ⊂ R. Os intervalos semi–abertos a esquerda geram aalgebra de Borel B (veja, por exemplo, Measure Theory por Paul Halmos) e PX pode serestendida univocamente para todo evento E ∈ B.

No lugar de ω : X(ω) ∈ I, usaremos por simplicidade a notacao X ∈ I, ou X ∈ I.Assim, a equacao (2.22) e reescrita como

PX ((a, b]) = P(a < X ≤ b) .

Alguns exemplos de variaveis aleatorias ja introduzidas neste texto:

Page 57: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.2 Teoria da Probabilidade 57

1. A funcao indicadora IE do evento E ∈ F

IE(ω) =

1 se ω ∈ E0 se ω 6∈ E

2. Seja ([0, 1),B, µ) o espaco de probabilidade com µ a medida de Lebesgue, e sejaXn uma variavel aleatoria que a cada x ∈ [0, 1) associa o valor

Xn(x) = r1(x) + r2(x) + · · ·+ rn(x)

com ri : [0, 1) −→ R a i–esima funcao de Rademacher cuja distribuicao P(ri =±1) = µ (x ∈ [0, 1) : ri = ±1) = 1/2. A variavel Xn descreve um passeio aleatoriode n passos partindo da origem e e distribuida de acordo com a funcao

P (Xn = p) = µ (x ∈ [0, 1) : r1(x) + · · ·+ rn(x) = p)

=1

2n

n!

((n− p)/2)! ((n + p)/2)!

se n− k nao negativo e par e 0 de outra forma.

Claramente PX (I) = P (X ∈ I) ≥ 0 e PX (R) = 1. Para checar que (2.22) e de fatouma medida de probabilidade, basta entao verificar a propriedade de aditividade contavelpara intervalos. Se Ii for uma colecao de intervalos semi–abertos disjuntos de R, entao

PX

(⋃iIi

)= P

(X ∈

⋃iIi

)= P

(⋃iX ∈ Ii

).

Como X e uma funcao mensuravel, X−1(Ii)i e uma colecao de conjuntos mensuraveisdisjuntos (Por que?) e segue

P

(⋃iX ∈ Ii

)=∑

i

P(X ∈ Ii) =∑

i

PX(Ii)

O resultado a seguir implica que uma medida de probabilidade PX induzida por Xpode ser caracterizada por sua funcao de distrubuicao

FX(x) = P(X ≤ x) = PX ((−∞, x])

denotada simplesmente por F quando nao houver ambiguidade.

Definicao 2.15 F : R −→ R e uma funcao distribuicao se

1. for nao decrescente: F (x) ≤ F (y), ∀x < y

2. contınua a direita: limy↓x F (y) = F (x)

3. F (∞) = 1 e F (−∞) = 0

Page 58: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

58 2. Introducao a Probabilidade

Teorema 2.16 Cada medida de probabilidade P em (R,B) determina univocamente umadistribuicao pela correspondencia

F (x) = P((−∞, x]) . (2.23)

Conversamente, dado uma funcao distribuicao F , existe uma unica medida de probabili-dade P em (R,B) satisfazendo (2.23).

Nota 2.17 Os conjuntos cilındricos determinam igualmente a medida de probabilidadepela correspondencia

P ((a, b]) = F (b) − F (a)

P ([a, b)) = F (b−) − F (a−)

onde o limite a esquerda F (x−) = limy↑x F (y) coincide com F (x) somente se x for umponto de continuidade de F .

Prova da implicacao =⇒. Seja P uma medida de probabilidade em (R,B) e F dado por(2.23). Para x < y, temos por aditividade

F (y) = P ((−∞, y])) = P ((−∞, x] ∪ (x, y]) = P ((−∞, x]) + P ((x, y]) ≤ F (x)

Seja (xn)n≥1 uma sequencia numerica decrescente tal que xn → x. Pelo fato que(−∞, xn] ⊃ (−∞, xn′] se n < n′, segue do axioma da continuidade

F (xn) = P ((−∞, xn]) ↓ P ((−∞, x]) = F (x)

e F e contınua a direita. Pelo axioma da continuidade temos

F (−∞) = limx→−∞

P ((−∞, x]) = P (∅) = 0

eF (∞) = lim

x→∞P ((−∞, x]) = 1 − lim

x→∞P ((x,∞)) = 1 − P (∅) = 1

de onde se conclui que F e uma funcao distribuicao.2

Prova da implicacao ⇐=. Para a demonstracao da segunda parte do teorema basta seguiros passos do Teorema da extensao de Catheodory 2.13 para a medida de Lebesgue,substituindo na definicao de medida exterior o comprimento l (I) do intervalo I = (a, b]por F (b) − F (a).

2

Daremos uma construcao alternativa da medida P na segunda parte do Teorema 2.16.Seja ([0, 1),B, µ) o espaco de probabilidade onde B e a agebra de Borel dos subconjuntosde [0, 1) e µ a medida de Lebesgue, e defina a variavel aleatoria

X(ω) = sup y : F (y) < ω .

Note que X e “moralmente” a inversa de F . Por definicao, temos

ω ∈ [0, 1) : X(ω) ≤ x = ω ∈ [0, 1) : ω ≤ F (x) .

Page 59: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.2 Teoria da Probabilidade 59

e, portanto,

µ (ω ∈ [0, 1) : X(ω) ≤ x) = µ (ω ∈ [0, 1) : ω ≤ F (x)) = F (x)

A medida de probabilidade PX induzida por X satisfaz

PX ((a, b]) = µ (ω ∈ [0, 1) : a < X(ω) ≤ b)= µ (ω ∈ [0, 1) : X(ω) ≤ b) − µ (ω ∈ [0, 1) : X(ω) ≤ a)= F (b) − F (a)

2

2.2.3 Funcao Distribuicao

Embora uma variavel aleatoria X determine uma unica distribuicao de probabilidadeF , o contrario, porem, e falso. Por exemplo, as funcoes de Rademacher rj(x)j≥1, queformam um conjunto de variaveis aleatorias em ([0, 1),B, µ) independentes, sao distintasuma das outras porem igualmente distribuidas. Nesta subsecao examinaremos algumaspropriedades da funcao distribuicao F que nos permitira classifica–las em discretas, ab-solutamente contınuas e singular contınuas. Daremos em seguida exemplos de cada tipode distribuicao.

Definicao 2.18 Seja F uma funcao distribuicao. Dizemos que x e um ponto de con-tinuidade para F se

F (x−) := limy↑x

F (y) = F (x) = limy↓x

F (y) := F (x+) .

A funcao F e discontinua em x se o salto da funcao neste ponto for positivo

F (x+) − F (x−) > 0 .

Observacoes.

1. Note que os limites acima existem devido a monoticidade de F .

2. Uma funcao F pode ser discontınua em um conjunto contavel de pontos xn, n ≥ 1com o ponto de acumulacao sendo um ponto de continuidade de F . Por exemplo,

F (x) =

0 se x < 01 − 1/n se 1 − 1/n ≤ x < 1 − 1/(n+ 1)1 se x ≥ 1

.

Enunciaremos a seguir dois resultados de carater geral.

Teorema 2.19 O conjunto de pontos de descontinuidade para F e contavel.

Page 60: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

60 2. Introducao a Probabilidade

Prova. Considere para cada x ∈ (0, 1) o intervalo aberto Ix = (F (x−), F (x+)). Ix = ∅ sex for um ponto de continuidade para F e Ix 6= ∅ se o salto de F neste ponto for positivo.Denotando por D o conjunto dos pontos x de descontinuidade para F , temos Ix ∩ Ix′ = ∅para todo x, x′ ∈ D com x 6= x′. Disso segue que a cardinalidade de D nao pode ser maiorque a cardinalidade de uma famılia F qualquer de conjuntos abertos disjuntos contidaem [0, 1] e F , por sua vez, e um conjunto contavel. Lembre que todo aberto em R contempelo menos um racional e o conjunto Q e contavel.

2

Teorema 2.20 Duas funcoes F e F ′ de distribuicao que coincidem

F (x) = F ′(x)

em cada ponto x de um conjunto A denso em R, coincidem em todos os pontos de R.

Exercıcio 2.21 Demonstre este Teorema e, em seguida, de um contra–exemplo.

Seja xn, n ≥ 1 um conjunto contavel finito ou infinito (possivelmente denso) e seja

cn, n ≥ 1 tal que cn ≥ 0 e∑

n≥1

cn = 1. A combinacao linear convexa

F (x) =∑

n≥1

cn θ (x− xn)

da funcao degrau

θ(z) =

0 se z < 01 se z ≥ 0

e uma funcao distribuicao puramente discontınua. Note que F e monotona crescente:

F (x′) − F (x) =∑

n≥1

cn (θ(x′ − xn) − θ(x′ − xn))

=∑

n:x<xn≤x′

cn ≥ 0 (2.24)

para x < x′, com saltoF (x+) − F (x−) = ck (2.25)

em x = xk. Uma funcao F deste tipo, denotada frequentemente por Fd, e denominadafuncao distribuicao discreta.

Teorema 2.22 Seja F uma funcao distribuicao, discontınua no conjunto xn, n ≥ 1,denotado aqui por D, com salto

cn = F (x+) − F (x−)

em x = xn. Subtraindo de F sua parte discreta

hd(x) =∑

n≥1

cnθ (x− xn)

Page 61: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.2 Teoria da Probabilidade 61

resulta uma funcao hc : R −→ [0, 1] monotona crescente

hc(x) = F (x) − hd(x)

contınua em cada x ∈ R. Como hd(−∞) = 0 e

0 ≤ hd(∞) =∑

n≥1

cn = α ≤ 1 ,

F pode ser decomposta univocamente em uma combinacao convexa

F (x) = αFd(x) + (1 − α)Fc(x)

de duas distribuicoes Fd = hd/α e Fc = hc/(1−α), discreta e contınua, respectivamente.

Prova. Claramente, hc e contınua e monotona crescente. Por (2.24) e (2.25), temos

hc(x+) − hc(x−) = F (x+) − F (x−) − (hd(x+) − hd(x−))

= ck − ck = 0

se x = xk para algum k ≥ 1 e identicamente 0 se x for um ponto de continuidade paraF e, pelas mesma equacoes, hc(x) ≤ hc(x

′) se x < x′ com x, x′ pontos de continuidadepara F . A unicidade da decomposicao segue do Teorema 2.20.

2

A parte contınua hc de uma distribuicao F pode conter duas componentes de naturezadistintas:

Definicao 2.23 Uma funcao de distribuicao F e absolutamente contınua (com re-speito a mediada de Lebesgue) se e somente se existir uma funcao f : R −→ R integravel(por Lebesgue) positiva tal que para todo x < x′, temos

F (x′) − F (x) =

∫ x′

x

f(z) dz .

Disso segue que F (x) e diferenciavel com

F ′(x) = f(x) ≥ 0

para todo x ∈ R, com excecao de um conjunto N de medida de Lebesgue nula e∫ ∞

−∞f(x) dx = 1

Uma variavel aleatoriaX pode ser discreta ou contınua. Alguns exemplos de variaveisdiscretas ja foram mencionadas anteriormente. Vejamos agora exemplos do segundo tipode variavel aleatoria.

Uma funcao distribuicao F e absolutamente contınua se existir uma funcao men-suravel f : R −→ R tal que

F (x) =

∫ x

−∞f(y) dy . (2.26)

Page 62: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

62 2. Introducao a Probabilidade

f e a funcao densidade de X. Devido ao Teorema Fundamental do Calculo,

f(x) =dF

dx(x) ,

e F e diferenciavel em quase todos pontos de seu domınio.A relacao (2.26) pode servir para definir a funcao distribuicao F a partir de sua den-

sidade f . A condicao necessaria e suficiente para que F seja uma funcao distribuicao e

que f seja mensuravel, f(x) ≥ 0 para quase todo x e

∫ ∞

−∞f(x) dx = 1.

Daremos a seguir alguns exemplos de funcao distribuicao absolutamente contınua.

Distribuicao uniforme em (a, b) A funcao densidade uniforme, que atribui igual pesopara todo pontos do intervalo (a, b],

f(x) =

1

b− ase a < x ≤ b

de outra forma

(2.27)

tem funcao distribuicao

F (x) =

0 x ≤ ax− a

b− aa < x ≤ b

1 x > b

Distribuicao exponencial A funcao densidade exponencial e dada

f(x) = λe−λx , λ > 0

se x ≥ 0 e 0 se x < 0. Sua funcao distribuicao e

F (x) =

0 x ≤ 01 − e−λx x ≥ 0

Distribuicao Gaussiana A funcao densidade Gaussiana

f(x) =1√2π σ

e−(x−µ)2/(2σ2)

Distribuicao de Cauchy A funcao densidade de Cauchy

f(x) =1

π

γ

(x− a)2 + γ2, γ > 0

A funcao distribuicao F e absolutamente contınua se puder ser escrita na forma (2.26).F e dita singular se a medida correspondente for singular com respeito a medida deLebesgue. Daremos um exemplo de distribuicao singular contınua.

Page 63: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.2 Teoria da Probabilidade 63

Distribuicao uniforme em um conjunto de Cantor Podemos definir um conjuntode Cantor da seguinte forma: No intervalo [0, 1], remove–se o intervalo aberto(1/3, 2/3). Em seguida, remove–se o aberto terco do meio de cada intervalo fechadorestante. Remove–se entao o aberto terco do meio de cada um dos intervalosfechados restantes da remocao anterior. Continuando este processo de remocao in-definidamente, chegamos ao conjunto de cantor C. Note que C e fechado e qualquerponto ξ ∈ C pode ser escrito na base ternaria como

ξ =∞∑

n=1

θn1

3n(2.28)

com dıgitos θn ∈ 0, 2, qualquer que seja n ∈ N. Note ainda que o conjunto deCantor C nao pode ser contavel pois existe uma relacao biunıvoca que associa cadaξ ∈ C, dado por (2.28), a um numero real em [0, 1), cuja expansao na base binariae

x =

∞∑

n=1

εn1

2n(2.29)

com digitos εn ∈ 0, 1. A bijecao e estabelecida pela relacao

θn(ξ) = 2εn(x) , n ∈ N . (2.30)

C nao e contavel pois os numeros reais no intervalo [0, 1) nao e contavel. Definimos afuncao distribuicao uniforme em C atribuindo F (x) = 0 se x ≤ 0, F (x) = 1 se x ≥ 1,F (x) = 1/2 se x ∈ [1/3, 2/3], F (x) = 1/4 se x ∈ [1/9, 2/9], F (x) = 3/4 se x ∈[7/9, 8/9] e etc. . A funcao F resultante e singular pois nao existe nenhuma funcaof para a qual (2.26) seja valida. A funcao F assim definida e uma escada cujospatamares se estendem sobre os intervalos removidos. Esta distribuicao, conhecidacomo escada do diabo, e uma funcao contınua! porem nao diferenciavel nointervalo (0, 1). Note que, pela definicao da medida de probabilidade associada,P(Cc) = 0. Para isso, lembre que P ((a, b]) = F (b) − F (a) = 0 se (a, b] ⊂ Cc.

Definicao 2.24 Um medida de probabilidade P e dita ser discreta se existir um conjuntocontavel A de pontos tal que P (Ac) = 0.

Se X e uma variavel discreta entao existe x1, x2, . . . , com xj < xj+1, para os quais adistribuicao deX e nao nula. A funcao distribuicao deX e constante em cada subintervalo[xj , xj+1) com

PX ((a, b]) = FX(b) − FX(a) = pj

para todo intervalo (a, b] tal que xj−1 < a < xj ≤ b < xj+1. A sequencia de pesos, pjnj=1

com pj ≥ 0 e

n∑

j=1

pj = 1, determina completamente a variavel aleatoria X e

PX(xj) = P (X = xj) = pj , j = 1, 2, . . . , n ,

e a distribuicao de X.Antes de darmos mais alguns exemplos de variaveis aleatorias discretas, introduziremos

o conceito de independencia.

Page 64: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

64 2. Introducao a Probabilidade

2.2.4 Independencia

Segundo nossa intuicao, dois eventos sao independentes se a ocorrencia ou nao ocor-rencia de um deles nao afeta as chances do outro evento.

Tomemos como exemplo o lancamento de duas moedas (honestas): Os possiveis resul-tados sao os elementos de Ω = (, ); (, •); (•, ); (•, •), onde “” significa que o resul-tado e coroa e “•” cara. Seja E1 o evento coroa no primeiro lancamento e E2 = carano segundo lancamento. Claramente, o resultado do primeiro lancamento nao afeta aschances do segundo e vice–versa.

Como cada um dos resultados sao igualmente provaveis, a probabilidade destes eventospode ser facilmente calculada:

P (E1) =|(, ); (, •)|

|Ω| =2

4=

1

2

P (E2) =|(, •); (•, •)|

|Ω| =2

4=

1

2

Em particular,

P (E1 ∩ E2) =|(, •)|

|Ω| =1

4= P (E1) · P (E2) .

Primeiramente, introduzimos

Definicao 2.25 A probabilidade condicional P (A|B) do evento A, dado que o eventoB tenha ocorrido, e definida por

P (A|B) =P (A ∩B)

P (B). (2.31)

Para ver que o evento B se torna o novo espaco amostral a partir do qual seus subcon-juntos sao agora medidos, seja (Ω,F, P ) um espaco de probabilidade contavel com

P (E) =|E||Ω| .

A probabilidade condicional de E, dado que F ocorra, e dada por

P (E|F ) =|E ∩ F |/|Ω||F |/|Ω| =

|E ∩ F ||F | .

Dizemos que a ocorrencia de E nao e afetada pela ocorrencia de F se a relacao

P (E|F ) = P (E)

for satisfeita. Isto e, condicionar o evento E ao evento F nao altera sua probabilidade.Consequentemente, em vista de (2.31), temos

Definicao 2.26 um evento E e independente de F se e somente se

P (E ∩ F ) = P (E) · P (F )

Page 65: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.2 Teoria da Probabilidade 65

No caso de uma colecao de eventos, a condicao de independencia e dada pela seguintedefinicao:

Definicao 2.27 Uma colecao de eventos E1, E2, . . . , En e dita ser independente, se paraqualquer subcolecao Ei1 , Ei2 , . . . , Eik a seguinte relacao

P (Ei1 ∩ Ei2 ∩ · · · ∩Eik) = P (Ei1) · P (Ei2) · · ·P (Eik)

for satisfeita.

Para ver por que devemos impor a condicao para todas as subcolecoes, retornemos aolancamento de dois dados e consideremos o evento E3 = primeiro lancamento diferentedo segundo lancamento. Temos entao

P (E1 ∩E2) = 1/4 = P (E1) · P (E2)P (E1 ∩E3) = 1/4 = P (E1) · P (E3)P (E2 ∩E3) = 1/4 = P (E2) · P (E3)

mas

P (E1 ∩ E2 ∩E3) = 1/4 6= P (E1) · P (E2) · P (E3)

Uma ultima definicao.

Definicao 2.28 Uma sequencia de variaveis aleatorias X1, X2, . . . , Xn em (Ω,F, P ), edita ser independente, se e somente se a probabilidade PX induzida pelo vetor aleatorioX = (X1, X2, . . . , Xn) for da forma produto:

PX(I1 × · · · × In) = PX1(I1) · · ·PXn(In)

para qualquer colecao de intervalos de R, I1, . . . , In.

Note que I1 × I2 = I1 × R ∩ R × I2 e

PX1,X2 (I1 × I2) = PX1,X2 (I1 × R) · PX1,X2 (R × I2) = PX1(I1) · PX2(I2) ,

por definicao.

Retornemos aos exemplos de variaveis aleatorias discretas.

Bernoulli Uma variavel aleatoria de Bernoulli B e descrita pela distribuicao de proba-bilidade

PB(b) =

p se b = 1 (sucesso)

1 − p se b = 0 (falha)(2.32)

com 0 < p < 1. A funcao distribuicao neste caso e dada por

FB(x) =

0 se x < 01 − p se 0 ≤ x < 11 se x ≥ 1

Page 66: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

66 2. Introducao a Probabilidade

Considere uma sequencia de n tentativas de Bernoulli. O espaco de probabilidade(Ω,F, P ) e o espaco produto com Ω = ω = (ω1, ω2, . . . ωn) : ωi ∈ 0, 1, F a algebra dossubconjuntos de Ω e, para cada ω ∈ Ω,

P (ω) = P (ω1) · P (ω2) · · · · · P (ωn).

Se Ei = 0, 1 × · · · ×0, 1 × 1 × 0, 1 × · · · ×0, 1 denota o evento de obtersucesso na i–esima tentativa, Ei = ω : ωi = 1, e

E(k) = Ei1 ∩ · · · ∩Eik ∩Ecik+1

∩ · · · ∩Ecin

denota o evento de ter sucesso em k tentativas, entao

P (E(k)) = P (Ei1) · · ·P (Eik) · P (Ecik+1

) · · ·P (Ecin) = pk (1 − p)n−k

Binomial Para n ∈ N, seja Nn a variavel aleatoria correspondente ao numero de suces-sos em n tentativas de Bernoulli. A medida de probabilidade de Nn e dada peladistribuicao binomial

PNn(k) =(nk

)pk (1 − p)n−k, k = 0, 1, . . . , n.

Note que o fator binomial(

nk

)conta o numero de eventos com k sucessos e

n∑

k=0

PNn(k) = (p+ (1 − p))n = 1 .

Poisson Considere uma sequencia de eventos ocorrendo no intervalo de tempo I =[0, t] ∈ R+. A ocorrencia ou nao ocorrencia do evento e modelado por uma variavelaleatoria de Bernoulli com parametro p. O intervalo I e subdividido em n subin-tervalos igualmente espacados de tamanho δn = t/n e e suposto que nao haja maisde um evento ocorrendo em cada subintervalo. Se a ocorrencia de cada evento forindependente dos demais, a probabilidade de ocorrer k eventos em n = t/δn subin-tervalos segue a distribuicao binomial

PNn(k) =(nk

)pk (1 − p)n−k. (2.33)

Seja p = pn tal quepn

δn=n pn

t−→ λ,

quando n→ ∞, com 0 < λ <∞ fixo. Denotando por Nt o numero de occorrenciasate o tempo t, a probabilidade de Nt = k converge para a distribuicao de Poisson

PeNt

(k) = limn→∞

PNt/δn(k)

= e−λt (λt)k

k!. (2.34)

Page 67: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.2 Teoria da Probabilidade 67

Verificacao. A formula de Stirling (1.39), pode ser usada para escrever

n!

k! (n− k)!∼ 1

k!

nn e−n

(n− k)n−k e−(n−k)

∼ nk e−k

k!

(1 − k

n

)k

(1 − k

n

)n .

que ao substituir em (2.33) com pn =λt

n, resulta

PNt/δn(k) =

(nk

)( pn

1 − pn

)k

(1 − pn)n

∼ (λt)k e−k

k!

(1 − k

n

)n

(1 − k

n

)

1 − λt

n

k

(1 − λt

n

)n

∼ (λt)k e−k

k!

(1 − k

n

)n

(1 − λt

n

)n

.

Equacao (2.34) segue do fato que

limn→∞

(1 +

x

n

)n

= ex . (2.35)

2

Geometrica Se X denota a variavel aleatoria para o ocorrencia do primeiro sucesso emuma sequencia de tentativas de Bernoulli com parametro p, a probabilidade que umsucesso ocorra na k–esimo tentativa e uma distribuicao geometrica

PX(k) = (1 − p)k−1 p, k = 1, 2, . . . . (2.36)

Note que∞∑

k=1

PX(k) = p∞∑

j=0

(1 − p)j =p

1 − (1 − p)= 1.

Exponencial Descreveremos a distribuicao do tempo de espera para um evento ocorrercomo um limite da distribuicao geometrica. Vamos assumir que os eventos ocorremem intervalos de tempo δ. Se T = δXδ e o tempo de espera ate ocorrer o primeirosucesso em uma sequencia de tentativas de Bernoulli com parametro pδ = αδ, α > 0,a probabilidade de T > t = nδ e dada por

P (T > t) = P (Xδ > n)

=

∞∑

j=n+1

pδ (1 − pδ)j−1

= (1 − pδ)n . (2.37)

Page 68: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

68 2. Introducao a Probabilidade

No limite em que δ → 0 (n→ ∞), com t mantido finito,

P (T > t) = limδ→0

P (Xδ > t/δ) = limn→∞

(1 − α t

n

)n

= e−αt,

e portanto

F (t) =

∫ t

0

fT (τ) dτ = 1 − P (T > t) = 1 − e−αt.

A funcao densidade exponencial e entao obtida pelo teorema fundamental do cal-culo:

fT (t) =dF

dt(t) = α e−αt. (2.38)

Finalmente, faremos algumas aplicacoes.

Exercıcio 2.29 Seja Z = XY onde X e Y sao variaveis aleatorias independentes euniformemente distribuıdas em (0, 1). Calcule a funcao distribuicao da variavel aleatoriaZ e sua funcao densidade.

Resposta. Seja Ω = (0, 1) × (0, 1) o espaco amostral, F a menor algebra contendo acolecao de todos “retangulos” R = I1 × I2 de Ω e seja X(x, y) = x e Y (x, y) = y,variaveis aleatorias. A funcao densidade e da forma produto f(x, y) = f(x) · f(y), comf(ξ) dada por (2.27) com a = 0 e b = 1, isto e

f(x, y) =

1 0 < x < 1, 0 < y < 10 de outra forma

A probabilidade do evento R ∈ F e dada por

P (R) =

R

f(x, y) dx dy

Por definicao, a funcao distribuicao da variavel Z e

F (z) = P (Z ≤ z) = P ((x, y) : xy ≤ z) =

xy≤z

f(x, y) dx dy

Claramente, F (z) = 0 se z ≤ 0 pois f(x, y) = 0 se x < 0 ou y < 0. Para 0 ≤ z < 1,

F (z) =

∫ z

0

dx+

∫ 1

z

z

xdx

= z − z ln z

(Por que? Note que y = z/x e a equacao de uma hiperbole). Finalmente, F (z) = 1 sez > 1. A funcao densidade e dada por

f(z) = F ′(z) =

− ln z 0 < z < 10 de outra forma

Apesar de f divergir em z = 0 a divergencia e integravel.

Page 69: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.2 Teoria da Probabilidade 69

Exercıcio 2.30 Seja Z = X + Y com X e Y como no exercıcio anterior. Calcule afuncao distribuicao e funcao densidade de Z.

Resposta. Analogamente

F (z) = P (Z ≤ z) = P (X + Y ≤ z) =

x+y≤z

f(x, y) dx dy

Temos que F (z) = 0 se z < 0 e, para 0 ≤ z < 1,

F (z) =

∫ z

0

(z − x)dx =z2

2.

Temos ainda, F (z) = 1 se z ≥ 2 e, para 1 ≤ z < 2,

F (z) = 1 − (2 − z)2

2

Portanto

f(z) = F ′(z) =

z 0 < z < 12 − z 1 ≤ z < 20 de outra forma

.

2.2.5 Esperanca e Funcao Caracterıstica

Iniciaremos com uma definicao.

Definicao 2.31 Seja X uma variavel aleatoria no espaco de probabilidade (Ω,F, P ) eg : R −→ R uma funcao mensuravel. O valor esperado (ou esperanca) de g (X), edefinido por

E [g (X)] =

Ω

g (X) dP =

∫ ∞

−∞g(x) dF (x) . (2.39)

Claramente, (2.39) somente faz sentido se a integral existir. Aqui dF e um sımbolocujo significado depende da distribuicao: se F for absolutamente contınua, dF (x) =dF

dx(x) dx = f(x) dx e

E [g(X)] =

∫ ∞

−∞g(x) f(x) dx ;

se X for uma variavel discreta com pesos p1, p2, . . . , pn nos pontos x1, x2, . . . , xn,

dF (x) =n∑

i=1

pi δ(x− xi) dx ,

onde δ e a “funcao delta” de Dirac, e

E [g (X)] =

n∑

i=1

pi

∫ ∞

−∞g(x) δ(x− xi) dx

=

n∑

i=1

pi g(xi)

O valor esperado de certas funcoes de X tem um interesse especial.

Page 70: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

70 2. Introducao a Probabilidade

Definicao 2.32 As grandezas µn := E [Xn] e E [|X|n], n = 1, 2, . . . , sao denominadasn–esimo momento e n–esimo momento absoluto de X, respectivamente.

Os dois primeiros momentos descrevem as caracterısticas mais importantes de umadistribuicao: µ1 = µ = E [X] e a media de X (centro de massa da distribuicao), e osegundo momento de X − µ,

σ2 := E[(X − µ)2

]= E

[X2]− (E [X])2

e a variancia de X. Usaremos tambem a notacao Var(X) no lugar de σ2. σ e a “largura”da distribuicao de X.

Exemplo 2.33 Media e variancia da distribuicao uniforme em um conjunto de Cantorternario C. Usando a relacao (2.30), que estabelece uma relacao biunıvoca entre ξ ∈ C ex ∈ [0, 1), temos

E [θn] = 2

∫ 1

0

εn(x)dx = 1

E [θnθm] = 4

∫ 1

0

εn(x)εm(x)dx

= 2

∫ 1

0

εn(x)dx · 2∫ 1

0

εm(x)dx = 1 , se n 6= m

E[θ2

n

]= 4

∫ 1

0

ε2n(x)dx = 2

e, portanto,

E [X] =

∫ ∞

−∞xdF (x) =

∞∑

n=1

1

3nE [θn] =

1/3

1 − 1/3=

1

2,

E[X2]

=

∫ ∞

−∞x2dF (x)

=

∞∑

n,m=1

1

3n+mE [θnθm]

=

( ∞∑

n=1

1

3n

)2

+ (2 − 1)

∞∑

n=1

1

32n=

3

8

e

σ2 = E[X2]− E [X]2 =

1

8.

Note que a distribuicao uniform em C e menos dispersa que a uniforme em [0, 1), cuja avariancia e dada por σ2 = 1/12.

Desempenha um papel mais relevante a seguinte

Page 71: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.2 Teoria da Probabilidade 71

Definicao 2.34 A transformada de Fourier da funcao distribuicao de uma variavel ale-atoria X

Φ(k) := E[eikX

]=

∫ ∞

−∞eikx dFX(x) , (2.40)

e denominada funcao caracterıstica de X.

A funcao caracterıstica of X satisfaz as seguintes propriedades:

1. Φ(0) = 1;

2. Φ∗(k) = Φ(−k);3. |Φ(k)| ≤ 1;

4. Φ e uniformemente continua no intervalo (−∞,∞).

A propriedade 1. e consequencia da normalizacao∫ ∞

−∞dFX(x) = 1 ;

2. segue da propria definicao 2; 3. e implicado pela estimativa∣∣eikx

∣∣ ≤ 1 combinada coma normalizacao. A desigualdade 3. e saturada somente para k = 0 caso FX nao sejaconcentrada nos inteiros. Deixaremos a verificacao da propriedade 4. como exercıcio.

As propriedades 1., 2., 3. e 4. sao condicoes necessarias para que Φ seja a funcaocaracterıstica de uma variavel aleatoria X. Nesta secao veremos tambem quais sao ascondicoes suficientes. Da mesma forma que a funcao distribuicao, a funcao caracterısticatambem caracteriza uma variavel aleatorica X. Veremos mais adiante que a convergenciade uma sequencia de variaveis aleatorias pode ser examinada mais simplesmente pelocomportamento da correspondente sequencia de funcoes caracterısticas.

Uma outra importante propriedade de Φ esta relacionada com o seu comportamentoem k = 0. Quando os momentos de X forem definidos, obtemos por diferenciacao de(2.40):

µn = (−i)ndnΦ

dkn(0), n = 1, 2, . . . .

Por este motivo, denominamos Φ a funcao geratriz dos momentos.A funcao caracterıstica Φ serve tambem para gerar os cumulantes de uma variavel

aleatoria:

κn := (−i)ndn lnΦ

dkn(0), n = 1, 2, . . . .

(Note que o segundo cumulante

κ2 = (−i)2

d2Φ

dk2(0) −

[dΦ

dk(0)

]2

= E[X2]− (E [X])2 = σ2

e a variancia de X)Daremos a seguir alguns exemplos de funcao caracterısticas.

2Aqui f∗ denota o complexo conjugado de f ∈ C.

Page 72: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

72 2. Introducao a Probabilidade

Exemplo 2.35 1.

2. BernoulliΦ(k) = 1 + p(eik − 1)

3. BinomialΦ(k) =

(1 + p(eik − 1)

)n

4. Uniforme no conjunto de Cantor C

Φ(k) =∞∏

n=1

eik/3n

cosk

3n

5. Gaussiana (com µ = 0)

Φ(k) = e−σ2k2/2

6. Uniforme em (a, b)

Φ(k) =

(eikb − eika

)

ik(b− a)

7. Exponencial

Φ(k) =λ

λ− ik

8. Cauchy (com a = 0)Φ(k) = e−γ|k|

Quando uma funcao Φ : R −→ C e uma funcao caracterıstica de alguma distribuicaode probabilidade? Em outras palavras, quando Φ e a transformada de Fourier de umamedida positiva dFX? Uma caracterizacao completa e dada pelo Teorema de Bochner(1937).

Para justificar a importancia do resultado que enunciaremos a seguir, considere aseguinte famılia de funcoes a dois parametros:

Φb,α(k) := exp −b |k|α , b > 0, 0 < α ≤ 2. (2.41)

Fazendo α = 1 and 2 em (2.41) obtemos, respectivamente, a funcao caracterıstica dadistribuicao de Cauchy (com b = γ) e de Gauss (com b = σ2/2). A questao que secoloca neste contexto e saber se (2.41) e a funcao caracterıstica de alguma distribuicaode probabilidade quando α 6= 1, 2. Tais distribuicoes sao chamadas distribuicoes de Levye, como veremos adiante, pertencem a classe das distribuicoes estaveis.

Teorema 2.36 (Bochner) Φ e a transformada de Fourier de uma medida de probabil-idade dF se, e somente se, Φ obedecer as seguintes condicoes:

(i) Φ e contınua em cada intervalo finito I ⊂ R e limitada em R.

(ii) Φ e hermitiana (propriedade 2. acima)

Page 73: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.2 Teoria da Probabilidade 73

(iii) Φ e positiva definida: para todos z1, . . . , zn ∈ C e k1, . . . , kn ∈ R, n ∈ N ,

n∑

i,j=1

zi z∗j Φ(ki − kj) ≥ 0. (2.42)

Toda funcao caracterıstica Φ definida por (2.40) satisfaz as condicoes (i), (ii) e (iii),pois

n∑

i,j=1

zi z∗j Φ(ki − kj) =

∫ ∞

−∞

∣∣∣∣∣

n∑

i=j

zj eikjx

∣∣∣∣∣

2

dF (x) ≥ 0. (2.43)

Isto prova que estas condicoes sao suficientes (a implicacao ⇐ do Teorema 2.36). A provaque estas condicoes sao tambem necessarias (implicacao ⇒) sera omitida neste curso.

Nao e difıcil verificar as propriedades (i), (ii) and (iii) para a famılia de funcoes(2.41). Pode–se tambem mostrar que para α > 2, Φ e a transformada de Fourier de umadistribuicao dF que nao e positiva.

Se X, Y forem duas variaveis aleatorias distribuıdas de acordo com FX e FY , entaoZ = X + Y e distribuıda de acordo com FZ , onde

FZ(z) =

∫ ∞

−∞FX(z − y) dFY (y) ≡ (FX ∗ FY ) (z) .

Note que se X e Y forem absolutamente contınuas, FZ(z) e diferenciavel com excessaode um conjunto de medida de Lebegue nula e, tomando a derivada com respeito a z, estaequacao se reduz a

fZ(z) =

∫ ∞

−∞fX(z − y) fY (y) dy

que e definicao usual de produto de convolucao fX ∗ fY .Se X1, X2, · · · , Xn sao variaveis aleatorias i.i.d., a funcao caracterıstica da variavel

soma Sn = X1 + · · · +Xn e, pelo teorema da convolucao,

ΦSn(k) =

∫ ∞

−∞ei k s dFSn(s)

=

∫ ∞

−∞ei k s d (FX1 ∗ FX2 ∗ · · · ∗ FXn) (s)

= ΦX1(k) · · · ΦXn(k)

= ΦnX1

(k) (2.44)

cuja expressao sera util na demonstracao do Teorema Central do Limite.Note que, se X1, X2, · · · , Xn forem variaveis aleatorias i.i.d., e g1, g2, · · · , gn funcoes

mensuraveis, entao

E [g1 (X1) · · · gn (Xn)] = E [g1 (X1)] · · ·E [gn (Xn)]

=

n∏

i=1

E [gi (X1)] .

A equacao (2.44) segue tambem desta expressao com g1(x) = g2(x) = gn(x) = eikx.

Page 74: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

74 2. Introducao a Probabilidade

2.3 Distribuicao Limite de Somas de Variaveis Aleatorias Independentes

Na Secao 2.1.2, demonstramos o Teorema de DeMoivre–Laplace sobre a distribuicaolimite da soma de n variaveis aleatorias independentes e identicamente distribuıdas comdistribuicao Bernoulli.

Interpretamos as realizacoes da variavel soma como trajetorias de um passeio aleatorioque, no limite, converge para as trajetorias do movimento Browniano. Em detalhes, aposicao do passeio aleatorio, partindo da origem, com passos de tamanho a, no instantet = nδ (com δ = a2)

Wt(x) = an∑

j=1

rj(x) =1√n

n∑

j=1

ξj(x)

e constituıda por variaveis aleatorias ξj(x) independentes e igualmente distribuidas,com distribuicao de Bernoulli: P

(ξj = ±

√t)

= 1/2. Wt e uma variavel aleatoria em([0, 1),B, µ) de media

EWt =1√n

n∑

j=1

Eξj = 0

e variancia

EW 2t =

1

n

n∑

i,j=1

Eξiξj =1

n

n∑

j=1

Eξ2j = t ,

uniforme em n. A funcao caracterıstica de Wt

EeikWt = E exp

(ik√n

n∑

j=1

ξj

)=

n∏

j=1

E exp

(ik√nξj

)=

(cos

√t

nk

)n

converge, devido ao Lema 2.3, quando n→ ∞, para a funcao caracterıstica

EeikZt = exp

(−1

2tk2

)

da variavel aleatoria Gaussiana Zt de media 0 e variancia t.Neste secao investigaremos as leis limites de soma de variaveis aleatoria independentes

em geral. Estenderemos, primeiramente, o Teorema de DeMoivre–Laplace para variaveisaleatorias com variancia finita. As condicoes necessarias e suficientes para o teoremacentral do limite serao elaboradas a seguir. Esta discussao nos levara as distribuicoesinfinitamente divisıveis. Apresentaremos alguns exemplos e uma classificacao completadestas devido a de Levy–Khintchine. Introduziremos exemplos de sequencias de soma devariaveis aleatorias que convergem para as distribuicoes estaveis de Levy.

2.3.1 Teorema Central do Limite I

Nesta subsecao estenderemos o Teorema de DeMoivre–Laplace.

Page 75: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.3 Distribuicao Limite de Somas de Variaveis Aleatorias Independentes 75

Teorema 2.37 (Teorema Central do Limite) Seja X1, X2, . . . uma sequencia devariaveis aleatorias i.i.d com distribuicao FX de media µ := E [X] e variancia σ2 :=E [X2] finitas. Entao

Zn :=Sn − nµ√

nσ, (2.45)

com Sn = X1 + · · · + Xn, converge em distribuicao, quando n → ∞, para a variavelaleatoria Gaussiana Z centrada na origem de variancia unitaria.

Uma sequencia de variaveis aleatorias Zn converge em distribuicao para Z sea funcao distribuicao FZn convergir fracamente para FZ . Isto e, se FZn(z) −→ FZ(z),quando n → ∞ para todo z que e um ponto de continuidade de FZ . Claramente, seFZn −→ FZ fracamente, entao a funcao caracterıstica de Zn converge para a funcaocaracterıstica de Z, ΦZn(k) −→ ΦZ(k), para cada k ∈ R (Por que ?).

Por outro lado, uma condicao necessaria para que FZn convirja fracamente para FZ , eque ΦZn convirja para uma funcao ΦZ contınua em k = 0. Observe que

1

u

∫ u

−u

(1 − eikz

)dk = 2

(1 − sin uz

uz

)

e, integrando sobre a distribuicao,

1

u

∫ u

−u

(1 − ΦZn(k)) dk = 2

∫ (1 − sin uz

uz

)dFZn(z)

≥ 2

|z|≥2/u

(1 − 1

|uz|

)dFZn(z)

≥ P (|Zn| > 2/u) .

Como ΦZ e contınua na origem,1

u

∫ u

−u

(1 − ΦZ(k)) dk −→ 0 quando u → 0. Segue do

Teorema da Convergencia Dominada que, dado ε > 0 e u suficientemente pequeno, existeN = N (ε) tal que

P (|Zn| > 2/u) = 1 − P (|Zn| ≤ 2/u)

= 1 − FZn(2/u) + FZn(−2/u) ≤ ε

se n ≥ N . Isto significa que nao ha perda de massa da distribuicao para o infinito eFZn(z) −→ FZ(z), quando n → ∞, fracamente (para maiores detalhes, veja Durret,Probability: Theory and Examples, Cap. 2). Usaremos a seguir a funcao caracterısticapara demosntrar o Teorema Central do Limite.

Prova do Teorema 2.37. Seja Yk := (Xk − µ) /σ e note que Yk, k ∈ N, sao identicamentedistribuıdas por FY , uma distribuicao de media zero e variancia unitaria. Alem disso,temos

Zn =Y1 + · · ·+ Yn√

n.

De (2.44), obtemos

ΦZn(k) = E[ei k Zn

]=(E

[ei k Y/

√n])n

:=(ϕ(k/

√n))n

. (2.46)

Page 76: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

76 2. Introducao a Probabilidade

Para provar o Teorema 2.37, precisamos mostrar que o lado direito desta expressao con-verge, quando n→ ∞, para funcao caracterıstica de Z:

ΦZ(k) := e− k2/2 .

Para isso, basta mostrar que ϕ admite ser representada como

ϕ(k/

√n)

= 1 − k2

2n− η (2.47)

com uma funcao erro η tal que n η → 0 quando n→ ∞. Note que

limn→∞

(ϕ(k/

√n))n

= limn→∞

(1 − k2

2n− η

)n

= limn→∞

(1 − k2

2n

)n

+ O (nη)

= e− k2/2

onde usamos na segunda linha (com |w| , |v| ≤ 1)

|wn − vn| = n

∣∣∣∣∫ w

v

yn−1 dy

∣∣∣∣≤ n |w − v|

com w = 1 − k2/(2n) − η e v = 1 − k2/(2n).Para a estimativa (2.47), integrando por partes, temos

∫ x

0

(x− s) eis ds = ix−(eix − 1

)(2.48)

Por outro lado, escrevendo eis como (eis − 1) + 1 na integral do lado esquerdo, obtemos

∫ x

0

(x− s) eis ds =

∫ x

0

(x− s)(eis − 1

)ds− x2

2. (2.49)

A equacao (2.48) juntamente com (2.49), resulta

eix = 1 + ix− x2

2− e(x) (2.50)

onde

e(x) =

∫ x

0

(x− s)(eis − 1

)ds . (2.51)

A funcao erro e tem comportamento diferente dependendo d0 valor de x: se x forpequeno, integrando por partes novamente,

e(x) =i

2

∫ x

0

(x− s)2 eis ds

Page 77: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.3 Distribuicao Limite de Somas de Variaveis Aleatorias Independentes 77

pode ser estimada por

|e(x)| ≤ 1

2

∫ |x|

0

(|x| − s)2 ds =1

6|x|3 . (2.52)

Para valores de x grandes, usamos |eis − 1| ≤ 2 em (2.51) para obter a estimativa

|e(x)| ≤ 2

∫ |x|

0

(|x| − s) ds = x2 . (2.53)

Substituindo x = (k/√n)Y na equacao (2.50), temos

E

[exp

(i k

Y√n

)]= 1 +

ik√n

E [Y ] − k2

2nE[Y 2]− E

[e(kY/

√n)]

= 1 − k2

2n− η

onde, em vista de (2.52) e (2.53),

|η(k)| =∣∣E[e(kY/

√n)]∣∣ ≤ 1

nE

[min

(|k|3 |Y |3

6√n

, k2Y 2

)].

Finalmente, o ultimo valor esperado e limitado por k2. Usando o Teorema da ConvergenciaDominada, concluımos

limn→∞

n |η(k)| ≤ E

[lim

n→∞min

(|k|3 |Y |3

6√n

, k2 Y 2

)]= 0.

2.3.2 Teorema Central do Limite II

De um modo geral, seja X1, X2, . . . , Xj , . . . uma sequencia de variaveis aleatorias inde-pendentes de media µj = E [Xj] e variancia σ2

j = E[(Xj − µj)

2]. Sem perda de generali-dade, vamos assumir que tenham media nula.

Para cada n, definimos a sequencia de variaveis aleatorias

Xj,n =Xj

Σn

, 1 ≤ j ≤ n

normalizada por

Σn =√σ2

1 + · · ·+ σ2n .

A soma

Tn = X1,n + · · · +Xn,n

destas variaveis e uma variavel aleatoria de media 0 e variancia unitaria.

Exercıcio 2.38 Verifique esta propriedade.

Page 78: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

78 2. Introducao a Probabilidade

A funcao caracterıstica de Tn deve, em vista deste fato e do Teorema demonstrado nasubsecao anterior, convergir pontualmente, em cada intervalo limitado e fechado, para afuncao caracterıstica da variavel aleatoria normal Z. Uma condicao sobre as distribuicoesFj de Xj , necessaria para garantir a convergencia para o limite desejado, e devido aLindeberg:

Condicao 2.39 Uma colecao de distribuicoes Fj, j = 1, . . . , n, satisfaz a condicao deLindeberg se

limn→∞

1

Σ2n

n∑

j=1

|x|>εΣn

x2dFj(x) = 0 (2.54)

e satisfeita para todo ε > 0.

Verificaremos esta afirmacao a seguir. Pela independencia das variaveis aleatorias, afuncao caracterıstica de Tn

EeikTn =

n∏

j=1

EeikXj,n =

n∏

j=1

ϕj,n(k) (2.55)

e o produto das funcoes caracterısticas ϕj de Xj calculadas no ponto k/Σn. Note queϕj,n(k) = ϕj(k/Σn).

Introduzindo a funcao ψj,n(k) pela equacao

lnψj,n(k) = ϕj,n(k) − 1

temos, aplicando a desigualdade triangular,

∣∣∣∣∣

n∏

j=1

ϕj,n(k) −n∏

j=1

ψj,n(k)

∣∣∣∣∣ =

∣∣∣∣∣ϕ1,n(k)

(n∏

j=2

ϕj,n(k) −n∏

j=2

ψj,n(k)

)

+ (ϕ1,n(k) − ψ1,n(k))

n∏

j=2

ψj,n(k)

∣∣∣∣∣

≤∣∣∣∣∣

n∏

j=2

ϕj,n(k) −n∏

j=2

ψj,n(k)

∣∣∣∣∣ + |ϕ1,n(k) − ψ1,n(k)|

≤n∑

j=1

|ϕj,n(k) − ψj,n(k)| (2.56)

Na passagem para primeira desigualdade, usamos |ϕj,n(k)| , |ψj,n(k)| ≤ 1. A segundadesigualdade e obtida por iteracao da primeira. Veremos adiante que ψj,n(k) e uma funcaocaracterıstica de uma distribuicao infinitamente divisıvel denominada Poisson composta.Assim, o objetivo e mostrar que a funcao caracterıstica infinitamente divisivel ψj,n(k) seencontra proxima, em cada ponto k, da funcao caracterıstica ϕj,n(k), a qual aquela estaassociada, de tal maneira que a soma em j, 1 ≤ j ≤ n, de sua diferenca em modulo vaia zero quando n tende a infinito.

Page 79: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.3 Distribuicao Limite de Somas de Variaveis Aleatorias Independentes 79

Analogamente, repetindo os mesmos passos para a desigualdade anterior, encontramos∣∣∣∣∣

n∏

j=1

ψj,n(k) − exp

(−k2

2

)∣∣∣∣∣ =

∣∣∣∣∣

n∏

j=1

ψj,n(k) −n∏

j=1

exp

(−σ2j k

2

2Σ2n

)∣∣∣∣∣

≤n∑

j=1

∣∣∣∣ψj,n(k) − exp

(−σ2j k

2

2Σ2n

)∣∣∣∣ (2.57)

Como, novamente pela desigualdade triangular,∣∣∣∣∣

n∏

j=1

ϕj,n(k) − exp

(−k2

2

)∣∣∣∣∣ ≤∣∣∣∣∣

n∏

j=1

ϕj,n(k) −n∏

j=1

ψj,n(k)

∣∣∣∣∣+∣∣∣∣∣

n∏

j=1

ψj,n(k) − exp

(−k2

2

)∣∣∣∣∣

concluimos de (2.55) que a funcao caracterıstica de Tn converge para a funcao carac-terıstica da variavel normal Z se as somas do lado direito das desigualdades (2.56) e(2.57) convergirem para 0 quando n tende a infinito. O controle desta convergencia eanalogo para ambos as somas. Comecaremos com a soma em (2.56).

Expandindo a exponencial em ψj,n(k) = exp (ϕj,n(k) − 1) por Taylor ate primeira or-dem com resto de Lagrange

ψj,n = 1 + (ϕj,n − 1) +1

2exp (θ (ϕj,n − 1)) (ϕj,n − 1)2

para algum 0 < θ < 1, juntamente com |exp (θϕj,n(k) − 1)| ≤ exp (θ |ϕj,n(k)| − 1) ≤ 1,temos

n∑

j=1

|ϕj,n(k) − ψj,n(k)| =1

2

n∑

j=1

|exp (θ (ϕj,n − 1))| |ϕj,n − 1|2

≤ 1

2

n∑

j=1

|ϕj,n(k) − 1|2

≤ 1

2sup

1≤j≤n|ϕj,n(k) − 1|

n∑

j=1

|ϕj,n(k) − 1| . (2.58)

Empregando, para |k| < K, o Teorema de Taylor com resto na forma integral, segue da

definicao de ϕj,n(k) = E exp (ikXj,n) juntamente com EXj =

∫xdFj(x) = 0,

|ϕj,n(k) − 1| =

∣∣∣∣∫ ∞

−∞

(eikx/Σn − 1

)dFj(x)

∣∣∣∣

=

∣∣∣∣∫ ∞

−∞

(eikx/Σn − 1 − ikx

Σn

)dFj(x)

∣∣∣∣

≤ K2

2

∫ ∞

−∞

k2

Σ2n

dFj(x)

de onde se conclui que

n∑

j=1

|ϕj,n(k) − 1| ≤ K2

2

n∑

j=1

∫ ∞

−∞

k2

Σ2n

dFj(x) =K2

2(2.59)

Page 80: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

80 2. Introducao a Probabilidade

e limitado. Logo, para mostrar que (2.58) vai a zero quando n → ∞, em todo domıniofechado e limitado de C, basta mostrar que

limn→∞

sup1≤j≤n

|ϕj,n(k) − 1| = 0

para |k| < K.Vamos assumir a condicao de Lindeberg. Se a soma sobre j em (2.54) tende a zero,

cada termo da soma tende igualmente para zero. Assim, para todo ε > 0,

limn→∞

sup0≤j≤n

|x|>εΣn

k2

Σ2n

dFj(x) = 0

de onde se conclui que

limn→∞

sup1≤j≤n

|ϕj,n(k) − 1| ≤ K2

2lim

n→∞sup

1≤j≤n

(∫

|x|≤εΣn

k2

Σ2n

dFj(x) +

|x|>εΣn

k2

Σ2n

dFj(x)

)

≤ K2ε2

2(2.60)

e, como ε > 0 pode ser tomado arbitrariamente proximo de zero, (2.58) tende a zero emvista de (2.59) e (2.60).

Passemos a estimativa da soma em (2.57). Expandindo as exponenciais ψj,n(k) =exp (ϕj,n(k) − 1) e exp

(−σ2

j k2/ (2Σ2

n))

por Taylor ate primeira ordem com resto de La-grange obtemos, analogamente,

∣∣∣∣ψj,n(k) − exp

(−σ2j k

2

2Σ2n

)∣∣∣∣ ≤ 1

2

∣∣∣∣ϕj,n(k) − 1 +σ2

jk2

2Σ2n

∣∣∣∣

=1

2

∣∣∣∣∫ ∞

−∞

(eikx/Σn − 1 − i

kx

ΣN+σ2

jk2

2Σ2n

)dFj(x)

∣∣∣∣ (2.61)

onde, para a igualdade na segunda linha, usamos EXj =

∫xdFj(x) = 0 e

∫dFj(x) = 1.

Para cada ε > 0, separamos a integral em dois domınios disjuntos x ∈ R : |x| ≤ εΣne x ∈ R : |x| > εΣn. No primeiro domınio, aplicando novamente Taylor a soma em jdeste integral, resulta

1

2

n∑

j=1

∣∣∣∣∫

|x|<εΣn

(eikx/Σn − 1 − i

kx

ΣN

+σ2

jk2

2Σ2n

)dFj(x)

∣∣∣∣ ≤ Cn∑

j=1

|x|≤εΣn

|x|3Σ3

n

dFj(x)

≤ εC

n∑

j=1

|x|≤εΣn

x2

Σ2n

dFj(x)

≤ εCn∑

j=1

∫ ∞

−∞

x2

Σ2n

dFj(x) = εC(2.62)

onde fizemos uso da relacao |x| < εΣn estendendo, em seguida, a integral sobre toda areta real. A constante C depende de K, para |k| < K.

Page 81: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.3 Distribuicao Limite de Somas de Variaveis Aleatorias Independentes 81

No segundo domınio, expandimos por Taylor ate primeira ordem, com resto,

1

2

n∑

j=1

∣∣∣∣∫

|x|>εΣn

(eikx/Σn − 1 − i

kx

ΣN+σ2

j k2

2Σ2n

)dFj(x)

∣∣∣∣ ≤ C ′ 1

Σ2n

n∑

j=1

|x|>εΣn

x2dFj(x)

(2.63)onde C ′ e uma nova constante dependente de K, para |k| < K.

Concluimos que o limite de (2.57) tende para 0 quando n tende a infinito em vista dasequacoes (2.61)–(2.63) juntamente com a condicao de Lindeberg (2.54).

O desenvolvimento acima demonstra, parcialmente, o seguinte resultado geral.

Teorema 2.40 (Lindeberg-Feller) Seja Xm,n, 1 ≤ m ≤ n, uma colecao de variaveisaleatorias independentes satisfazendo

i. EXm,n = 0

ii. limn→∞

n∑

m=1

EX2m,n = 1

iii. limn→∞

n∑

m=1

|x|>ε

x2dFm,n(x) = 0 , ∀ε > 0 (equivalente a condicao de Lindeberg)

Alem disso, se

iv. limn→∞

n∑

m=1

|x|>ε

dFm,n(x) = 0 , ∀ε > 0 (condicao de Feller)

entao a condicao iii. e necessaria e suficiente para a distribuicao Fn da soma

Sn = X1,n + · · ·+Xn,n

convergir para distribuicao normal.

Alem de revelar o papel da funcao caracterıstica de distribuicoes infinitamente di-visıveis na convergencia, em distribuicao, de soma de variaveis aleatorias independentes,a presente formulacao do teorema central do limite permite contestar o que sugere suaformulacao na subsecao anterior.EX2

m < ∞, 1 ≤ m ≤ n, e uma condicao necessaria para que a distribuicao limite desua soma Sn seja Gaussiana?

Responderemos a esta questao com um contra–exemplo. Seja X1, X2, . . . uma colecao

variaveis aleatoria i. i. d. com∫

x<−a

dF1(x) =

x>a

dF1(x) =1

2a2, ∀a ≥ 1 (2.64)

(consequentemente, F1(x) = 1/2 para −1 < x ≤ 1). Note

∫ ∞

−∞dF1(x) =

x<−1

dF1(x) +∫

x≥1

dF1(x) = 1/2 + 1/2 = 1, F (x) e absolutamente contınua com densidade

f(x) =dF

dx(x) =

|x|−3 se |x| > 10 se |x| ≤ 1

.

Page 82: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

82 2. Introducao a Probabilidade

Notamos ainda que a variancia desta distribuicao e infinita. Para isso, integrando porpartes a esperanca de X2

1 juntamente com (2.64), resulta3

EX21 =

∫ ∞

−∞x2dF1(x)

= 2

∫ ∞

0

a

(∫

|x|>a

dF1(x)

)da =

∫ ∞

1

1

ada = lim

a→∞ln a .

Definimos a sequencia de variaveis aleatorias

Ym,n := Xm I|Xm|≤√n ln(ln n) (2.65)

onde I|Xm|≤cn denota a funcao indicadora do evento ω ∈ Ω : |Xm(ω)| ≤ cn e cn =√n ln (lnn) e escolhida por conveniencia. Segue das definicoes de Ym,n e da distribuicao

de X1, (2.64),

n∑

m=1

P (Ym,n 6= Xm) =n∑

m=1

P (Xm > cn) =n∑

m=1

x>cn

dF1(x) = n· 1

n (ln(lnn))2 =1

(ln(lnn))2

(2.66)que tende a 0 quando n→ ∞.

As variaveis aleatorias modificadas Ym,n tem variancia, embora dependente de n, finitapara cada n:

EY 2m,n =

|x|≤cn

x2dF1(x)

/∫

|x|≤cn

dF1(x)

=2

1 − 1/c2n

∫ cn

0

y

(∫

|x|>y

dF1(x) −∫

|x|>cn

dF1(x)

)dy

=2

1 − 1/c2n

(∫ 1

0

ydy +

∫ cn

1

1

ydy − 1

c2n

∫ cn

0

ydy

)

=2

1 − 1/c2nln cn ∼ lnn

(note que 2 ln cn = 2 ln√n + 2 ln(ln(lnn) ∼ lnn)4. Consequentemente, normalizando

estas variaveis aleatorias

Xm,n =Ym,n√n lnn

a sequencias X1,n, . . . , Xn,n passa agora a satisfazer as condicoes i., ii. e iii. do Teoremade Lindeberg–Feller. Note que EX2

m,n ∼ 1/n e, portanto, a condicao iii. e satisfeita paratodo ε > 0 uma vez que, a medida que n tende a infinito, sua distribuicao se concentracada vez mais ao redor da origem. Note ainda que

limn→∞

n∑

m=1

EX2m,n = 1 .

3A igualdade a seguir pode ser verificada tambem aplicando o teorema de Fubini (troca de ordem das integrais nasegunda igualdade).

4A notacao f(n) ∼ g(n) significa aqui limn→∞ f(n)/g(n) = 1.

Page 83: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.3 Distribuicao Limite de Somas de Variaveis Aleatorias Independentes 83

Segue deste Teorema que a distribuicao da variavel Sn = X1,n + · · ·+Xn,n converge paradistribuicao normal.

Agora, denotando porEn = Ym,n 6= Xm

o evento no qual as variaveis Ym,n e Xm diferem e por S′

n =X1 + · · ·+Xn√

n lnna soma das

variaveis originais, resulta da subaditividade da funcao probabilidade e de (2.66)

P (S ′n 6= Sn) = P

(n⋃

m=1

Em

)≤

n∑

m=1

P (Em) =1

(ln(lnn))2 .

Como a probabilidade de Sn diferir da soma original S ′n tende a zero quando n → ∞

e como a distribuicao de Sn converge para a normal neste limite, a distribuicao de S ′n

tambem converge para a normal.Isto mostra que nao e necessario a variancia ser finita para que a soma convirja para

a distribuicao normal. Note porem que a normalizacao da soma dever ser corrigida porum fator

√lnn.

2.3.3 Divisibilidade Infinita

Iniciaremos com a seguinte

Definicao 2.41 Uma distribuicao de probabilidade F (x) e uma distribuicao infinita-mente divisıvel se existir para cada n ∈ N uma distribuicao Fn(x) tal que

ϕ(k) =

∫ ∞

−∞eikxdF (x) = ϕn(k)n (2.67)

onde ϕn(k) =

∫ ∞

−∞eikxdFn(x) e a funcao caracterıstica associada a Fn.

Dentre os exemplos de distribuicao ja conhecidos citamos dois que se encaixam nestadefinicao. O segundo destes desempenha um papel importante na geracao de novos ex-emplos.

Exemplo 2.42 A distribuicao Normal e absolutamente contınua com densidade f(x) =dF/dx(x) = exp (−x2/2) /

√2π. A variavel aleatoria Z correspondente e Gaussiana de

media 0 e variancia unitaria. A funcao caracterıstica da normal satisfaz

ϕ(k) = exp(−k2/2

)=(exp

(−k2/2n

))n= ϕn(k)n

para n ∈ N, onde ϕn(k) e a funcao caracterıstica de uma Gaussiana de media 0 evariancia 1/n.

Exemplo 2.43 A distribuicao de Poisson e uma distribuicao de uma variavel aleatoriadiscreta Nλ com P(Nλ = k) = e−λλk/k!, ´para k = 0, 1, . . .. O parametro λ e a media ea variancia de Nλ. Sua funcao caracterıstica satisfaz

ϕ(k) = exp(λ(eik − 1

))=(exp

(λ(eik − 1

)/n))n

para cada n ∈ N, onde ϕn(k) e a funcao caracterıstica de uma variavel de Poisson Nλ/n

com media e variancia igual a λ/n.

Page 84: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

84 2. Introducao a Probabilidade

Nestes dois exemplos a funcao caracterıstica ϕn(k) e semelhante a funcao caracterısticada variavel que a originou. Da acordo com a definicao, isto nao e necessario. Veremosque esta propriedade adicional define uma subclasse importante das distribuicoes infini-tamente divisıveis denominadas distribuicoes estaveis.

Exercıcio 2.44 Mostre que a distribuicao Gama com parametros (α, λ), cuja densidadede probabilidade e dada por

f(x) =1

Γ(α)λαxα−1e−λx

para x ≥ 0, e uma distribuicao infinitamente divisıvel.

Definindo o produto de convolucao de duas distribuicoes G e H por

(G ∗H) (x) =

∫ ∞

−∞G(x− y)dH(y) , (2.68)

a distribuicao F de uma variavel aleatoria cuja funcao caracterıstica satisfaz (2.67), euma convolucao

F = Fn ∗ · · · ∗ Fn︸ ︷︷ ︸n−vezes

(2.69)

da distribuicao Fn com ela mesma n vezes. Para isso, note que a transformada de Fourierdo produto de convolucao

∫ ∞

−∞eikxd (G ∗H) (x) =

∫ ∞

−∞

∫ ∞

−∞eikxdG(x− y)dH(y)

=

∫ ∞

−∞

∫ ∞

−∞eik(x−y)dG(x− y)eikydH(y)

por uma mudanca das variaveis (x, y) ∈ R2 em (z, y) ∈ R2 com z = x − y, e o produtodas transformadas de Fourier de cada distribuicao:

∫ ∞

−∞eikxd (G ∗H) (x) =

∫ ∞

−∞eikzdG(z)

∫ ∞

−∞eikydH(y)

A equacao (2.69) se demonstra por inducao.

Exemplo 2.45 Se φ(k) e a uma funcao caracterıstica associada a distribuicao F , entao

ψa(k) = exp (a (φ(k) − 1))

e uma famılia a um parametro a > 0 de funcoes caracterısticas associadas com a dis-tribuicao

Fa(x) = e−a∞∑

n=0

an

n!F ∗n (2.70)

onde F ∗n = F ∗ · · · ∗ F︸ ︷︷ ︸n−vezes

abrevia o produto de convolucao de F por ela mesma n vezes.

Page 85: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.3 Distribuicao Limite de Somas de Variaveis Aleatorias Independentes 85

Certas afirmacoes neste exemplo nos sugerem as seguintes questoes: (a) Fa(x) sat-isfaz as propriedades 1–3 da Definicao 1.14 de uma distribuicao? (b) ψa(k) satisfaz aspropriedades 1–4 da Definicao 2.34 de uma funcao caracterıstica?

Para o item (a) vamos inicialmente verificar que F ∗n e uma distribuicao para cada n.Isso segue diretamente da definicao (2.68): 1. G ∗H(x) e nao–decrescente, 2. contınua adireita e 3. G∗H(−∞) = 0 e G∗H(∞) = 1. Por inducao, dado que F e uma distribuicao,o mesmo se conclui de F ∗n.

Notamos, em seguida, que toda combinacao convexa:

F =∑

α

cαFα ,

com cα ≥ 0 e∑

α ca = 1, de uma colecao de distribuicoes Fα e tambem uma distribuicao(satisfaz 1–3). Observe que uma combinacao convexa mistura as distribuicoes Fα’s pon-deradas pelos coeficientes cα’s. Observe que os coeficientes cn = e−aan/n!, n = 0, 1, . . . ,

sao tais que cn > 0 e∑

n≥0

cn = 1. (2.70) e uma combinacao convexa de distribuicoes e,

devido a isso, Fa e uma distribuicao.Para o item (b), temos 1. ψa(0) = exp (a (φ(0) − 1)) = 1, 2.

ψa(k) = exp(a(φ(k) − 1

))= exp (a (φ(−k) − 1)) = ψa(−k) ,

3.

|ψa(k)| = |exp (a (φ(k) − 1))| ≤ exp (a (|φ(k)| − 1)) ≤ 1 ,

e 4. ψa(k) e uniformemente contınua. E, alem disso, positiva definida (veja Teorema 2.36).Para isso, basta verificar que ψa(k) e a transformada de Fourier da distribuicao Fa:

∫ ∞

−∞eikxdFa(x) =

∞∑

n=0

an

n!

∫ ∞

−∞eikxdF ∗n(x)e−a

=∞∑

n=0

an

n!φn(k)e−a

= exp (a(φ(k) − 1)) = ψa(k)

pois a positividade segue de (2.43).Seja X1, X2, . . . uma colecao de variaveis aleatorias independentes e igualmente dis-

tribuıdas com distribuicao F (x) e seja N uma variavel de Poisson de parametro a, inde-pendente das demais. Considere a variavel soma

Xa = X1 + · · ·+XN

Page 86: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

86 2. Introducao a Probabilidade

de N variaveis aleatorias, onde N e aleatorio. Vamos mostrar que a Poisson composta Fa

e a distribuicao da variavel aleatoria Xa. Para isso, a funcao caracterıstica de Xa:

EeikXa = Eeik(X1+···+XN )

= Eφ(k)N

= e−a

∞∑

n=0

an

n!φ(k)n

= exp (a(φ(k) − 1))

= exp

(a

∫ ∞

−∞

(eikx − 1

)dF (x)

)(2.71)

A utima igualdade sugere a seguinte caracterizacao das distribuicoes infinitamente di-visıveis, devido a Levy e Khintchin. Vamos denotar por

Fa = ea(F )

a composicao da Poisson de media a com a distribuicao F , dada por (2.70).

2.3.4 Teorema de Levy–Khintchin

Teorema 2.46 Uma variavel aleatoria X possui uma distribuicao F (x) infinitamentedivisıvel se, e somente se, sua funcao caracterıstica ϕ(k) for da forma

lnϕ(k) = ick − 1

2σ2k2 +

∫ ∞

−∞

(eikx − 1 − ikx

1 + x2

)dG(x) (2.72)

onde c e σ sao numeros reais e G(x) e uma distribuicao (nao necessariamente de proba-bilidade) com salto finito em 0 e

∫ ∞

−∞

x2

1 + x2dG(x) <∞ . (2.73)

Claramente, se ϕ(k) satisfaz (2.72), entao a equacao (2.67) e satisfeita para cada n ∈ N,com ϕn(k) da forma (2.72) com os parametros c, σ e G(x) substituıdos por cn = c/n,σn = σ/

√n e Gn(x) = G(x)/n.

Com excessao do ultimo termo na integral de (2.72), os demais termos sao facilmentereconhecıveis. ϕ(k) e o produto de duas funcoes caracterısticas, sendo uma Gaussianacom media c e a outra de uma Poisson composta. Distribuicoes G que satisfazem acondicao (2.73) sao denominadas distribuicoes admissıveis de Levy. Para uma distribuicao

admissıvel G(x), o valor em x = ∞, G(∞) =

∫ ∞

−∞dG(x), pode ate divergir contanto que

sua integral excluindo uma vizinhanca da origen seja finita:∫

|x|≥δ

dG(x) <∞ (2.74)

qualquer que seja δ > 0. Para que (2.72) defina uma funcao caracterıstica, e necessarioainda impor ∫

|x|≤1

x2dG(x) <∞ . (2.75)

Page 87: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.3 Distribuicao Limite de Somas de Variaveis Aleatorias Independentes 87

Note que

ϕδ(k) = exp

(∫

|x|≥δ

(eikx − 1 − ikx

1 + x2

)dG(x)

)

e uma funcao caracterıstica para cada δ > 0 e, devido as relacoes

∣∣eikx − 1 − ikx∣∣ ≤ Cx2

para |x| ≤ 1 e ∣∣∣∣eikx − 1 − ikx

1 + x2

∣∣∣∣ ≤∣∣eikx

∣∣+ 1 +

∣∣∣∣ikx

1 + x2

∣∣∣∣ < C ′

onde C ′ e uma constante dependente de k, ϕδ(k) converge uniformemente para

ϕ0(k) = exp

(∫ ∞

−∞

(eikx − 1 − ikx

1 + x2

)dG(x)

)

em qualquer interalo limitado. A convergencia se da em valor absoluto e o limte e umafuncao caracterıstica.

A demonstracao do Teorema 2.46 involve tres etapas. Seja X1,n, . . . , Xn,n, n ∈ N, umacolecao de variaveis aleatorias independentes satisfazendo a condicao de infinitesimalidadeuniforme:

limn→∞

P (|Xj,n| > δ) = limn→∞

|x|>ε

Fj,n(x) = 0

para qualquer 1 ≤ j ≤ n e δ > 0. Esta condicao e um pouco mais fraca que a condicaode Feller (veja Teorema 2.40), pois aqui exigimos que o limite se anula para cada j, nolugar da soma em j se anular no limite.

Etapa 1. Substituir Fj,n por uma distribuicao infinitamente divisıvel Fj,n utilizando oseguinte procedimento:

1. defina a “media”

bj,n =

x≤1

xdFj,n(x) ;

2. translade Fj,n por −bj,nF ′

j,n = Fj,n ∗ δ−bj,n

onde δb(x) = δ(x−b) e a funcao delta de Dirac e ∗ denota o produto de convolucao;

3. Componha F ′j,n com uma Poisson de media 1

F ′′j,n = e1(F

′j,n) ;

4. translade F ′′j,n de volta por bj,n

Fn,j = F ′′j,n ∗ δbj,n

.

Page 88: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

88 2. Introducao a Probabilidade

Etapa 2. Seja φj,n a funcao caracterıstica associada a distribuicao Fn,j

φj,n(k) =

∫ ∞

−∞eikxdFn,j(x) .

A funcao caracterıstica da variavel soma, cuja distribuicao de cada componente Fj,n e sub-stituıda por Fn,j, usando o teorema da convolucao e os procedimentos 1–4 da construcaode Fn,j, e dada por

φn(k) =n∏

j=1

φj,n(k)

=

n∏

j=1

exp(φ′

j,n(k) − 1)eikbj,n

=n∏

j=1

exp

(∫ ∞

−∞

(eikx − 1

)dF ′

j,n(x) + ikbj,n

)

= exp

(∫ ∞

−∞

(eikx − 1

) n∑

j=1

dF ′j,n(x) + ik

n∑

j=1

bj,n

)

= exp

(∫ ∞

−∞

(eikx − 1

)dGn(x) − 1 + ikbn

)

e. consequentemente,

ln φn(k) =

∫ ∞

−∞

(eikx − 1 − ikθ(x)

)dGn(x) + ikcn

onde θ(x) = x2/(1 + x2) e cn = bn +

∫ ∞

−∞θ(x)dGn(x).

Etapa 3. Tomando o limite

ln φ(k) =

∫ ∞

−∞

(eikx − 1 − ikθ(x)

)dG(x) + ikc .

Os detalhes sobre a convergencia da aproximacao da funcao caracterıstica modificadaφj,n para original φj,n e de (cn, Gn) para (c, G) podem ser vistos no texto “ProbabilityTheory” de S. R. S. Varadhan. No esboco acima a presenca do termo Gaussiano nao foilevado em consideracao. A representacao no caso geral requer cuidados adicionais e naoserao discutidas nestas notas. Recomendamos o texto citado para a extensao e para ademonstracao da unicidade da representacao.

Para concluir o capıtulo, faremos uma breve introducao as leis estaveis. Iniciaremoscom um exemplo que generaliza o contra–exemplo (2.64) da secao anterior.

Exemplo 2.47 Considere X1, X2, . . ., uma sequencia de variaveis aleatorias indepen-dentes e igualmente distribuıdas com

x<−a

dF (x) =

x>a

dF (x) =1

2aα, ∀a ≥ 1 (2.76)

Page 89: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

2.3 Distribuicao Limite de Somas de Variaveis Aleatorias Independentes 89

com 0 < α < 2 (no caso anterior α = 2). A distribuicao F (x) e absolutamente contınuacom densidade

f(x) =dF

dx(x) =

α

2|x|−α−1 se |x| > 1

0 se |x| ≤ 1.

A funcao caracterıstica

ϕ(k) = EeikXj =

∫ ∞

−∞eikxdF (x)

destas variaveis, satisfaz

1 − ϕ(k) =

∫ −1

−∞

(1 − eikx

)dF (x) +

∫ ∞

1

(1 − eikx

)dF (x)

= α

∫ ∞

1

1 − cos kx

xα+1dx

= αtα∫ ∞

k

1 − cosu

uα+1dx (2.77)

onde fizemos as seguintes mudancas de variaveis: x → −x na primeira integral daprimeira igualdade e x→ u = kx para a terceira igualdade.

Observamos que

Iα =

∫ ∞

0

1 − cosu

uα+1dx

e finita, pois proximo a origem o integrando se comporta como

1 − cosu

uα+1∼ 1

2

u2

uα+1=

1

2u1−α

e sua integral ∫ ε

0

1 − cosu

uα+1dx ∼ 1

2

∫ ε

0

u1−αdu =ε2−α

2(2 − α)

e finita para α < 2. O integrando e integravel tambem para u proximo a infinito poisα > 0.

Conclui-se de (2.77)1 − ϕ(k) ∼ Iα |k|α

(ϕ(k) e uma funcao real e par de k pela segunda igualdade d (2.77)). Calculemos a funcaocaracterıstica da variavel soma

Sn = X1 + · · ·+Xn

normalizada por n1/α:

EeikSn/n1/α

= ϕ(k/n1/α

)n

=(1 −

(1 − ϕ

(k/n1/α

)))n

e como, para n tendendo a infinito,

n(1 − ϕ

(k/n1/α

))−→ Iαn

∣∣∣∣k

n1/α

∣∣∣∣α

= Iα |k|α

Page 90: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

90 2. Introducao a Probabilidade

concluimosEeikSn/n1/α −→ exp (−Iα |k|α)

uniformemente em intervalos limitados.

Uma variavel aleatoria e dita ter uma lei estavel se para cada k > 0 inteiro existemconstantes ak e ck tais que, se Y1, . . . , Yn sao variaveis aleatorias independentes com amesma distribuicao de Y , entao

Y1 + · · · + Yk − ckak

d= Y

onde a igualdade se da em distribuicao.As Poissons, Gaussianas e Cauchy sao alguns exemplos de variaveis com leis estaveis.

Page 91: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3

Cadeias de Markov

Se r1, r2, . . . sao variaveis aleatorias independentes em (Ω,F, µ) a valores em R, entao avariavel aleatoriaXn = r1+· · ·+rn descreve um passeio aleatorio em R. No caso Bernoullicom ri = ±1 com probabilidade 1/2, a variavelXn assume valores em Z. Vamos considerarapenas passeios aleatorios onde Xn toma valores em um conjunto contavel Λ para todon. Serao considerados tambem variaveis aleatorias X1, X2, . . ., tais que os incrementosXn − Xn−1 nao sejam necessariamente independentes. Nestes casos, assumimos que aprobabilidade condicional

P (Xn ∈ A|X0, . . . , Xn−1) = P (Xn ∈ A|Xn−1)

dependa apenas de dois consecutivos instantes, n − 1 e n, e seja dada por uma matrizestocastica indexada pelo conjunto contavel Λ. Variaveis aleatorias deste tipo formamuma cadeia de Markov. Cadeias de Markov irredutıveis e positivamente recorrentes con-vergem, quando n tende a infinito, para o equilıbrio, independentemente da distribuicaoinicial. Este e outros resultados serao deduzidos com o auxılio de uma variavel aleatoriaem (Ω,F,P) denominada tempo de parada. O papel da matriz de Green na determinacaoda recorrencia de um passseio aleatorio sera tambem enfatizado.

3.1 Passeio Aleatorio

Seja Λ = xkNk=1, com N um numero natural, possivelmente infinito, o conjunto de

vertices (ou estados) acessıveis por um passeio aleatorio cuja probabilidade de transicao

pij = P (Xn = xj |Xn−1 = xi)

seja dada por uma matriz N ×N estocastica P = [pij]Ni,j=1:

(i) pij ≥ 0

Page 92: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

92 3. Cadeias de Markov

(ii)N∑

j=1

pij = 1, i = 1, . . . , N

As transicoes de um passeio aleatorio sao independentes e igualmente distribuidas detal forma que a probabilidade de se obter o estado xj partindo do estado xi apos ntransicoes e dada por

P (Xn = xj |X0 = xi) =

N∑

l=1

P (Xn = xj |Xn−1 = xl) P (Xn−1 = xl|X0 = xi)

=N∑

l1,...,ln−1=1

P(Xn = xj |Xn−1 = xln−1

)· · ·P (X1 = xl1 |X0 = xi)

=

N∑

l1,...,ln−1=1

pil1 · · · pln−1j = P nij .

Note que P n = P · · ·P e uma matriz estocastica em vista dos elementos de P n seremnao–negativos e

N∑

j=1

P nij =

N∑

l1,...,ln−1,j=1

pil1 · · · pln−1j = 1 ,

com a soma primeiramente em j, depois ln−1, ln−2 ate l1 repeitando a ordem decrescente.

Definicao 3.48 Uma matriz estocastica e homogenea se existir uma funcao f sobre osındices dos estados tal que

pij = f(j − i) .

Exemplo 3.49 Seja Λ = 0, 1, . . . , N − 1, com N identificado com o estado 0 (N ≡ 0),e considere

pij =

1/2 se |j − 1| = 10 de outra forma

A matriz P estocastica e tridiagonal circulante

P =

0 1/2 0 · · · 1/21/2 0 1/2 · · · 00 1/2 0 · · · 0...

......

. . . 1/21/2 0 0 · · · 0

e pode ser diagonalizada pela matriz de Fourier F =

[(1/

√N) exp

(2πi

N(j + k)

)]N−1

j,k=0

:

F †PF = D

com D = diag (λ1, . . . , λN). A matriz F = [v0 · · ·vN−1] e formada pelos autovetores de P

(vj)k =1√Ne2πijk/N , j = 0, . . . , N − 1

Page 93: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.1 Passeio Aleatorio 93

dispostos em suas colunas e pode–se verificar facilmente que a equacao de autovalores

Pvj = λjvj

e satisfeita com

λj = cos2πj

N, j = 0, . . . , N − 1 .

Exemplo 3.50 Seja Λ = Zd e considere sobre Λ um passeio homogeneo (P e uma matrizde ordem infinita). A funcao caracterıstica associada e

φ(θ) =∑

x∈Zd

f(x)eix·θ

onde, para x = (x1, . . . , xd) ∈ Zd e θ = (θ1, . . . , θd) ∈ [−π, π)d = [−π, π) × · · · × [−π, π),

x · θ = x1θ1 + · · · + xdθd

denota o produto interno usual. A probabilidade de se obter o estado y partindo do estadox apos n transicoes e, de acordo com a formula de Fourier, dada por

P (Xn = y|X0 = x) = P nxy =

d∏

k=1

∫ π

−π

dθk

2πφn(θ)e−i(y−x)·θ . (3.1)

3.1.1 Matriz de Green

Para simplificar a notacao, denotamos por Pn(x, y) a probabilidade de y ser atingido non–esimo passo do passeio aleatorio partindo de x.

A funcao geratriz dos passeios de x a y e dada por

Γ(x, y; z) =

∞∑

n=0

Pn(x, y) zn . (3.2)

Para o caso do passeio espacialmente homogeneo em Zd, substituindo (3.1) em (3.2) etrocando a ordem do somatorio com a integral, temos

Γ(x, y; z) = Γ(0, y − x; z) =d∏

k=1

∫ π

−π

dθk

1

1 − zφ(θ)e−i(y−x)·θ . (3.3)

Note que, em vista de |φ(θ)| ≤ 1, com φ(θ) = 1 somente se θ = 0, a serie geometrica euniformemente convegente se |z| < 1 e, sob esta condicao, a inversao de ordem da somacom a integracao e legıtima.

Exemplo 3.51 (Passeio aleatorio simples) A matriz de transicao de um passeio a-leatorio simples em Zd e dada por

pxy =

1

2dse |y − x| = 1

0 se |y − x| 6= 1. (3.4)

Page 94: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

94 3. Cadeias de Markov

A funcao caracterıstica

φ(θ) =1

d

d∑

k=1

cos θk , (3.5)

e Pn(x, y) e Γ(x, y; z) podem ser obtidos por (3.1) e (3.3).

Exercıcio 3.52 Calcule Pn(x, y) e Γ(x, y; z) para um passeio aleatorio unidimensionalem Z com px x+1 = p e px x−1 = q, p+ q = 1.

A funcao geratriz (3.2) dos passeios aleatorios e tambem denominada funcao deGreen. Denomina–se matriz de Green a matriz Γ(z) = [Γ(x, y; z)]x,y∈Λ com elemen-tos dados por estas funcoes. A matriz de Green pode ser definida tambem pela serie deNewman

Γ(z) =

∞∑

n=0

zn P n =1

I − zP. (3.6)

que converge uniformemente para todo |z| < 1. Note que

‖Γ(z)‖ ≤∞∑

n=0

|z|n ‖P n‖ ≤ 1

1 − |z| <∞

onde

‖A‖ = supu∈RN

|Au||u| = sup

u:|u|=1

u · Au , (3.7)

e a norma induzida pela distancia Euclidiana em RN , com |u|2 =N∑

j=1

u2j . Para isso,

lembremos que o raio espectral rP = limn→∞

‖P n‖1/nde uma matriz estocastica P e igual a

1. Note que o vetor v0 de componentes v0j = 1/

√N , e um autovetor de P associado ao

autovalor 1:Pv0 = v0

devido a condicao (ii). Pelo criterio da razao, a serie converge se limn→∞

|z| ‖P n‖/ ‖P n−1‖ =

|z| < 1. Pode–se utilizar ainda a desigualdade ‖P n‖ ≤ ‖P‖n, que e satisfeita para a normadefinida por (3.7), no caso de P ser uma matriz normal (PP T = P TP ).

E conveniente introduzir uma outra funcao geratriz que veremos mais adiante estarrelacionada a Γ(x, y; z).

3.1.2 Tempo de Parada e Tempo de Retorno

O espaco amostral de um passeio aleatorio Ω = ×∞n=0Λ e formado pela colecao infinita de

estados (trajetorias)ω = (ω0, ω1, . . .) .

Denotamos por Ωx o espaco amostral do passeio partindo de x: ω0 = x. Claramente,

Ω =⋃

x∈Λ

Ωx. A algebra σ dos eventos, Fx, e gerada pelos elementos cilındricos da forma

An = ω : ω0 = x0, . . . , ωn = xn

Page 95: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.1 Passeio Aleatorio 95

com x0 = x e os n primeiros passos fixos. A probabilidade destes eventos e um produto

Px (An) = pxx1px1x2 · · · pxn−1xn

das probabilidades de transicao correspondentes.A posicao do passeio aleatorio no n–esimo passo e uma variavel aleatoria em (Ωx,Fx,Px)

Xn : Ωx −→ R

(isto e, uma funcao mensuravel tomando valores em Λ) que projeta na n + 1–esimacoordenada da trajetoria ω ∈ Ωx: Xn(ω) = ωn. Note que

P (Xn = y|X0 = x) = Px(Xn = y) = P nxy .

A variavel aleatoriaTy : Ωx −→ R

em (Ωx,Fx,Px),Ty(ω) = min k ∈ N : ωk = y ,

e o tempo (numero de passos) ate alcancar y pela primeira vez. Denominamos o tempode parada Ty com y = x de tempo de retorno ao estado x.

Denotando por Fn(x, y) a probabilidade de transicao de x a y ocorrer em n passos pelaprimeira vez, temos

Fn(x, y) = Px(Ty = n)

= Px(X1 6= y, . . . , Xn−1 6= y,Xn = y) .

Exercıcio 3.53 Verifique as seguintes propriedades de Fn:

n∑

k=1

Fk(x, y) ≤ 1 ;

Pn(x, y) =

n∑

k=1

Fk(x, y)Pn−k(y, y) . (3.8)

Analogo a P n, definimos a matriz de transicao da primeira passagem no n–esimo passoFn = [Fn(x, y)]x,y∈Λ e a matriz geratriz correspondente

Φ(z) =∞∑

n=1

znFn .

Exemplo 3.54 A distribuicao do tempo de retorno a origem de um passeio aleatorio sim-ples em Z pode ser calculado da seguinte maneira. Sabemos do Exercıcio 2.1 no Capıtulo1.1.2 que

P0 (Xn = p) =1

2n

n!n− p

2!n + p

2!

Page 96: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

96 3. Cadeias de Markov

para n− p ≥ 0 e par. Denotando o tempo de retorno a origem por

T0 = min k ∈ N : Xk(ω) = y

pode–se mostrar (com facilidade usando o princıpio de reflexao de Feller) que

P0 (T0 > 2n) = P0(X1 6= 0, . . . , X2n 6= 0)

= P0 (X1 > 0, . . . , X2n > 0)

+P0(X1 < 0, . . . , X2n < 0) = P0 (X2n = 0) .

Portanto,

F2n(0, 0) = P0 (T0 = 2n)

= P0 (T0 > 2(n− 1)) − P0 (T0 > 2(n+ 1))

= P0

(X2(n−1) = 0

)− P0

(X2(n+1) = 0

)

=1

2n

4n+ 1

n+ 1

(2n− 2)!

n!(n− 1)!. (3.9)

A funcao geratriz da primeira visita a origem

Φ00(z) =

∞∑

n=1

z2nF2n(0, 0) (3.10)

e definida para |z| < 1. Aplicando a formula de Stirling (1.39) a (3.9), temos o seguintecomportamento assintotico

F2n(0, 0) ∼ 1

n3/2

(isto e, n3/2F2n(0, 0) converge a uma constante) quando n → ∞. A serie (3.10) comz = 1 e absolutamente convergente e o limite de z para 1 pode ser passado para dentroda soma:

Φ00(1) = limz↑1

Φ00(z) =

∞∑

n=1

F2n(0, 0) = P0 (T0 > 0) = P0 (X0 = 0) = 1 .

3.1.3 Recorrencia e Transiencia

Definicao 3.55 Um vertice (estado) x e recorrente para o passeio aleatorio em Λ se

Φxx(1) = limz↑1

Φxx(z) = 1 .

x e transiente se Φxx(1) < 1. Um passeio aleatorio em Λ e dito ser recorrente se existirao menos um vertice x ∈ Λ recorrente. Caso contrario o passeio e transiente.

Se x e recorrente, com probabilidade 1 o passeio aleatorio partindo deste vertice retornaa este. Para entender melhor isso, seja

Bn = ω ∈ Ωx : Xn(ω) = x

Page 97: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.1 Passeio Aleatorio 97

o evento o passeio no n–esimo passo retorna ao vertice x. A uniao⋃∞

n=1Bn correspondeao evento o passeio retorna a x em um numero finito de passos.

No evento

lim supn→∞

Bn :=∞⋂

n=1

∞⋃

k=n

Bk (3.11)

o passeio retorna a x com frequencia infinita.O seguinte resultado caracteriza o vertice x em uma caminhada aleatoria.

Proposicao 3.56 O vertice x e recorrente se Px

(lim sup

n→∞Bn

)= 1 e transiente se

Px

(lim sup

n→∞Bn

)= 0.

Observacao 3.57

1. Devido a independencia das transicoes, se o passeio aleatorio retorna ao vertice x,entao ele retorna um numero arbitrario de vezes a x. Isto e, toda vez que retornaa x e como se iniciasse sua trajetoria a partir daquele instante. O limite superior(3.11) distingue entre um numero finito e infinito de retornos.

2. Se P e uma matriz irredutıvel,1 entao Φxx(1) = 1 implica Φxy(1) = 1 para qualquervertice y ∈ Λ. Vamos daqui em diante assumir P irredutıvel.

3. Os conceitos de recorrencia e transiencia sao ausentes de significado para um con-junto Λ de estados finito pois, neste caso, todo vertice e recorrente!

4. O evento lim supn→∞

Bn se encontra na ”cauda”do processo, no sentido que alteracoes

em um numero finito de valores nao alteram sua ocorrencia. Denotando por I asub–algebra σ de Fx dos eventos que se encontram na ”cauda”, se A ∈ I entaoPx(A) = 0 ou Px(A) = 1 (lei 0–1 de Kolmogorov). Esta lei e consequencia doteorema ergodico com repeito a transformacao T : Ω −→ Ω de deslocamento dascomponentes de ω para esquerda. Claramente, T preserva a distribuicao P e eventosem I sao invariantes por T .

Prova. Considere a sequencia de eventos

Bn,m =m⋃

k=n

Bk ,

com n < m. Temos

lim supn→∞

Bn =

∞⋂

n=1

Bn,∞ = limn→∞

Bn,∞

1P e irredutıvel se para qualquer dois vertices x, y ∈ Λ, existir k ∈ N tal que`

P k´

xy6= 0.

Page 98: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

98 3. Cadeias de Markov

pois Bn,m e decrescente em n e crescente em m: Bn,m ⊂ Bn′,m e Bn,m ⊂ Bn,m′ , se,respectivamente, n > n′ e m < m′. Logo, por continuidade de Px,

Px

(lim sup

n→∞Bn

)= Px

(lim

n→∞Bn,∞

)

= limn→∞

Px (Bn,∞) .

Agora,

Px (Bn,m) =∑

y∈V

Pn−1(x, y)m−n+1∑

k=1

Fk(y, x) .

e

limm→∞

Px (Bn,m) =∑

y∈V

Pn−1(x, y)

∞∑

k=1

Fk(y, x)

=∑

y∈V

Pn−1(x, y) Φyx(1)

=∑

y∈V

Pn−1(x, y) = 1 ,

uniformemente em n, se x for recorrente. Isto demonstra a primeira afirmacao da Propo-

sicao 3.56. Deixaremos como exercıcio a prova da afirmacao: Px

(lim sup

n→∞Bn

)= 0 se x

for transiente.2

A recorrencia de x pode tambem ser verificada examinando o comportamento do ele-mento Γ(x, x; 1) = limz↑1 Γ(x, x; z) da matriz de Green. Este e o conteudo da seguinte

Proposicao 3.58 O vertice x e recorrente se, e somente se, Γ(x, x; 1) = ∞.

Prova. Somando em n a equacao (3.8) com y igual a x e trocando a ordem dos somatoriosde lado direito desta, temos

m∑

n=1

Pn(x, x) =m∑

k=1

Fk(x, x)m∑

n=k

Pn−k(x, x) . (3.12)

Com as notacoes Γ(m) =m∑

n=0

Pn(x, x), Fk = Fk(x, x) e Γ = limm→∞

Γ(m), equacao (3.12)

pode ser escrita como

Γ(m) − 1 =m∑

k=1

Fk Γ(m−k)

(P0(x, x) = 1, por definicao). Tomando o limite, temos

Γ = 1 + limm→∞

m∑

k=1

Fk Γ(m−k)

≥ 1 + ΓN∑

k=1

Fk ,

Page 99: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.2 O Problema da Recorrencia 99

para todo N > 0,2 logoΓ ≥ 1 + Φ Γ , (3.13)

onde Φ =

∞∑

k=1

Fk. Se x e recorrente entao Φ = 1 e equacao (3.13) implica em Γ = ∞.

Por outro lado, repetindo o desenvolvimento anterior com (3.8) escrita na forma

Pn(x, x) =n−1∑

k=0

Pk(x, x)Fn−k(x, x) ,

obtemos

Γ(m) − 1 =

m−1∑

k=0

Pk Φ(m−k)

onde, analogamente, Pk = Pk(x, x) e Φ(r) =

r∑

n=1

Fn. Portanto

1 = Γ(m) −m−1∑

k=0

Pk Φ(m−k)

≥ Γ(m)(1 − Φ(m)

)

≥ Γ(m) (1 − Φ)

uniformemente em m, de onde se conclui que

1 ≥ Γ (1 − Φ) . (3.14)

Se x e transiente, entao Φ < 1 e a equacao (3.14) implica em Γ <∞. Combinando (3.13)e (3.14), obtemos

Γ =1

1 − Φ,

concluindo a demonstracao da Proposicao 3.58.2

3.2 O Problema da Recorrencia

A matriz estocastica P = [pxy] de um passeio aleatorio simples em Z e uma matriztridiagonal cujos elementos podem ser escritos na forma

pxy =

px se y = x+ 1qx se y = x− 10 de outra forma

, (3.15)

2A funcao K(m, m′) =m

X

k=1

Fk Γ(m′−k), m ≤ m′, e monotonica crescente nas duas variaveis m e m′.

Page 100: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

100 3. Cadeias de Markov

com a relacao

px + qx = 1 (3.16)

satisfeita para todo x ∈ Z.Para que P seja simetrica devemos ainda impor

qx+1 = px (3.17)

para todo x ∈ Z. Entretanto, nos exemplos que daremos a seguir (veja tambem Subsecao3.3.1) esta condicao adicional nem sempre sera satisfeita.

Nesta subsecao examinaremos em que condicoes os passeios aleatorios em Z sao recor-rentes. Para isso faremos uso do criterio estabelecido na Proposicao 3.58. Nosso objetivoe calcular a funcao de Green do problema e discutir quando ela diverge.

3.2.1 Caso Homogeneo

Inicialmente, vamos considerar o caso em que as probabilidades de transicao a direita px

e a esquerda qx sejam independentes do vertice x.

Exemplo 3.59 Seja P dada por (3.15) com px = p e qx = q = 1 − p, x ∈ Z. Para umarede finita Λ ⊂ Z, com condicoes de fronteira absorventes,3 escrevemos

P =

0 p 0 · · · 0q 0 p · · · 00 q 0 · · · 0...

......

. . . p0 0 0 q 0

Ha diversas maneiras de se calcular a Matriz de Green Γ(z) = (I − zP )−1 deste prob-lema. Pode–se utilizar cofatores ou mesmo analise de Fourier. Aqui utilizaremos o metododa funcao de Green, mais conhecido em equacoes diferenciais do tipo Sturm–Liouville.

Metodo da Funcao de Green. As duas solucoes lineramente independentes da equacao(com z = 1)

(I − P ) v = 0 ,

de segunda diferenca finita:

vx − (pvx+1 + qvx−1) = 0 , (3.18)

sao da forma

vx = rx (3.19)

com r as raızes do polinomio

pr2 − r + q = 0 ,

3Se Λ = 0, 1, . . . , n + 1, a restricao PΛ de P a Λ, com condicoes de fronteira absorventes em 0 e n + 1, e equivalenteao truncamento de P em uma matriz n × n. A condicao absorvente significa que uma vez que o passeio atinge 0 ou n + 1,la permanece permanentemente.

Page 101: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.2 O Problema da Recorrencia 101

r± =1

2p

(1 ±

√1 − 4pq

)=

1q

p. (3.20)

Note que (p− q)2 = 1 − 4pq em vista da relacao (3.16).Supondo que q < p, escrevemos

Γ(x, y; 1) = (I − P )−1xy =

A se x < y

B

(q

p

)x

se x > y. (3.21)

Com y mantido fixo, Γ(x, y; 1) e proporcional a solucao da equacao (3.18): v+x = (r+)

xse

x < y e v−x = (r−)x

se x > y. Esta escolha e tal que a matriz de Green Γ = [Γ(x, y, 1)]satisfaz a equacao

(I − P ) Γ = I , (3.22)

para todas as entradas fora da diagonal. As constante A e B sao determinadas pelasseguintes condicoes:

1. a funcao Γ para as duas regioes, x < y e x > y, deve coincidir em x = y;

2. Γ deve satisfazer (3.22) inclusive para os elementos diagonais x = y.

Condicao 1. implica

A = B

(q

p

)y

e usando (3.18), a condicao 2. implica

A (1 − q) − pB

(q

p

)y+1

= 1 .

Resolvendo para A e B e substituindo seus valores em (3.21), obtemos

Γ(x, y; 1) =

1

p− qse x < y

1

p− q

(q

p

)x−y

se x > y

, (3.23)

a partir da qual concluımos que Γ(x, y; 1) = ∞ se, e somente se,

p = q =1

2.

Sumarizando.

Teorema 3.60 A caminhada aleatoria do Exemplo 3.59 e recorrente se e somente sep = q.

Page 102: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

102 3. Cadeias de Markov

Neste ponto, algumas observacoes devem ser feitas.

1. A funcao de Green para p < q pode ser calculada de forma analoga

Γ(x, y; 1) =

1

q − p

(q

p

)x−y

se x < y

1

q − pse x > y

. (3.24)

2. O fato que Γ(x, y; 1) e uma constante se x < y e q < p (ou x > y e q > p) resultada tendencia do passeio aleatorio para direita (ou para esquerda). A tendencia fazcom que o passeio, eventualmente, nunca mais retorne a seu ponto de partida.

O metodo da funcao de Green nao se estende para Zd, d > 1. Usando a formula (3.3)com

φ(θ) =1

d

d∑

k=1

cos θk ∼ 1 − 1

2d|θ|2

quando θ = (θ1, . . . , θd) e proximo de 0, a integral

Γε =

|θ|<ε

d∏

k=1

dθk

1

1 − φ(θ)

∼∫

|θ|<ε

d∏

k=1

dθk

2d

|θ|2=

2dSd

(2π)d

∫ ε

0

rd−3dr (3.25)

com Sd = 2πd/2/Γ(d/2) a area da supefıcie da esfera d–dimensional de raio unitario,diverge para todo ε > 0 quando d = 1, 2 e converge para d ≥ 3. Logo, a funcao de Green

Γ(x, x; 1) = Γε + (Γ(x, x; 1) − Γε)

onde Γ(x, x; 1) − Γε e regular para todo ε > 0, diverge para d = 1 e 2. Concluimos daıque

Proposicao 3.61 Um passeio aleatorio simples, homogeneo e simetrico em Zd e recor-rente se, e somente se, d = 1 e d = 2.

3.2.2 Caso Nao–Homogeneo

Consideremos agora o caso em que as transicoes a direita e a esquerda, px e qx, sejamdependentes de x.

Exemplo 3.62 Seja P dada por (3.15) e seja

px =βx+1

αx

e qx =βx

αx

, (3.26)

Page 103: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.2 O Problema da Recorrencia 103

com αx 6= 0 para todo x ∈ Z. Note que, devido a (3.16),

αx = βx + βx+1 , (3.27)

e a sequencia αx e determinada pela sequencia βx, que por sua vez, e escolhida detal forma que

βx

βx+1=qxpx. (3.28)

A equacao analoga a (3.18) e escrita como

((I − P ) v)x = vx − pxvx+1 − qxvx−1 = 0 . (3.29)

Para uma rede finita Λ = −1, 0, 1, . . . , n+ 1, com condicoes absorventes de fronteiraem x = −1 e x = n + 1, a matriz J = I − P e de Jacobi (tridiagonal)

J =

1 −p0 0 · · · 0−q1 1 −p1 · · · 00 −q2 1 · · · 0...

......

. . . −pn−1

0 0 0 −qn 1

e pode ser escrita como

J = A−1L (3.30)

onde A e a matriz diagonal com entradas α’s,

A = diag (α0, α2, . . . , αn)

e L e uma matriz simetrica tridiagonal formada pelos parametros α’s e β’s,

L =

α0 −β1 0 · · · 0−β1 α1 −β2 · · · 00 −β2 α2 · · · 0...

......

. . . −βn

0 0 0 −βn αn

. (3.31)

Devido a condicao (3.27), L e um gerador de uma matriz estocastica,n∑

j=1

Lij = 0, isto

e, a matriz e−tL e uma matriz estocastica:

n∑

j=0

(e−tL

)ij

= 1

para todo i e todo t ≥ 0.

Page 104: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

104 3. Cadeias de Markov

A matriz de Green Γ e a inversa da matriz J = I−P . Para uma matriz de transicao Ptridiagonal arbitraria, Γ nao pode ser calculada por analise de Fourier. Veremos a seguirque o metodo da funcao de Green continua sendo adequado mesmo no caso em que astransicoes nao sao homogeneas.

Devido a decomposicao (3.30) (valida tambem para a matriz com ındices em Z),

Γ = J−1 =(A−1L

)−1= L−1A .

Assim, para calcular a funcao de Green, basta calcular a inversa da matriz L:

Γ (x, y; 1) =(L−1

)xyαy , (3.32)

com a vantagem adicional de ter que inverter uma matriz simetrica.

Metodo da Funcao de Green. O ponto de partida e a equacao

Lv = 0 , (3.33)

que, devido a (3.27), pode ser escrita em termos de suas componentes como

αxvx − βxvx−1 − βx+1vx+1 = βx (vx − vx−1) − βx+1 (vx+1 − vx)

= βx (∇v)x − βx+1 (∇v)x+1

= (∇∗ (B∇v))x = 0 ,

onde B = diag (βx) e a matriz diagonal dos β’s, ∇ e o operador de diferenca finita,

(∇v)x = vx − vx−1

e ∇∗ seu adjunto, 〈∇∗v, w〉 = 〈v,∇w〉, com respeito ao produto interno

〈v, w〉 =∞∑

x=−∞vxwx .

Isto e,(∇∗v)x = vx − vx+1 .

Note que com esta notacao o operador

L = ∇∗B∇ (3.34)

e manifestamente um operador de segunda diferenca auto–adjunto L = L∗. Note aindaque, se B for uma matrix homogenea B = βI, entao L = β∇∗∇ e, a menos de sinal, ooperador de Laplace discreto:

(Lv)x = β (2vx − vx−1 − vx+1) = −β∆

Pode–se verificar que, formalmente,

v−x =∑

y≤x

1

βye v+

x = −∑

y>x

1

βy(3.35)

Page 105: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.2 O Problema da Recorrencia 105

sao duas solucoes linearmente independente de (3.33). Para isso, observe que

(∇v−

)x

=(∇v+

)x

=1

βx.

A seguir, introduzimos uma quantidade relacionada com o Wronskiano destas solucoes:

W(v−, v+; x

)=

∣∣∣∣v−x v+

x

− (B∇v−)x − (B∇v+)x

∣∣∣∣= −v−x

(B∇v+

)x

+ v+x

(B∇v−

)x

= −v−x + v+x

= −∑

y∈Z

1

βy

. (3.36)

Claramente W 6= 0 indicando que as solucoes sao de fato lineamente independentes. Noteainda que W independe do ponto x.

Como na Teoria das equacoes diferenciais de Sturn–Liouville, o inverso da matrix L, edada pela formula

(L−1

)xy

=

v−(x) v+(y)

Wse x < y

v−(y) v+(x)

Wse x > y

.

Substituindo as funcoes v− e v+, usando (3.32), temos

Γ(x, y; 1) =

z≤x

1

βz

w>y

1

βw

z

1

βz

αy se x < y

z≤y

1

βz

w>x

1

βw

z

1

βz

αy se x > y

. (3.37)

Nota 3.63 Um operador diferencial de Sturm–Liouville e da forma

Lu = − (pu′)′+ qu

onde p e q sao funcoes definidas no domınio [a, b] ⊂ R, sujeita as seguintes condicoes defronteira

αu(a) + βu′(a) = 0

γu(b) + δu′(b) = 0 ,

Page 106: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

106 3. Cadeias de Markov

com α, β, γ e δ constantes. A funcao de Green deste problema e dada por

G(x, y) =

u1(x) u2(y)

Wse a ≤ x < y

u1(y) u2(x)

Wse y < x ≤ b

,

com u1 e u2 duas solucoes linearmente independentes de Lu = 0 e W = −pu1u′2 + pu′1u2.

3.2.3 Criterio de Convergencia

As formulas deduzidas ate este momento sao formais. Para lidar com o problema deconvergencia das series (3.35) e (3.36), consideremos inicialmente o caso homogeneo.

Com px e qx como no Exemplo 3.59, considere as sequencias

βx =

(p

q

)x

,

e

αx = βx + βx+1 =1

q

(p

q

)x

, (3.38)

crescentes se p > q. Devido ao fato da primeira equacao de (3.35) e equacao (3.36)divergirem com esta escolha, vamos considerar a caminhada aleatoria em Λ = [−N,∞)e, em seguida, tomar o limite N → ∞. Considere a equacao (3.33) sujeita a seguintecondicao de Dirichlet em x = −N − 1:

v−N−1 = 0 .

Para este problema as duas solucoes linearmente independentes sao dadas por (3.35) comv− substituıda por

v−x =∑

−N≤y≤x

1

βy,

resultando em

W =∑

y≥−N

1

βy

.

A funcao de Green Γ envolve o limite da razao entre estas funcoes:

limN→∞

v−xW

= limN→∞

−N≤y≤x

(q

p

)y

y≥−N

(q

p

)y

= limN→∞

(1 −

(q

p

)N+x+1)

= 1

para todo x ∈ Z. Note que o mesmo limite e obtido para qualquer sequencia βxcrescente. Daqui em diante, vamos assumir esta hipotese.

Page 107: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.2 O Problema da Recorrencia 107

Concluımos,

Γ(x, y; 1) =

w>y

1

βwαy se x < y

w>x

1

βw

αy se x > y

. (3.39)

Estamos agora em posicao para considerar varios casos. No caso homogeneo, substi-tuindo ∑

w>z

1

βw=∑

w>z

(q

p

)w

=q

p− q

(q

p

)z

, (3.40)

e (3.38) em (3.39), obtemos a equacao (3.24).Aplicando o criterio da Proposicao 3.58 em (3.39), a caminhada aleatoria do Exemplo

3.62, sujeita a condicao de βx ser uma sequencia crescente de numeros positivos, erecorrente ou transiente dependendo se a serie

w>z

1

βw(3.41)

for, respectivamente, divergente ou convergente.Temos o seguinte criterio de convergencia:

1. Se

limw→∞

βw

βw+1

= δ0 ,

entao a serie (3.41) e convergente se δ0 < 1, divergente se δ0 > 14.

2. Se δ0 = 1 eβw

βw+1∼ 1 − δ1

w,

quando w tende a infinito, entao a serie (3.41) e convergente se δ1 > 1 e divergentese δ1 < 1.

3. Se δ0 = δ1 = 1 eβw

βw+1∼ 1 − 1

w− δ2w lnw

,

quando w tende a infinito, entao a serie (3.41) e convergente se δ2 > 1 e divergentese δ2 < 1.

4. Em geral, se δ0 = · · · = δn−1 = 1 e

βw

βw+1∼ 1 − 1

w− 1

w lnw− · · · − δn

w lnw · · · ln (· · · ln(lnw))︸ ︷︷ ︸(n−1)−vezes

,

entao a serie (3.41) e convergente se δn > 1 e divergente se δn < 1.

4Esta situacao nao ocorre para a serie (3.41) pois a sequencia βx e crescente.

Page 108: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

108 3. Cadeias de Markov

Pela equacao (3.26), a caminhada aleatoria do Exemplo 3.62 pode ser recorrente de-

pendendo da taxa com que a razaoqwpw

tende para 1.

Sumarizando.

Teorema 3.64 A caminhada aleatoria do Exemplo 3.62 e recorrente se para algum n,n ≥ 1,

qwpw

∼ δ0 −δ1w

− δ2w lnw

− · · · − δnw lnw · · · ln (· · · ln(lnw))

,

quando w → ∞, com δ0 = · · · = δn−1 = 1 e δn < 1. A caminhada aleatoria e transientese δ0 < 1 ou se δ0 = · · · = δn−1 = 1 e δn > 1.

3.3 Alguns Resultados sobre o Limite de Cadeias de MarkovEstacionarias

Duas generalizacoes com respeito aos passeios aleatorios serao introduzidas nesta secao.Aqui (Xn)n≥0 e uma sequencia de variaveis aleatorias em (Ω,F, µ) assumindo valoresem um conjunto Λ contavel de estados. A sequencia, tambem denominada de processoestocastico, devido a sua propriedade de Markov e definida pelas probabilidades condi-cionais de transicao

P(Xn = xj |X0 = xi) = P nij

onde P = [pij] e uma matriz estocastica cujos elementos

pij = P(Xn = xj |Xn−1 = xi)

sao estacionarios com respeito ao ındice n. Nao ha necessidade de Xn −Xn−1n≥1 seruma colecao de variaveis independentes.

A outra generalizacao diz respeito a X0. No lugar de assumirmos fixa em algum estado,X0 e uma variavel aleatoria com distribuicao ξ = (ξi):

P(X0 = xi) = ξi

de tal forma que a probabilidade de Xn assumir um valor em Λ e dada por

P(Xn = xj) =∑

i

P(Xn = xj |X0 = xi)P(X0 = xi) = (P nξ)j .

Nosso objetivo e estabelecer uma relacao entre a medida de equilıbrio e o tempo mediode retorno a cada estado para processos positivamente recorrentes.

3.3.1 Exemplos

Iniciaremos com alguns exemplos de cadeias de Markov estacionarias.

Exemplo 3.65 Considere o modelo proposto por Paul e Tatiana Erhenfest para dar su-porte a teoria cinetica dos gases. Temos duas urnas contendo moleculas enumeradas de1 a r. Um numero e sorteado e a molecula indexada por este e trocada de urna. Fix-amos nossa atencao em uma das urnas e seu estado Xn e determinado pelo numero de

Page 109: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.3 Alguns Resultados sobre o Limite de Cadeias de Markov Estacionarias 109

moleculas la contidas em cada instante n. Temos Λ = 0, 1, . . . , r e P e uma matriz(r + 1) × (r + 1) das probabilidades de transicao. Em cada instante n ha apenas umamudanca de ±1 unidade

pij = P(Xn = j|Xn−1 = i) = 0

se |j − i| 6= 1. Se Xn−1 = k a probabilidade de sortear uma molecula na urna em ob-

servacao ek

re na outra

r − k

r. Temos

pkk−1 = P(Xn = k − 1|Xn−1 = k) =k

r

pkk+1 = P(Xn = k + 1|Xn−1 = k) = 1 − k

r

e, portanto,

P =

0 1 0 . . . 0 01/r 0 1 − 1/r . . . 0 00 2/r 0 . . . 0 0...

......

. . ....

...0 0 0 . . . 0 1/r0 0 0 . . . 1 0

e uma matriz tridiagonal estocastica.

Exemplo 3.66 Cadeia de nascimento e morte. O conjunto Λ = 0, 1, . . . indica onumero de individuos em uma populacao. Vamos assumir que, em cada instante de tempon, a populacao varie no maximo por um individuo. A matriz estocastica P = [pij ]i,j≥0 e,neste caso, dado por

pii+1 = pi

pii−1 = qi

pii = ri

pij = 0 , |j − i| > 1

onde as soma das taxas de nascimento, morte e permanencia

pi + qi + ri = 1 (3.42)

se i ≥ 1 e r0 + p0 = 1. Exceto pela componente diagonal, esta matriz estocastica

P =

r0 p0 0 0 · · ·q1 r1 p1 0 · · ·0 q2 r2 p2 · · ·0 0 q3 r3 · · ·...

......

.... . .

e similar a matriz de um passeio aleatorio nao–homogeneo em Λ. Note que o etado 0 eabsorvente se p0 = 1 (e, portanto, r0 = 1).

Page 110: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

110 3. Cadeias de Markov

Exemplo 3.67 Processo de Ramificacao. 0 numero inteiro n ≥ 0 indica a geracao.O conjunto inicial de partıculas se refere a geracao 0. Partıculas em cada geracao podemdesaparecer ou dar origem a novas partıculas, simultaneamente, independentemente umadas outras. A variavel Xn denota o numero de partıculas na n–esima geracao. Vamosassumir que cada partıcula da origem a ζ partıculas, onde ζ e uma variavel aleatoriainteira nao–negativa (ζ = 0 indica que a partıcula desaparece, ζ = 1 permanece, ζ = 2divide em duas, e etc.) com distribuicao H.

O conjunto de estados deste processo e Λ = 0, 1, 2, . . . com o estado x = 0 um estadoabsorvente. A probabilidade de transicao e, portanto, dada por

pxy = P (Xn = y|Xn−1 = x) = P (ζ1 + · · · + ζx = y)

onde ζ1, . . . , ξx, . . . sao independentes e igualmente distribuıdas com

P (Xn ≤ y|Xn−1 = 1) = H(y) . (3.43)

3.3.2 Recorrencia em cadeias de Markov

Todo estado i ∈ Λ de uma cadeias de Markov em Λ finito, tal que P e irredutıvel,e recorrente. A condicao para que P seja irredutivel e analoga ao caso dos passeiosaleatorios. P e irredutıvel se para qualquer dois estados i, j ∈ Λ, existir k ∈ N tal que(P k)

ij6= 0. Um criterio equivalente de facil verificacao e o seguinte

Criterio 3.68 P e irredutıvel se, e somente se, todo estado j puder ser alcancado partin-do de um estado i percorrendo um caminho orientado no grafo G = (Λ, E) determinadopela matriz P . O conjunto dos estados Λ forma os vertices do grafo G e E denota oconjunto das ligacoes presentes em G: a ligacao 〈kl〉 de k para l esta presente se pkl > 0.

Para mostrar que todo estado e recorrente, e suficiente notar que o vetor v0 de compo-nentes v0

i = 1/√N e um autovetor da matriz N×N estocastica P associado ao autovalor

1. Logo, (I − P )v0 = 0 e Γ(i, j; 1) = (I − P )−1ij diverge para todo i, j ∈ Λ devido a

presenca do autovalor 0 de I − P .Por que nao percebemos que I−P nao e inversıvel ao tratar a recorrencia dos passeios

aleatorios? Afinal, como um exemplo de cadeia de Markov, a matriz de transicao P deum passeios aleatorio e estocastica. O fato e que fomos pouco atentos a este ponto e amaioria dos textos em probabilidade tambem evitam abordar a questao principal, a saber,por que ignoramos o autovalor nulo ao examinamos o problema da recorrencia para umamatriz P irredutıvel de ordem infinita?

A resposta a esta questao e simples. Tendo calculado a inversa de (I − P ) no comple-mento ortogonal ao vetor v0, verificamos na divergencia da matriz de Green generalizadase 0 e um ponto de acumulacao dos autovalores de (I − P ). Esta atitude se assemelhaa adotada na condensacao de Bose–Einstein: o modo zero e retirado para em seguidaexaminar se ha um acumulo de estados ocupados proximo a 0. Isto fica claro para umpasseios aleatorio simples em Zd onde a condicao para recorrencia em d = 1 e 2 e a mesmaque previne a manifestacao da condensacao de Bose–Einstein para estas dimensoes (vejaequacao (3.25)).

Vamos entao investigar recorrencia de cadeias de Markov com Λ infinito.

Page 111: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.3 Alguns Resultados sobre o Limite de Cadeias de Markov Estacionarias 111

A equacao homogenea (I − P )v = 0 no Exemplo 3.66, devido a condicao (3.42),

vi(1 − ri) − qivi−1 − pivi+i = 0

qi(vi − vi−1) − pi(vi+i − vi) = 0

pode ser escrita como

vi+i − vi =qipi

(vi − vi−1)

Como no Exemplo 3.62 da caminhada nao–homogenea, introduzimos uma sequencia aux-iliar (βi)i≥0 satisfazendo

1

βi+1=

qipi

1

βi

=

i∏

k=1

qkpk

1

β1

com β1 = 1. Temos duas solucoes linearmente independentes para equacao Lv onde L ea matriz (3.31) com n→ ∞:

v−i =∑

j≤i

1

βje v+

i = −∑

j>i

1

βj.

Pelo metodo da matriz de Green, Γ = (I − P )−1 e dada por

Γ(x, y; 1) =

k≤i

1

βk

l>j

1

βw

k

1

βk

αj se i < j

k≤j

1

βk

l>i

1

βl

k

1

βk

αj se i > j

onde αi = βi + βi+1. Note que para cadeia de nascimento e morte nao temos de efetuar otruncamento em −N , seguido do limite, uma vez que o espaco de estados Λ e constituıdopelos inteiros nao–negativos. Pelo criterio da razao, a quantidade

Sr =∑

l>r

1

βl

com r ∈ N, e consequentemente Γ, diverge se o limite

limm→∞

1

βm+1

1

βm

= limm→∞

βm

βm+1

= limm→∞

qmpm

:= ∆ > 1

Page 112: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

112 3. Cadeias de Markov

ou se ∆ = 1 eqmpm

= 1 − ∆1

m

para m grande o suficiente, Γ diverge se ∆1 < 1. Resumindo:

Proposicao 3.69 Um processo irredutivel de nascimento e morte (isto e, qi > 0 e pi > 0,∀i ≥ 1) e recorrente se ∆ > 1, neste caso terıamos uma tendencia em nao se afastardemasiadamente do estado 0 (pi < qi para i tendendo a infinito), ou ∆ = 1 (assintotica-mente neutro) com ∆1 < 1.

Considere agora um processo de ramificacao. Como H e uma distribuicao discreta comsuporte nos inteiros nao negativos e 0 e um estado absorvente, a probabilidade de extincaode uma partıcula e dada por

ρ = P1(T0 <∞)

onde T0 e o tempo transcorrido para o estado 0 ser alcancado partindo da condicaoinicial de uma partıcula. Para condicao inicial com k partıculas, devida a independenciada ramificacao de cada uma das partıculas, temos

Pk(T0 <∞) = ρk (3.44)

Pode-se mostrar que todo estado l 6= 0,∞ e transiente. Consequentemente, ou o pro-cesso se extingue em tempo finito ou o numero de partıculas Xn tende a infinito quandon tende a infinito, de onde se conclui,

Pk(X∞ = ∞) = 1 − Pk(X∞ = 0) = 1 − ρk .

Vamos aqui investigar as condicoes sobreH para que o processo de ramificacao se extinguacom probabilidade 1, isto e, para que ρ = 1.

Considere a funcao geratriz de H ,

Φ(t) =

∞∑

r=0

tr (H(r + 0) −H(r − 0))

e note que, devido a (3.43) e (3.44),

ρ = p10 +

∞∑

k=1

p1kPk(T0 <∞)

= H(+0) −H(−0) +

∞∑

r=1

ρr (H(r + 0) −H(r − 0)) := Φ(ρ) . (3.45)

A probabilidade de extincao de uma partıcula e, portanto, um ponto fixo de Φ. Seja

µ =

∫xdH(x) =

∞∑

r=1

r (H(r + 0) −H(r − 0)) = Φ′(1)

a media de H . Como Φ(t) e uma funcao monotona nao–decrescente de t para 0 ≤ t < 1,neste domınio temos

Φ(t) < 1

Page 113: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.3 Alguns Resultados sobre o Limite de Cadeias de Markov Estacionarias 113

se µ ≤ 1 e o unico ponto fixo de Φ e ρ = 1. Para µ > 1 a funcao Φ(t) se aproxima de 1quando t tende a 1 por baixo da funcao identidade t. Como por hipotese Φ(0) = p10 > 0,Φ(t) intersepta a funcao t em um ponto ρ0 com 0 < ρ0 < 1. Concluımos que ρ = 1 eρ = ρ0 < 1 sao duas solucoes da equacao de ponto fixo ρ = Φ(ρ) para µ > 1. Vamos aseguir determinar qual destas duas solucoes e atingida pelo processo quando n tende ainfinito.

De maneira analoga a (3.45), temos

P1 (T0 ≤ n+ 1) = p10 +∞∑

k=1

p1kPk(T0 ≤ n)

= p10 +

∞∑

k=1

p1kPk1(T0 ≤ n) = Φ (P1(T0 ≤ n)) .

Para n = 0, temosP1(T0 ≤ 0) = 0 < ρ0 .

SupondoP1(T0 ≤ n) ≤ ρ0

temos, devido a monotonicidade de Φ,

P1 (T0 ≤ n+ 1) ≤ Φ(ρ0) ≤ ρ0

de onde se conclui, juntamente com a continuidade de P1 e pela convergencia da sequenciaρn = Φ(ρn−1),

P1(T0 <∞) = limn→∞

P1(T0 ≤ n) = ρ0 < 1

para µ > 1.Em resumo,

Proposicao 3.70 Considere um processo de ramificacao cuja distribuicao H de rami-ficacao de uma partıcula e tal que Φ(0) > 0 e Φ′(0) = µ (media de H). Se µ ≤ 1 (µ > 1)entao o processo se extingue em tempo finito com probabilidade 1 (ρ0 < 1).

3.3.3 Medidas Estacionarias

Seja Xnn≥0 uma cadeia de Markov com espaco de estados Λ e matriz de transicao P .Um vetor ξ = (ξj)j∈Λ nao–negativo (ξj ≥ 0) e uma medida estacionaria para Xnn≥0

se (I − P T

)ξ = 0 (3.46)

onde P T denota a transposta de P .Note que ξ em (3.46) e um autovetor de P T associado ao autovalor 1. Como o raio

espectral rP = rP T = 1, 1 e o maior autovalor de P T e, pelo fato de P ser uma matriznao–negativa juntamnte com o Teorema de Perron–Frobenius, podemos sempre escolherum autovetor ξ de P T com entradas nao–negativas.

Vamos assumir P irredutıvel e, sempre que possıvel, escolher a medida estacionaria ξ

normalizada: ∑

i∈Λ

ξi = 1.

Page 114: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

114 3. Cadeias de Markov

Uma medida ξ e assintoticamente estacionaria para Xnn≥0 se

limn→∞

P nij = ξj , ∀i, j ∈ Λ .

Em outras palavras, a distribuicao condicional da variavel aleatoria Xn, dado que X0 = i,converge para a medida estacionaria qualquer que seja o estado inicial i.

O estacionario de ξ diz respeito a translacoes no tempo. Seja Ω = ×∞n=0Λ o espaco

produto de estados e τ : Ω −→ Ω a transformacao de deslocamento a esquerda (”shift”deBernoulli) de uma sequencia ω = (ω0, ω1, . . .) ∈ Ω de estados:

τω = (ω1, ω2, . . .) .

Denotamos por Eξ a esperanca do processo de Markov Xnn≥0 com a condicao inicialX0 distribuıda por ξ:

P (X0 = i) = ξi .

A probabilidade de Xn assumir o valor j ∈ Λ e dada por

P (Xn = j) =∑

i∈Λ

P (Xn = j|X0 = i) P (X0 = i)

=∑

i∈Λ

ξiPnij

=((P n)T

ξ)

j.

Note que a distribuicao de Xn e a mesma de X0 para todo n ∈ N se ξ satisfaz (3.46).Consequentemente, para k ∈ N e qualquer funcao f : Ω −→ R mensuravel,

Eξf(τk·) = E(P n)T ξf(·) = Eξf(·)

e todas esperancas com respeito a distribuicao conjunta de Xnn≥0 sao invariantes pelatranslacao τ .

Daremos a seguir alguns exemplos de medida estacionaria de cadeias de Markov.

Exemplo 3.71 (Cadeia de Ehrenfest) A medida estacionaria da cadeia de Ehrenfest(veja Exemplo 3.65) satisfaz

(I − P T

)ξ =

1 −1/r 0 . . . 0 0−1 1 −2/r . . . 0 00 −1 + 1/r 1 . . . 0 0...

......

. . ....

...0 0 0 . . . 1 −10 0 0 . . . −1/r 1

ξ0ξ1ξ2...

ξr−1

ξr

=

000...00

Page 115: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.3 Alguns Resultados sobre o Limite de Cadeias de Markov Estacionarias 115

ou, em coordenadas,

ξ0 −1

rξ1 = 0

−ξ0 + ξ1 −2

rξ2 = 0

... =...

(−1 +i− 1

r)ξi−1 + ξi −

i+ 1

rξi+1 = 0

... =...

−1

rξr−1 + ξr = 0

Multiplicando estas equacoes por 1, z, . . ., zi, . . ., zr, somando-as em seguida, resulta

r+1∑

i=1

(−1 +i− 1

r)ξi−1z

i +r∑

i=0

ξizi −

r−1∑

i=0

i+ 1

rξi+1z

i = 0 . (3.47)

Em termos da funcao

f(z) =

r∑

i=0

ξizi

a equacao (3.47) pode ser escrita como uma equacao diferencial homogenea de primeiraordem

−zf +z2

rf ′ + f − 1

rf ′ = 0

ou, equivalentemente,

f ′ =r

1 + zf (3.48)

cuja solucao ef(z) = a(1 + z)r

onde a e uma constante de integracao arbitraria. Note que (3.48) pode ser escrita como

(ln f)′ = r (ln(1 + z))′ .

Usando o Teorema binomial com a = 1/2r, temos

f(z) =1

2r

r∑

i=0

(r

i

)zi

concliuımos

ξi =1

2r

(r

i

).

Note que a medida estacionaria ξ se encontra normalizada

r∑

i=0

ξi = 1.

Page 116: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

116 3. Cadeias de Markov

Exemplo 3.72 (Processo de nascimeno e morte) As equacoes coordenadas de

(I − P T

)ξ = 0

para a cadeia de Markov do Exemplo 3.66,

(1 − r0)ξ0 − q1ξ1 = 0... =

...

−pi−1ξi−1 + (1 − ri)ξi − qi+1ξi+1 = 0... =

...

juntamente com as condicoes ri + pi + qi = 1 para i ≥ 1 e r0 + p0 = 1, podem ser escritascomo

qi+1ξi+1 − piξi = qiξi − pi−1ξi−1

com q1ξ1 − p0ξ0 = 0. Logo

qi+1ξi+1 − piξi = 0 , ∀i ≥ 1

e, portanto,

ξi+1 =pi

qi+1ξi

=pi

qi+1· · · p0

q1

para i ≥ 0 com ξ0 = 1.

Note neste ultimo exemplo que ξ satisfaz a condicao de reversibilidade

ξipij = ξjpji (3.49)

Claramente esta relacao e satisfeita para i = j e para |j − i| > 1 pois, nestes casos, oselementos de matriz pij = 0. Resta apenas verificar para j = i+ 1:

ξipii+1 =pi−1

qi· · · p0

q1pi =

pi

qi+1

pi−1

qi· · · p0

q1qi+1 = ξi+1pi+1i .

Definicao 3.73 Uma medida estacionaria ξ de uma cadeia de Markov satisfazendo(3.49) e denominada medida reversıvel.

Proposicao 3.74 Se ξ e uma medida estacionaria reversıvel entao a matriz de transicaoP e auto–dual, no sentido que

P = Q (3.50)

onde Q = (ΞPΞ−1)T, com a matriz diagonal Ξ = diag (ξi)i∈Λ, e a matriz de transicao

dual.

Page 117: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.3 Alguns Resultados sobre o Limite de Cadeias de Markov Estacionarias 117

Prova. Por definicao, os elementos da equacao (3.50)

pij =(ΞP TΞ−1

)ji

= ξjpji1

ξi

satisfazem (3.49), concluindo a demonstracao.2

Daremos a seguir uma maneira pratica de verficar se uma matriz de transicao P admiteuma medida de equilıbrio ξ reversıvel.

Criterio 3.75 As condicoes necessarias e suficientes para existencia de uma medidaestacionaria ξ reversıvel sao

i. pij > 0 =⇒ pji > 0

ii. Para toda sequencia cıclica de estados i0, i1, . . ., in = i0, tal que

n∏

k=1

pikik+1> 0

tem–sen∏

k=1

pikik+1

pik+1ik

= 1

Note que i. e ii. sao necesarias pois se ξ e reversıvel, entao

pij

pji

=ξjξi

e satisfeita para todo pij > 0 (pji > 0 pela relacao (3.49)) e

n∏

k=1

pikik+1

pik+1ik

=n∏

k=1

ξik+1

ξik= 1

pela ciclicidade dos estados. Este criterio e devido a Kolmogorov. A demostracao dasuficiencia destas condicoes fica como exercıcio.

Considerando os exemplos desta e outras subsecoes, sumarizamos

1. ξi = 2−r

(r

i

)e uma medida estacionaria reversıvel para a cadeia de Ehrenfest;

2. ξi = 1 e reversıvel se, e somente se, P T = P ;

3. ξi = (p/q)i e uma medida estacionaria reversıvel para o passeio aleatorio simples;

4. Toda cadeia de nascimento e morte tem uma medida estacionaria reversıvel.

Os seguintes resultados caracterizam a medida estacionaria de uma cadeia de Markovirredutivel recorrente.

Page 118: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

118 3. Cadeias de Markov

Teorema 3.76 Seja j um estado recorrente5 e T = inf n ≥ 1 : Xn = i o tempo deretorno ao estado i. Entao

πj =

∞∑

n=0

Pi (Xn = j, T > n)

define uma medida estacionaria π = (πj)j∈Λ.

Prova. Para k 6= i, temos

j∈Λ

πjpjk =

∞∑

n=0

j∈Λ

Pi (Xn = j, T > n) pjk

=

∞∑

n=0

j∈Λ

Pi (Xn = j, T > n, Xn+1 = k)

=

∞∑

n=0

Pi (Xn+1 = k, T > n + 1) = πk

pois Pi (X0 = k, T > 0) = 0. Para k = i, temos

j∈Λ

πjpji =

∞∑

n=0

j∈Λ

Pi (Xn = j, T > n, Xn+1 = i)

=

∞∑

n=0

Pi (T = n+ 1)

=∞∑

n=0

Pi (T = n) = 1 .

Note que Pi (Xn = i, T > n) = 0 se n 6= 0 e Pi (X0 = i, T > 0) = 1. Logo πi = 1.2

Teorema 3.77 Se P e irredutıvel e recorrente, entao a medida estacionaria ξ (modulonormalizacao) e unica.

Prova. Seja ξ uma medida estacionaria: P T ξ = 0. Demonstra–se por inducao

ξj = ξi

n∑

m=1

Pi (X1 6= i, . . . , Xm−1 6= i, Xm = j)

+Pξ (X1 6= i, . . . , Xm−1 6= i, Xn = j) .

Tomando n→ ∞ juntamente com a observacao

∞∑

m=1

Pi (X1 6= i, . . . , Xm−1 6= i, Xm = j) =

πj e πi = 1, temosξj ≥ ξiπj

5Se j e recorrente, entao todo estado i ∈ Λ e recorrente, pela hipotese de P ser irredutıvel.

Page 119: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

3.3 Alguns Resultados sobre o Limite de Cadeias de Markov Estacionarias 119

e, consequentemente,ξ = (P n)T

ξ ≥ ξi (Pn)T

π = ξiπ

pois π e estacionaria. Tomando a i–esima componente desta desigualdade, resulta naigualdade (aqui usamos πi = 1)

((P n)T

ξ)

i=(ξi (P

n)Tπ)

i

de onde se conclui, devido a n ∈ N ser arbitrario,

ξ = ξiπ

concluindo a demonstracao do teorema.2

Teorema 3.78 Se P e irredutıvel e tem uma medida de equılibrio, entao

ξi =1

EiT

onde T e o tempo de retorno ao estado i.

Prova. Pelo Teorema 3.76, o vetor

πj =

∞∑

n=0

Pi (Xn = j, T > n) , j 6= i

com πi = 1 e uma medida estacionaria. Pelo Teorema de Fubini,

j∈Λ

πj =∞∑

n=0

Pi (T > n) = EiT .

Pelo Teorema 3.77, π e unica, modulo normalizacao, de onde se conclui

ξ =π∑

j∈Λ πj=

π

EiT

e o teorema e demonstrado tomando a i–esima componente desta equacao.2

Completamos esta subsecao com

Definicao 3.79 Um estado i ∈ Λ e dito ser recorrente positivamente se EiT < ∞.Se EiT = ∞ o estado e dito ser recorrente nulo.

Considere a variavel aleatoria Nyn : Ωx −→ N que associa a cada trajetoria ω =

(ω0, ω1, . . .) partindo de x o numero de visitas a y ate o tempo n. Denotando por Iy :Λ −→ 0, 1 a funcao indicadora do estado y, temos

Nyn =

n∑

k=1

Iy(Xk)

Page 120: Introduc¸˜ao aos Processos Estoc´asticos - gibbs.if.usp.brgibbs.if.usp.br/~marchett/estocastica/procest-10.pdf · P. G. Hoel, S. C. Port e C. J. Stone, Introduction to Stochastic

120 3. Cadeias de Markov

de onde se conclui, se x 6= y,

Ex (Nyn) =

n∑

k=1

ExIy(Xk)

=

n∑

k=1

Px (Xk = y)

=n∑

k=1

Pk (x, y) = Γn(x, y; 1)

O fato de P ser irredutıvel juntamente com a Proposicao 3.58 implica que a cadeia deMarkov e recorrente se, e somente se, o valor esperado do numero de visitas a y, Ex (Ny

n),diverge quando n tende a infinito.

Teorema 3.80 Se y e um estado recorrente, entao com excessao de um conjunto N deω’s com probabilidade Px(N) = 0,

limn→∞

Nyn(ω)

n=χTy<∞(ω)

EiTy

com χA(ω) = 1 (0) se ω ∈(/∈)A.

Prova. Seja T ry a variavel aleatoria em (Ωx,Fx,Px) correpondente ao tempo da r–esima

visita a y:T r

y (ω) = min n ∈ N : Nyn(ω) = r

e, para r > 1, sejaW r

y (ω) = T ry (ω) − T r−1

y (ω)

com W 1y (ω) = T 1

y (ω) = Ty(ω). As variaveis aleatorias W 1y , W

2y , . . . sao independentes e

igualmente distribuidas com media

ExWry = ExTy .

Claramente,T r

y (ω) = W 1y (ω) + · · ·+W r

y (ω) .

e pela lei dos grandes numeros, o limite

limr→∞

T ry (ω)

r= ExTy

para quase todo ω.Se Ny

n(ω) = r, entao a cadeia de Markov fez, extamente, r visitas a y ate o tempo n.Consequentemente,

TNyn(ω)

y (ω) ≤ n < TNyn(ω)+1

y (ω)

eT

Nyn(ω)

y (ω)

Nyn(ω)

≤ n

Nyn(ω)

<T

Nyn(ω)+1

y (ω)

Nyn(ω)

.

Como y e recorrente, Nyn(ω) tende a infinito quando n→ ∞ para quase todo ω.