intervallmellomfødslarstudertved “phasetypedistributions” av leivmagneasperheim · 2016. 4....

Intervall mellom fødslar studert ved“Phase Type Distributions”

avLeiv Magne Asperheim

Oppgåve for graden

Master i StatistikkFinansteori og Forsikringsmatematikk

Universitetet i Bergen

Matematisk Institutt

31. mai 2011

CORE Metadata, citation and similar papers at core.ac.uk

Provided by NORA - Norwegian Open Research Archives

https://core.ac.uk/display/30810201?utm_source=pdf&utm_medium=banner&utm_campaign=pdf-decoration-v1

Takk

Eg vil rette ein stor takk til rettleiaren min, Trygve S. Nilsen, for å ha vore tålmodig,hjelpsam og motiverande. Det har vore ei inspirerande oppgåve, som har vore spennandeå jobbe med.Trygve S. Nilsen og Dag Tjøstheim skal ha ein spesiell takk for gode forelesingar, nokosom var med å bidra til valget mitt å ta master i statistikk.Vidare vil eg takke familien min for god støtte.Ein stor takk rettast mine medstudentar for fagleg hjelp, samt sosiale stunder både på ogutanfor universitetet. Her kunne eg nevnt mange, men vil spesielt sei at Miriam, Sindre,Gunhild og Bjarte har vore gode støttespelarar både fagleg og sosialt.Til slutt vil eg takke Catrine og Inghild for å ha lese gjennom oppgåva.

iii

Innhald

1 Introduksjon 11.1 “Phase Type Distributions” . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Innleiing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2 Overlevelsesanalyse 5

3 Hasardkurvene for datasetta funne ved glatting av Nelson-Aalen esti-matoren 9

4 Tilpassing av ein “Phase Type Distribution” ved å bruke “den dynamis-ke modell” på “det simulerte datasett” 134.1 “Den dynamiske modell” . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.2 Utleiing av differensiallikningar . . . . . . . . . . . . . . . . . . . . . . . . 144.3 Løysing av differensiallikningane . . . . . . . . . . . . . . . . . . . . . . . 184.4 Overlevelsesfunksjon og likelihood funksjon for “den dynamiske modell” . . 214.5 Maximum Likelihood estimering av α, β og γ . . . . . . . . . . . . . . . . 22

5 Tilpassing av ein “Phase Type Distribution” ved å bruke “den dynamis-ke modell” på “bokas datasett” 29

6 Tilpassing av ein “Phase Type Distribution” ved å bruke “den alterna-tive dynamiske modell” på “bokas datasett” 336.1 “Den alternative dynamiske modell” . . . . . . . . . . . . . . . . . . . . . . 336.2 Utleiing av differensiallikningar . . . . . . . . . . . . . . . . . . . . . . . . 346.3 Løysing av differensiallikningane . . . . . . . . . . . . . . . . . . . . . . . 366.4 Maximum Likelihood estimering av α og γ . . . . . . . . . . . . . . . . . . 42

7 Konklusjon 45

v

A Simulering av “det simulerte datasett” i R 49

B Hasardkurver funne ved glatting av Nelson-Aalen aukingane i R 53

C Maximum likelihood estimering av α, β og γ med bruk av “den dyna-miske modell” på “det simulerte datasett” 57

D Maximum likelihood estimering av α, β og γ med bruk av “den dyna-miske modell” på “bokas datasett” 61

E Maximum likelihood estimering av α og γ med bruk av “den alternativedynamiske modell” på “bokas datasett” 67

vi

1Introduksjon

1.1 “Phase Type Distributions”

“Phase Type Distributions” eller ei phase type fordeling er fordelinga til ei hendelsestid Ti ei Markovkjede med endeleg tilstandsrom. Hendelsestida T er ein tilfeldig variabel sombeskriv tida til absorpsjon for ein Markovprosess med ein absorberande tilstand. JamførAalen, Borgan og Gjessing [2] side 388-390.

1.2 Innleiing

Dette er ei oppgåve som omhandlar tida mellom første og andre barn studert ved “PhaseType Distributions”, basert på ein artikkel av Odd O. Aalen [1], eksempel 7. Denne phasetype fordelinga er i vårt tilfelle fordelinga til tida mellom første og andre barn.

Me vil altså studere tida mellom første og andre barn ved å sjå på den tilhøyrandephase type fordelinga for denne tida. Denne finn me ved å prøve å tilpasse ei phase typefordeling til det aktuelle datasettet me ser på. Eg vil i denne oppgåva bruke eit nyaredatasett enn Aalen brukte i [1], for så å sjå på korleis dei resultata eg får samsvarar medresultata han fekk. Dette vil sei oss noko om det har blitt endringar i fødselsmønsteret itida som har gått mellom dei to datasetta.

Medan Aalen i [1] brukte eit datasett med reelle data på 1779 mødre som hadde fåtteit levande født førstebarn i perioden 1967-71, vil me bruke eit datasett med reelle databrukt i eksempel 1.1 i [2], side 8. Dette datasettet består av 53 558 observasjonar, der53 296 av mødrene fekk eit levande første barn i perioden 1983-1997. Dei resterande 262observasjonar der mødrene fekk eit dødt første barn er me kun interessert i når me skalundersøke hasardkurva for desse mødrene i Fig. 3.10 i [2], side 87. Denne figuren har egtatt med i Figur 1.1 fordi eg vil samanlikne dei kurvene eg får med denne. Eg vil fra no avbetegne dei to nemnte datasetta som henholdsvis “Aalens datasett” og “bokas datasett”.Me ser altså at det er forskjell i tida desse datasetta er samla inn på, samt størrelsen på

1

dei.

Før eg byrjar å bruke Aalens metode for å tilpasse ei phase type fordeling [1], vil egbruke glatting som ein alternativ metode for å finne ei fordeling til tida mellom første ogandre barn. Dette går eg nærare inn på i kapittel 3.

Markovmodellen benytta i eksempel 7 i [1] for å tilpasse ei phase type fordeling vileg fra no av betegne som “den dynamiske modell”. Før eg byrjar å bruke “den dynamiskemodell” på “bokas datasett” for å tilpasse ei phase type fordeling, vil eg imidlertid prøve“den dynamiske modell” på eit datasett eg veit er veldig likt “Aalens datasett”. Dettefordi at “den dynamiske modell” ikkje var like problemfri å bruke når eg brukar den på“bokas datasett”. Eg vil derfor undersøke om eg får samme resultat og at ting passar likegodt som i [1] når eg brukar eit datasett som liknar “Aalens datasett”. Av den årsak vileg i kapittel 4 byrje med å prøve å tilpasse ei phase type fordeling på eit datasett eghar simulert til å vere så likt “Aalens datasett” som mogleg. Eg har simulert det fordi egikkje har tilgang på sjølve datasettet. Eg vil fra no av omtale dette datasettet som “detsimulerte datasett”. Når eg har gjort dette vil eg byrje med det som verkeleg er inter-essant, nemleg å sjå på kva som skjer når eg brukar “den dynamiske modell” på “bokasdatasett” for å prøve å tilpasse ei phase type fordeling. Dette tar eg for meg i kapittel5. I kapittel 6 vil eg introdusere min eigen Markovmodell og sjå korleis det går når egprøver å tilpasse ei phase type fordeling ved hjelp av denne.

Til slutt vil eg bemerke at eg i oppgåva brukar ulike benemnelsar for fordelinga til tidamellom første og andre barn. Eg vil bruke phase type fordeling som benemnelse slik somAalen har gjort det i [1], men eg vil og bruke hasardrate og estimert hendelsesrate sombenemnelse der eg finn det naturleg. Tradisjonelt blir desse orda brukt om det samme,og det vil eg og gjere. Kan merke oss at det er den betinga fordelinga til tida mellomførste og andre barn ved ei tid t, eg ser på, gitt at me har overlevd fram til denne tida t.

2

Figur 1.1: Estimerte hasardkurver for tid mellom første og andre barn. Desse tidene erhenta fra “bokas datasett” og figuren er kopiert fra Fig. 3.10 i [2]. Heiltrekt linje: førstebarn døydde innan sitt første leveår, prikkete linje: første barn overlevde sitt første leveår.

3

2Overlevelsesanalyse

For det følgjande kapittelet har eg henta informasjon fra [2] side 1-6. Overlevelsesanalyseer ein statistisk metode der ein er interessert i oppståinga av hendingar. Med hendingarmeinar me hendingar i liva til individ som er av spesiell interesse i forskningsstudiar innan-for medisin, demografi, biologi, sosiologi, økonometri, osv. Eksempel på slike hendingarer død, hjerteinfarkt, forelskelse, bryllaup, skilsmisse og fødsel. I klassisk overelevelses-analyse fokuserar ein på ei enkel hending for kvart individ, der oppståinga av hendingablir beskrive ved hjelp av overlevelseskurver og hasardratar, og ved analysar av avhen-gigheiten mellom kovariatar med bruk av regresjonsmodellar. Viss ein samanføyer fleirehendingar med kvarandre, når dei oppstår for eit individ over tid, får me hendingshistoria.Ein kan til dømes vere interessert i å sjå på korleis menneske går gjennom ein sjukdom.Her kan følgjeleg sjukdommen ha fleire ulike tilstandar. Men hendingshistoriar er ikkjeberre begrensa til menneske. Ei følgje av hendingar kan og skje med dyr, planter, celler,amalgamfyllingar, hofteproteser, lyspærer, bilar, osv. Ein kan sei at det kan skje med altsom forandrar, utviklar, eller forfell seg. Overlevelsesanalyse og hendingshistorieanalyseer brukt som eit verktøy på mange ulike område, der nokon døme er:

• Bevise eller motbevise nytten av medisinsk behandling for sjukdom.

• Forståing av riskfaktorar, og dermed hindre sjukdom.

• Evaluering av pålitelegheit for teknisk utstyr.

• Forståing av mekanismane i biologiske fenomen.

• Observasjon av sosiale fenomen som skilsmisse og arbeidsledigheit.

Det som er interessant i mi oppgåve er klassisk overlevelsesanalyse. Altså er me kuninteressert i tida til ei enkel hending for kvart individ. Meir spesifikt kan me sei tida fraei innleiande hending til ei hending me er interessert i skjer. Døme her kan vere:

• Tid fra fødsel til død.

5

• Tid fra første til andre fødsel.

• Tid fra sjukdom til død.

• Tid fra bryllaup til skilsmisse.

Som eit allmennt namn for desse tidene vil me bruke survival time eller overlevelsestid.Dette sjølv om endepunktet kan vere noko anna enn død.

Eit problem ein nesten alltid møter når ein studerar overlevelsestider er at sidan einventar på at ei hending skal skje, så vil ein når studien er over og analysen skal ta tilfinna ut at hendinga har skjedd for nokre individ, men ikkje for andre. I ein studie om tidmellom første og andre barnefødsel vil nokre av kvinnene ha fått sitt andre barn i tidastudien pågjekk, medan andre ikkje har fått det. Dei vil kunne få sitt andre barn seinare,men det er ukjent for oss når me analyserer data. Dermed blir data me har samla inn be-ståande av ein blanding av fullstendige og ufullstendige observasjonar. Dette er årsakentil at me treng ein anna statistisk teori for desse observasjonane enn for observasjonarsom til dømes måling av blodtrykk. Her er alle observasjonane fullstendige og me bru-kar godt utvikla metodar for kontinuerlig eller muligens diskret data. Dei ufullstendigeobservasjonane kallar me sensorerte overlevelsestider. Dette kan skje ved avslutninga avstudien ved at nokre personar ikkje har opplevd hendinga me interesserer oss for, ellerved at nokon trekker seg fra studien eller forsvinn fra oppfølging under studien. Dei per-sonane som ikkje har opplevd hendinga av interesse ved ei gitt tid t, og som heller ikkjehar blitt sensorerte ved tid t, er antallet som er i risiko ved tid t.

Sjølv om dei vanlege statistiske metodane ikkje kan takle sensorerte overlevelsesdata,så er det nokså lett å analysere slike data. Det ein treng er dei riktige omgrepa, og det erto grunnleggjande omgrep som er tilstades under all teori om overlevelsesanalyse, nemlegoverlevelsesfunksjonen og hasardraten. Hasardraten er den betinga sannsynsfordelinga tiloverlevelsestida for hendinga me ventar på. I mi oppgåve er det tida fra første til andrefødsel. Ein startar med ein viss mengde av individ ved tid null og ventar på at ei spesiellhending skal skje for desse. Overlevelsesfunksjonen S(t) gjev da den forventa andel av in-divid som ikkje har opplevd hendinga ved tid t. Viss den tilfeldige variabelen T betegnaroverlevelsestida, kan me formelt skriva

S(t) = P (T > t) . (2.1)

Overlevelsesfunksjonen gjev altså sannsynet for at hendinga av interesse ikkje har skjeddved tid t, noko som ikkje treng å ha med død å gjere. Ofte vil overlevelsesfunksjonengå mot null når t blir større fordi etterkvart som tida går vil fleire og fleire opplevehendinga av interesse. Men me kan og sjå på hendingar som ikkje nødvendigvis skjer medalle individa, og da vil overlevelsesfunksjonen minke mot ein positiv verdi når t går motuendeleg. Eksempel på dette kan vere skilsmisser og testikkelkreft. Overlevelsesfunksjonen(2.1) gjev det ubetinga sannsynet for at hendinga av interesse ikkje har skjedd ved tid t.Hasardraten α(t) er derimot definert ved hjelp av betinga sannsyn. Ved å anta at T er

6

absolutt kontinuerlig, det vil sei at T har ein sannsynstettleik, kan me sjå på dei individasom ikkje har opplevd hendinga av interesse ved tid t, og sjå på kva sannsynet er for atdei opplever denne hendinga i eit lite tidsintervall [t, t+ dt). Da vil dette sannsynet verelik α(t)dt. Meir presist er hasardraten definert som ei grense på følgjande måte

α(t) = limMt→0

1

M tP (t ≤ T < t+ M t|T ≥ t) . (2.2)

Me kan her merka oss at medan overlevelseskurva vil starte i 1 og avta over tid, kanhasardraten vere ein kva som helst ikkje-negativ funksjon. Me kan og legge merke til athasardraten er modellen sitt motstykke til hendelsesraten som er brukt mykje i epide-miologiske studiar. Fra sensorerte overlevelsesdata kan me lett estimere overlevelseskurvaved hjelp av Kaplan-Meier estimatoren. Sidan denne estimatoren ikkje er noko ein trengkunnskap om i denne oppgåva, vil me ikkje gå noko meir inn på den. Å estimere ha-sardraten er meir komplisert. Det me gjer først er å estimere den kumulative hasardraten

A(t) =

∫ t

0α(s)ds (2.3)

ved Nelson-Aalen estimatoren. Dette er ein ikkje-parametrisk estimator som er brukt forå estimere den kumulative hasardraten A(t) fra sensorerte overlevelsesdata. Denne er gittved (3.4) i [2] side 72, og er som følgjer

A(t) =∑Tj≤t

1

Y (Tj). (2.4)

Me kan da glatte aukingane i Nelson-Aalen estimatoren for å finne eit estimat av ha-sardraten, sjå (3.1). Det er 2 fundamentale matematiske samanhengar mellom overlevel-sesfunksjonen og hasardraten. Den første er at ved (2.2) og (2.3) har me at

d

dtA(t) = α(t) = lim

Mt→0

1

M tP (t ≤ T < t+ M t|T ≥ t)

= limMt→0

1

M t

S(t)− S(t+ M t)

S(t)

= − 1

S(t)limMt→0

S(t+ M t)− S(t)

M t

= −ddtS(t)

S(t).

⇒ α(t) =d

dtA(t) = −

ddtS(t)

S(t). (2.5)

Så ved integrasjon og bruk av at S(0)=1 får me den andre samanhengen som er∫ t

0α(s)ds = − log(S(t)) .

S(t) = e−∫ t0 α(s)ds . (2.6)

7

3Hasardkurvene for datasetta funne ved glatting av

Nelson-Aalen estimatoren

Før eg vil forsøke å tilpasse ei phase type fordeling til datasetta, vil eg i dette kapitteletstudere datasetta brukt i [1] og [2] ved å glatte aukingane i Nelson-Aalen estimatoren(2.4). Merk at eg ikkje brukar det samme datasettet som Aalen, men eit datasett eg harsimulert til å likne hans gitt i tillegg A. Som nemnt i innleiinga kallar eg dette dataset-tet for “det simulerte datasett”. Simuleringa er gjort i ei programpakke kalla R [8], ogdet er i dette programmet at eg har gjort all programmering for denne oppgåva. For åforstå simuleringa anbefalar eg å vente med å sjå på tillegg A til me byrjar på kapittel4. Glattinga av aukingane i Nelson-Aalen estimatoren vil følgjeleg gje meg hasardratenfor overlevelsestida, der overlevelsestida er den tida som går mellom første og andre barn.

Me vil starte med å bruke ein ferdig funksjon i R kalla muhaz, jamfør [7]. Muhaz esti-merar hasardraten fra høgre-sensorerte data ved å bruke kjernebaserte metodar. Muhaztreng kun informasjon om overlevelsestidene, og om tidene er sensorerte eller usensorerte.Når den har fått denne informasjonen gjev den tilbake ein hasardrate. Denne hasardra-ten er som nemnt funne ved hjelp av glatting av aukingane i Nelson-Aalen estimatoren.Hasardraten er ei betinga fordeling til overlevelsestida. Før eg gjev grafen til hasardratenme finn ved hjelp av muhaz, vil eg gje ei kort forklaring av korleis denne glattinga føregår.

Ein kan bruka fleire metodar for å glatte denne estimatoren, men muhaz brukar kjerne-funksjonsglatting. Da blir hasardraten α(t) estimert av eit vekta gjennomsnitt av Nelson-Aalen aukingane ∆A(Tj) over intervallet [t-b,t+b]:

α(t) =1

b

∑Tj

K(t− Tjb

)∆A(Tj) . (3.1)

Her er b bandbreidde, medan kjernefunksjonen K(x) er ein bunden funksjon som forsvinnutanfor [-1,1] og har integral 1. Eksempel på slike kjernefunksjonar er:

• Uniform kjerne: K(x) = 1/2

9

• Epanechnikov kjerne: K(x) = 3(1− x2)/4

• Biweight kjerne: K(x) = 15(1− x2)2/16

Legg merke til at formlane gjeld for |x| ≤ 1 og at alle dei 3 kjernefunksjonane er 0 når|x|>1, jamfør [2] side 85.

I denne oppgåva brukar me Epanechnikov som kjernefunksjon. Ved å bruke muhaz funk-sjonen på “det simulerte datasett” samt “bokas datasett” får eg da følgjande figur:

1 2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

Plott av hasardkurver for dei to datasetta eg har nytta meg av

Fødselsintervall i år

Has

ardr

ate

for

andr

e fø

dsel

Hasard rate fra bokas datasett der første barn overlevdeHasard rate fra bokas datasett der første barn døyddeHasard rate fra eit simulert datasett der første barn overlevde

Figur 3.1: Eg har her samanlikna korleis hasardkurvene for dei 2 datasetta blir der førstebarn overlevde sitt første leveår, samt sett på korleis hasardkurva for “bokas datasett”blir der første barn døydde i sitt første leveår.

Programmeringen i R som har gjeve meg denne figuren følgjer av koden som er gitt itillegg B. Ser utifra Figur 3.1 at hasardraten blir mindre i “bokas datasett” enn det denblir i “det simulerte datasett”. Kan dermed sjå ut som det har blitt ei endring i fød-selsmønsteret for dei mødrene som fekk eit levande første barn. Dette vil me få næraresvar på når me ser vidare på datasetta i kapittel 4, 5 og 6. Kan og legge merke til athasardkurva for “bokas datasett”, der første barn overlevde virkar å vere identisk med denprikkete hasardkurva som er i Figur 1.1. Sidan den også er funne ved muhaz på sammedatasett, bør desse vere like og gjev meg ein bekreftelse på at muhaz funksjonen fungerer.

10

I Figur 3.1 er det også tatt med eit plott av korleis hasardraten ser ut for mødre fra“bokas datasett” der første barn døydde. Me ser at denne hasardkurva ikkje samsvararmed hasardkurva for samme datasett i Figur 1.1. Medan hasardkurva eg finn er ganskelik kurva i Figur 1.1 fra 3 år og utover, er dei totalt ulike mellom 0 til 3 år. Figur 1.1 fårher ei kurve som avtek i ei nærast rett linje fra ein hasardrate på over 0.7 ved 1 år til 0.2ved 3 år. Medan som ein ser av Figur 3.1 så får eg for tilsvarande tidsintervall ei kurvesom stig til ein topp med hasardrate på litt over 0.3 ved 1,5 år og som synk ned til 0.2ved 3 år. Sidan desse også burde samsvare med kvarandre har eg valgt å sjå litt nærarepå kva som kan vere årsaken til desse ulike resultata.

Eg byrjar da med å lage min eigen funksjon som skal likne muhaz. Eg vil at denne funk-sjonen skal bruke kjernefunksjons glatting med Epanechnikov som kjerne slik som er blittbrukt i muhaz funksjonen. Vidare må me ta hensyn til at grensepunkta i nærleiken av 0år vil få ein Epanechnikovkjerne som vektar observasjonane med ein kjerne som strekkerseg utanfor området me ser på. Epanechnikovkjernen vår vil her vekta observasjonanesom om det fantes eit område før tid 0 med i observasjonsmengden vår. Derfor innførerme ein boundarykjerne som også muhaz funksjonen nyttar seg av. Boundarykjernen tilEpanechnikov blir

Kq(x) =12

(1 + q)4(x+ 1){x(1− 2q) +

3q2 − 2q + 1

2} . (3.2)

Jamfør Muller og Wang [5]. Denne funksjonen gjeld da på området [−1, q], der q er av-standen fra x = 0 til grensepunktet for observasjonane. Eg har da alt som trengs for ålage min eigen muhaz liknande funksjon i R. Koden for dette ligg også i tillegg B og mefår utifrå dette hasardkurva i Figur 3.2 på neste side. Eg har brukt forskjellig bandbreiddeetter kor nær grensa me er i denne figuren. Me ser at denne hasardkurva er mykje meirlik den som er i Figur 1.1 enn kva den liknar den me fann ved å bruke muhaz funksjoneni Figur 3.1. Årsaken til desse forskjellane skuldas at bandbreidda som muhaz funksjonenhar valgt har vore for stor nær grensepunktet for observasjonane, noko som har dratttoppen på kurva mykje lenger ned enn kva som er tilfelle med mindre bandbreidde. Detsom blir ulempa med å minske bandbreidden er at kurva blir mindre glatt, noko ein kansjå er tilfellet i Figur 3.2 nær grenseområdet ved tid 0.

Konklusjonen ein kan dra utifra dette når det gjeld mødre med dødt første barn, erat muhaz funksjonen gjev ein for liten hasardrate i byrjinga av intervallet. Difor er nokden hasardraten me finn ved vår eigen funksjon meir korrekt. Den liknar meir på ha-sardraten i Figur 1.1 og sidan me har mindre bandbreidde nær grenseområdet, vil ikkjemangelen på observasjonar nær tid null klare å dra kurva like langt ned som det som vartilfelle i muhaz funksjonen.

11

● ● ●

●

● ●●

●

●

●

●

●

●

●

●

●●

●●

●●

●● ● ● ● ●

1 2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

Plott av hasardkurve for mødre med dødt første barn


Has

ardr

ate

for

andr

e fø

dsel

Figur 3.2: Har her brukt “bokas datasett” med bandbreidde på 0.3 år nær grensa, medaneg har auka bandbreidda til 2 år ellers.

12

4Tilpassing av ein “Phase Type Distribution” ved å bruke

“den dynamiske modell” på “det simulerte datasett”

4.1 “Den dynamiske modell”

Aalen ville i artikkelen sin [1], prøve å finne ei phase type fordeling som han kunnetilpasse med datasettet han nytta seg av. Dette datasettet har eg i innleiinga definertsom “Aalens datasett” som inneheld informasjon om tidene mellom første og andre barn.Aalen ville analysere denne tida som er av interesse i demografiske undersøkelsar. Data-settet er henta fra fødselsregisteret i Norge for 1779 kvinner som fekk eit levande førstebarn i perioden 1967-71 og som vart følgt opp fram til 1982. Me vil som nemnt brukeeit liknande datasett kalla “det simulerte datasett” fordi me ikkje har tilgang på “Aalensdatasett”. Først analyserte Aalen data ved aktuarmetoden. Det vil sei at ein etter førs-te fødsel har observert hendelsesraten for andre fødsel med intervall på 6 månadar, derein deler antall fødslar i eit intervall på antall som er i fare for å føde ved byrjingaav intervallet. Dette er punkta som kjem i Figur 4.3 i slutten av kapittelet og kallastden observerte hendelsesraten. Det som meinast med å tilpasse ei phase type fordelinger at fordelinga me finn skal passe så godt som mogleg med den observerte hendelsesraten.

Så kan me byrje å sjå nærare på “den dynamiske modell” som Aalen vidare introdu-serar. Dette er ein Markovmodell som består av fem tilstandar og er beskrive av Figur4.1 på neste side. Sidan me i resultat fra Figur 3.1 har sett at hendelsesraten for “detsimulerte datasett” har ein topp på rundt tre år etter første fødsel, kan me også få einliknande topp for vår fordeling ved å ha eksponensielle steg i ein serie. For eit steg mellomførste og andre barn vil tida vere eksponensielt fordelt og dermed vil fordelinga til tidavere monotont avtagande. Me ynskjer derimot ei fordeling som har ein topp rundt tre åretter første barn. Viss me velger å ha to steg mellom første og andre barn vil fordelinga tiltida stige til ein topp for deretter å synke igjen. Dette er ei slik form me vil ha fordelingavår på og derfor er det naturleg å ha minst to steg i modellen. Da vil me minimum hatre tilstandar, der å gå fra første til andre tilstand betyr at paret vil forsøke å få eit nyttbarn, medan å gå fra andre til tredje tilstand betyr at paret har fått eit nytt barn. Så

13

kan ein ta hensyn til at det eksisterar heterogenitet/skjørhet mellom ulike foreldrepar.Nokon vil fort få eit nytt barn, medan andre vil vente i fleire år. Dermed bør det vereminst 2 vegar ein kan gå gjennom tilstandane på, der ein er kjappare enn den andre. Tilslutt må ein óg ta hensyn til at nokre kvinner aldri vil få eit andre barn. Dermed må meha ein ekstra absorberande tilstand i tilstandsrommet.

Aalen har valgt å halde antall parametrar så lågt som mogleg slik at me kan identi-fisere desse. Eit individ startar altså i tilstand 1 og kan derfra gå til tilstand 3 gjennomtilstand 2 og 5. Intensitetane mellom dei to tilstandane i den øvre vegen å gå er sattlik α, medan i den nedre vegen er dei satt lik β. Fra alle dei transiente tilstandane erdet ein moglegheit med intensitet γ som er å bli absorbert i tilstand 4. Å bli absorberti tilstand 4 betyr at ingen andre fødsel vil skje. Me har da introdusert “den dynamiskemodell”, og vil i resten av kapittelet vise korleis me kan bruke denne til å finne ei phasetype fordeling for datasettet me ser på. Eg understrekar igjen at eg brukar “det simulertedatasett” og ikkje “Aalens datasett”. Basert på denne modellen vil eg i neste delkapittelutleie differensiallikningane for dei ulike tilstandane.

Figur 4.1: Markov modell for fødselsintervall med 5 tilstandar, i denne oppgåva kalla “dendynamiske modell”.

4.2 Utleiing av differensiallikningar

Før me byrjar å utleie differensiallikningane for “den dynamiske modell” som er ein femtilstands Markovmodell, vil eg gjennomgå litt nødvendig teori.

14

Ein stokastisk prosess er ei samling av tilfeldige variablar X(t), der t er ein parame-ter fra ein mengde T som kan vere anten diskret eller kontinuerlig:

T =

{{0, 1, 2, ...}, for diskret T,(0,∞), for kontinuerlig T.

Stokastiske prosessar er karakterisert av tilstandsrommet, som er dei moglege verdianeden tilfeldige variabelen X(t) kan ta, ved indeksmengden T og ved avhengighetsrelasjo-nane mellom dei tilfeldige variablane X(t). Jamfør Taylor og Karlin [9], side 5.

Ein Markovprosess X(t) er ein type stokastisk prosess med eigenskapen at gitt verdi-en til X(t), så er verdien til X(s) for s > t ikkje påverka av verdien til X(u) for u < t.Med andre ord kan ein sei at sannsynet for framtidig oppførsel for prosessen, når dennoverande verdien er kjent eksakt, ikkje blir påverka av tilleggsinformasjon angåandetidligare oppførsel. Formelt kan me sette opp Markoveigenskapen som

P (X(t+ s) = j|X(s) = i,X(tn) = in, ..., X(t1) = i1) = P (X(t+ s) = j|X(s) = i) ,(4.1)

gitt tidene 0 < t1 < t2 < ... < tn < s og t > 0. Jamfør [2] side 463 og Norberg [6] side55. Det siste leddet i (4.1) er sannsynet for at X(t + s) er i tilstand j gitt at X(s) er itilstand i som blir kalla for eitt stegs overgangssannsyn. Det er betegna som Pij(t). Altsåer

Pij(t) = P (X(t+ s) = j|X(s) = i) . (4.2)

Når eitt stegs overgangssannsynet kun er avhengig av separasjonen i tid t og ikkje eravhengig av startida s, seier me at Markovkjeda har stasjonære overgangssannsyn og kankallast ei homogen Markovkjede. Formelt kan me sei at Markovkjeda er homogen og harstasjonære overgangssannsyn når

P (X(t+ s) = j|X(s) = i) = P (X(t) = j|X(0) = i) . (4.3)

Me ser i “den dynamiske modell” på ei Markovkjede i kontinuerlig tid; X(t) (t > 0) somer ein Markovprosess på tilstandane 1, 2, 3, 4 og 5. Tilstandsrommet S er endeleg i dennemodellen. Me antek som vanlig at overgangssannsyna er stasjonære. Markoveigenskapenslår da fast at Pij(t) må tilfredsstilla

(a) Pij(t) ≥ 0,

(b)∑n

j=1 Pij(t) = 1, i, j = 1, 2..., n

(c) Pik(s+ t) =∑n

j=1 Pij(s)Pjk(t) for t,s≥ 0 (Chapman-Kolmogorov likninga)

og me kan i tillegg sei at

(d)

limt→0+

Pij(t) =

{1, i = j,0, i 6= j.

15

Over er n antall tilstandar i modellen. Jamfør [9] side 394.

Chapman-Kolmogorov likninga eg no vil bruke for å utlede differensiallikningane for“den dynamiske modell” er jamført [9], side 356:

Pij(t+ h) =

n∑k=1

Pik(t)Pkj(h) . (4.4)

Her er fortsatt n antall tilstandar i modellen ein ser på.

X(t) er den tilfeldige variabelen som fortel kva tilstand me er i ved tid t. La oss anta atprosessen er i tilstand i ved tid t. Da vil qij (for i 6= j) måle kor fort tilstandsendringenfra i til j vil skje. Denne qij vil i “den dynamiske modell” vere ein av dei tre intensitetaneα, β eller γ. Me får da i vårt tilfelle ein Markovprosess X(t) der

(i) P (X(t+ h) = j|X(t) = i) = qijh+ o(h) for i 6= j. i, j = 1, 2, ..., n,

(ii) P (X(t+ h) = i|X(t) = i) = 1−∑n

j=1,j 6=i qijh+ o(h),

(iii) qij = 0 viss det ikkje går an å hoppa direkte fra tilstand i til tilstand j.

Jamfør [9] side 395. Punkt (iii) seier oss altså at å hoppe meir enn eitt steg på tiden h vil hasannsyn o(h). Når h→ 0 vil o(h) gå mot null, dermed tar eg ikkje med moglegheitane formeir enn eit hopp på tida h når eg skal bruke (4.4). Me kan da ved hjelp av desse punktaog bruk av (4.4) utleie differensiallikningane for tilstandane i “den dynamiske modell”.Me har altså at n = 5 i “den dynamiske modell” og nyttar den samme nummereringsom Aalen [1]. Sidan ein i vår modell alltid startar i tilstand 1, vil eg for enkelheitsskuld benemne P1j(t) = Pj(t). Her er j ein av tilstandane i modellen vår, så Pj(t) er dasannsynet for at ei mor er i tilstand j ved tid t. Startbetingelsane for “den dynamiskemodell” er P1(0) = 1 og Pj(0) = 0 for j 6= 1. Utleier først for tilstand 1 og så dei andretilstandane.

P1(t+ h) = P1(t)P (X(t+ h) = 1|X(t) = 1)

= P1(t)(1− (α+ β + γ)h+ o(h)) ,

limh→0

P1(t+ h)− P1(t)

h= lim

h→0−(α+ β + γ)P1(t) +

o(h)

hP1(t) ,

d

dtP1(t) = −(α+ β + γ)P1(t) . (4.5)

P2(t+ h) = P1(t)P (X(t+ h) = 2|X(t) = 1)

+ P2(t)(X(t+ h) = 2|X(t) = 2)

= P1(t)(αh+ o(h)) + P2(t)(1− (α+ γ)h+ o(h)) ,

limh→0

P2(t+ h)− P2(t)

h= αP1(t)− (α+ γ)P2(t) ,

d

dtP2(t) = αP1(t)− (α+ γ)P2(t) . (4.6)

16

P3(t+ h) = P2(t)P (X(t+ h) = 3|X(t) = 2)

+ P3(t)P (X(t+ h) = 3|X(t) = 3)

+ P5(t)P (X(t+ h) = 3|X(t) = 5)

= P2(t)(αh+ o(h)) + P3(t)(1)

+ P5(t)(βh+ o(h)) ,

limh→0

P3(t+ h)− P3(t)

h= αP2(t) + βP5(t) ,

d

dtP3(t) = αP2(t) + βP5(t) . (4.7)

P4(t+ h) = P1(t)P (X(t+ h) = 4|X(t) = 1)

+ P2(t)P (X(t+ h) = 4|X(t) = 2)

+ P4(t)P (X(t+ h) = 4|X(t) = 4)

+ P5(t)P (X(t+ h) = 4|X(t) = 5)

= P1(t)(γh+ o(h)) + P2(t)(γh+ o(h))

+ P4(t)(1) + P5(t)(γh+ o(h)) ,

limh→0

P4(t+ h)− P4(t)

h= γ(P1(t) + P2(t) + P5(t)) ,

d

dtP4(t) = γ(P1(t) + P2(t) + P5(t)) . (4.8)

P5(t+ h) = P1(t)P (X(t+ h) = 5|X(t) = 1)

+ P5(t)P (X(t+ h) = 5|X(t) = 5)

= P1(t)(βh+ o(h)) + P5(t)(1− (β + γ)h+ o(h)) ,

limh→0

P5(t+ h)− P5(t)

h= βP1(t)− (β + γ)P5(t) ,

d

dtP5(t) = βP1(t)− (β + γ)P5(t) . (4.9)

Eg har no utleidd differensiallikningar for alle dei 5 tilstandane. Ynskjer så å løyse dessei neste delkapittel.

17

4.3 Løysing av differensiallikningane

Eg startar med å løyse (4.5) fra forrige delkapittel:

d

dtP1(t) = −(α+ β + γ)P1(t) ,

ddtP1(t)

P1(t)= −(α+ β + γ) ,∫ t

0

d

dτlog(P1(τ)) dτ =

∫ t

0−(α+ β + γ) dτ ,

log(P1(t))− log(P1(0)) = −[(α+ β + γ)τ ]t0 = −(α+ β + γ)t .

Sidan log(P1(0)) = log(1) = 0 blir dette

P1(t) = e−(α+β+γ)t . (4.10)

Me løyser så (4.6):

d

dtP2(t) = αP1(t)− (α+ γ)P2(t) ,

d

dtP2(t) + (α+ γ)P2(t) = αP1(t) .

Eg multipliserer så heile uttrykket med integrerande faktor som er e∫ t0 α+γ dτ = e(α+γ)t

og får

(d

dtP2(t) + (α+ γ)P2(t))e(α+γ)t = αP1(t)e(α+γ)t ,∫ t

0

d

dτ(P2(τ)e(α+γ)τ ) dτ =

∫ t

0αe−(α+β+γ)τe(α+γ)τ dτ

=

∫ t

0αe−βτ dτ ,

P2(t)e(α+γ)t − P2(0)e(α+γ)0 = [−αβe−βτ ]t0

= −αβ

(e−βt − e−β0)

=α

β(1− e−βt) ,

P2(t) = e−(α+γ)tα

β(1− e−βt) ,

P2(t) =α

βe−(α+β+γ)t(eβt − 1) . (4.11)

18

Me løyser vidare (4.9):

d

dtP5(t) = βP1(t)− (β + γ)P5(t) ,

d

dtP5(t) + (β + γ)P5(t) = βP1(t) .

Eg multipliserer også her heile uttrykket med integrerande faktor som er e∫ t0 β+γ dτ =

e(β+γ)t og får

(d

dtP5(t) + (β + γ)P5(t))e(β+γ)t = βP1(t)e(β+γ)t ,∫ t

0

d

dτ(P5(τ)e(β+γ)τ ) dτ =

∫ t

0βe−(α+β+γ)τe(β+γ)τ dτ

=

∫ t

0βe−ατ dτ ,

P5(t)e(β+γ)t − P5(0)e(β+γ)0 = [−βαe−ατ ]t0

= −βα

(e−αt − 1) ,

P5(t) = −βαe−(α+β+γ)t(1− eαt) ,

P5(t) =β

αe−(α+β+γ)t(eαt − 1) . (4.12)

Eg ser at P5(t) er som P2(t), berre at α og β har blitt bytta med kvarandre. Dette ernaturleg sidan einaste forskjell på sannsynet for å vere i tilstand 5 ved tid t, i høve tiltilstand 2 ved tid t, er at α har blitt bytta ut med ein β intensitet.

19

Løyser så (4.7):

d

dtP3(t) = αP2(t) + βP5(t)

= α(α

βe−(α+β+γ)t(eβt − 1)) + β(

β

αe−(α+β+γ)t(eαt − 1)) ,∫ t

0

d

dτP3(τ) dτ =

α2

β[

∫ t

0e−(α+γ)τ dτ −

∫ t

0e−(α+β+γ)τ dτ ]

+β2

α[

∫ t

0e−(β+γ)τ dτ −

∫ t

0e−(α+β+γ)τ dτ ] ,

P3(t)− P3(0) =α2

β([− 1

α+ γe−(α+γ)τ ]t0 − [− 1

α+ β + γe−(α+β+γ)τ ]t0)

+β2

α([− 1

β + γe−(β+γ)τ ]t0 − [− 1

α+ β + γe−(α+β+γ)τ ]t0) ,

P3(t) =α2β + αβ2 + α2γ + β2γ

(α+ γ)(β + γ)(α+ β + γ)− α2

β(α+ γ)e−(α+γ)t

− β2

α(β + γ)e−(β+γ)t +

α3 + β3

αβ(α+ β + γ)e−(α+β+γ)t . (4.13)

Så til slutt løyser eg (4.8), sjølv om det eigentleg er er unødvendig sidan svaret ikkjetrengs vidare.

d

dtP4(t) = γ(P1(t) + P2(t) + P5(t))

= γ(e−(α+β+γ)t +α

βe−(α+β+γ)t(eβt − 1) +

β

αe−(α+β+γ)t(eαt − 1)) ,∫ t

0

d

dτP4(τ) dτ =

∫ t

0γe−(α+β+γ)τ dτ +

∫ t

0

γα

βe−(α+β+γ)τ (eβτ − 1) dτ

+

∫ t

0

γβ

αe−(α+β+γ)τ (eατ − 1) dτ .

20

Eg deler dei tre integrala på høgre side av likhetsteiknet inn i I,II og III og løyser dei.

I = γ

∫ t

0e−(α+β+γ)τ dτ = γ[− 1

α+ β + γe−(α+β+γ)τ ]t0

=γ

α+ β + γ(1− e−(α+β+γ)t) .

II =γα

β(

∫ t

0e−(α+γ)τ dτ −

∫ t

0e−(α+β+γ)τ dτ)

=γα

β([− 1

α+ γe−(α+γ)τ ]t0 − [− 1

α+ β + γe−(α+β+γ)τ ]t0)

=γα

β(− 1

α+ γe−(α+γ)t +

1

α+ γ+

1

α+ β + γe−(α+β+γ)t − 1

α+ β + γ) .

III =γβ

α(

∫ t

0e−(β+γ)τ dτ −

∫ t

0e−(α+β+γ)τ dτ)

=γβ

α([− 1

β + γe−(β+γ)τ ]t0 − [− 1

α+ β + γe−(α+β+γ)τ ]t0)

=γβ

α(− 1

β + γe−(β+γ)t +

1

β + γ+

1

α+ β + γe−(α+β+γ)t − 1

α+ β + γ) .

P4(t)− P4(0) = I + II + III .

Dette blir etter litt utregning:

P4(t) =γ3 + 2γ2α+ 2γ2β + 3αβγ

(α+ γ)(β + γ)(α+ β + γ)− γα

β(α+ γ)e−(α+γ)t − γβ

α(β + γ)e−(β+γ)t

+γβ2 + γα2 − γαβαβ(α+ β + γ)

e−(α+β+γ)t . (4.14)

4.4 Overlevelsesfunksjon og likelihood funksjon for “den dy-namiske modell”

På grunnlag av dei løyste differensiallikningane våre kan me no sette opp overlevel-sesfunksjonen (2.1) for denne modellen. Denne finn me enkelt og greitt ved å setteS(t) = 1 − P3(t). Sidan P3(t) er sannsynet for å ha fått eit andre barn ved tid t, altsåat ein ikkje har overlevd, er 1− P3(t) sannsynet for at ein har overlevd til tid t som vilsei at ein ikkje har fått eit nytt barn. Dermed er S(t) = 1 − P3(t), så ved innsetting av(4.13) som me fann i forrige delkapittel får me at

S(t) = 1− α2β + αβ2 + α2γ + β2γ

(α+ γ)(β + γ)(α+ β + γ)+

α2

β(α+ γ)e−(α+γ)t

+β2

α(β + γ)e−(β+γ)t − α3 + β3

αβ(α+ β + γ)e−(α+β+γ)t . (4.15)

Eg har da funne ein overlevelsesfunksjon S(t) for denne modellen som avhenger av tidog kva verdiar me velger for α, β og γ. Ved hjelp av S(t) kan me no også finne ein

21

likelihood funksjon for “den dynamiske modell”. La oss først byrje med å kalle dennefor H slik som Aalen har gjort i [1]. Vidare deler me opp tida fra 0 år og opp til detstørste tidsintervallet mellom første og andre barnefødsel i 6 månaders intervall. Årsakentil at me gjer dette er at me da kan sette opp H som produktet av binomiske sannsynover alle desse tidsintervalla. Intervall i vil da bestå av tida [ti−1, ti), der for eksempelintervall 1 da består av [t0, t1)=[0,0.5). Tidsenheten er i år, slik at vidare blir t2=1, t3=1,5osv. I intervall i vil da det binomiske sannsynet for at akkurat Ni personar skal føde iintervallet [ti−1, ti), gitt at det er Ri personar i risiko for å føde ved starten av intervalletvere uttrykt som:

H(α, β, γ) =

(RiNi

)(1− Pi)Ri−Ni(Pi)

Ni . (4.16)

Her er Pi sannsynet for å føde i intervall i, gitt at ein ikkje har født fram til detteintervallet. Merk at denne Pi ikkje er den samme som den Pj(t) me har snakka omtidlegare i kapittelet. Når eg no skal bruke overlevelsesfunksjonen vil eg for enkelheitsskuld sette S(ti) = Si. Sannsynet for å ikkje føde i intervall i, gitt at ein ikkje har fødtfram til dette intervallet vil vere

SiSi−1

=P (T > ti)

P (T > ti−1)= P (T > ti|T > ti−1) = 1− Pi .

Dermed får me at

Pi = 1− SiSi−1

.

Set da inn for Pi i (4.16) og tek produktet over alle tidsintervalla for å få dette nyeuttrykket for likelihood funksjonen H:

H(α, β, γ) =i=N∏i=1

(RiNi

)(SiSi−1

)Ri−Ni(1− SiSi−1

)Ni . (4.17)

Her er N antallet intervall me treng etter kva største intervall mellom barnefødslar er idatasettet me brukar. I “Aalens datasett” er 28 intervallar nok. Altså er den største tidamellom barnefødslar der mellom 13,5 og 14 år.

4.5 Maximum Likelihood estimering av α, β og γ

Eg vil no utføre maximum likelihood estimering av α, β og γ for likelihood funksjonen(4.17) som me fann i forrige delkapittel på “det simulerte datasett”. Dette gjer me fordime vil bruke maximum likelihood estimata(MLE) av α, β og γ til å tilpasse ei phasetype fordeling og sjå kor godt denne passar med data. MLE av α, β og γ vil vere deiintensitetane som passar best i “den dynamiske modell” vist i Figur 4.1 for det datasettetme ser på. Dette fordi at det er desse estimata som maksimerer sannsynet for at andrefødslane i datasettet vårt skjer akkurat når dei har skjedd. Sidan eg som nemnt ikkje har

22

“Aalens datasett” har eg simulert eit nytt datasett kalla “det simulerte datasett”. Me harallerede brukt dette datasettet før i oppgåva, men har no fått tilstrekkelig informasjonslik at simuleringa kan forklarast. Eg simulerte “det simulerte datasett” med å bruke deiMLE Aalen fann for α, β og γ når han brukte sitt datasett i [1]. Desse er gitt i Tabell4.1 saman med dei tilhøyrande standardavvika som og er henta fra [1].

Tabell 4.1: MLE for fødselsintervall fra “Aalens datasett”Parametrar α β γ

Estimat 0.190 0.822 0.0476Standardavvik 0.058 0.015 0.0046

Eg har da brukt desse verdiane som intensitetar i “den dynamiske modell”, og simulerertidene som mødre brukar gjennom desse tilstandane. Eg treng da overgangssannsyna for“den dynamiske modell”. Sannsynet for å hoppe til ein av dei forskjellige tilstandane imodellen gitt at det skjer eit hopp blir

P (Hopp fra 1 til 2 i dt|Hopp i dt) =P (Hopp fra 1 til 2 i dt)

P (Hopp i dt)=

αdt+ o(dt)

(α+ β + γ)dt+ o(dt)

=α

α+ β + γ

(1 + 1αo(dt)dt )

(1 + 1α+β+γ

o(dt)dt )

=α

α+ β + γ(1 +

o(dt)

dt) ,

der o(dt)dt → 0. Så

P12 = P (Hopp fra 1 til 2 i dt|Hopp i dt) =α

α+ β + γ.

På nett samme måten finn me dei andre overganssannsyna som da blir

P15 =β

α+ β + γ.

P14 =γ

α+ β + γ.

P23 =α

α+ γ.

P24 =γ

α+ γ.

P53 =β

β + γ.

P54 =γ

β + γ.

Overgangssannsyna samt bruk av intensitetane i Tabell 4.1 gjev meg alt eg treng for ålage “det simulerte datasett” som no vil vere ganske likt “Aalens datasett”. Dermed kanein forvente å få liknande resultat som Aalen fekk i [1], når ein bruker “det simulertedatasett”. (Sjå tillegg A for kode av simuleringa.) Vidare vil eg no utføre maximum

23

likelihood estimering av α, β og γ ved å bruke H på “det simulerte datasett”. Sidanå maksimere H med hensyn på α, β og γ er det samme som å maksimere logH medhensyn på α, β og γ, brukar eg logH som er ein lettare funksjon å handtere. Eg startarda med å finne logH og får rett fram uttrykket under ved å ta logaritmen av (4.17):

logH(α, β, γ) =

n∑i=1

(log

(RiNi

)+ (Ri −Ni) log(

S(i)

S(i− 1)) +Ni log(1− S(i)

S(i− 1))) .

(4.18)

Maksimerer så logH ved å bruke minimeringsmetodar i R på − logH. Når ein minimerer-logH blir logH maksimert, og dermed får me MLE’ane til α, β og γ ved å gjere dette.(Sjå tillegg B for kode av maksimeringen av logH i R.)

Eg har køyrt koden i tillegg A 10 gongar for å få simulert 10 ulike datasett. Storleikenpå kvar av desse valgte eg til 1000. Storleiken er mindre enn i “Aalens datasett”, men detvil ikkje gjere resultatet annleis. Altså vil det ved tid 0 vere 1000 mødre som har fått eitbarn som er i risiko for å få eit nytt barn. Etter dette har eg gjort maksimeringen av H itillegg B med hensyn på kvar av desse 10 datasetta. Så tok eg gjennomsnittet av dei 10MLE’ane eg fann for kvar parameter. Dette fordi at eg ville prøve å kvitte meg med nokoav den naturlige variasjonen som vil bli for kvar simulering, samtidig som dette gjev megein moglegheit til å finne det empiriske standardavviket for kvar parameter. Da fekk eggjennomsnittleg MLE for α, β og γ gitt i Tabell 4.2.

Tabell 4.2: Gjennomsnittleg MLE for fødselsintervall fra “det simulerte datasett”Parametrar α β γ

Estimat 0.175 0.8153 0.0448Standardavvik 1 0.0487 0.0224 0.0036Standardavvik 2 0.0516 0.0249 0.0038

Altså får eg omtrent dei samme estimata som Aalen fekk når han maksimerte H medsitt datasett. Dermed tyder det på at dei metodane eg har brukt i R fungerer godt, ogat “det simulerte datasett” er liknande “Aalens datasett”.

I Tabell 4.2 ser me at det er oppgitt to ulike standardavvik for dei gjennomsnittlegeMLE’ane me har funne. Me ser at det er godt samsvar mellom dei to ulike estimata forstandardavvika. Dette tyder på at begge metodane for å finne desse estimata fungerergodt. Standardavvik 1 har eg funne ved å bruke formelen for det empiriske standardav-viket s som er

s =

√∑ni=1(xi − x)2

n− 1,

der xi er ein av dei 10 MLE’ane me fann for anten α, β eller γ. Jamfør [3] side 82. x erden tilhøyrande gjennomsnittlege MLE’en.

24

Standardavvik 2 er funne ved å bruke log-likelihood funksjonen logH. Dette er denmetoden me skal bruke for å finne standardavvik i resten av oppgåva. Derfor skal egforklare denne metoden nærare. Ein fin eigenskap ved log-likelihood funksjonen er at einfunksjon av den andre deriverte av log-likelihood funksjonen kan bli brukt til å estimerevariansen til fordelinga for datasettet me ser på. Spesifikt må me ta inversen av den nega-tive forventningsverdien til den andre deriverte av log-likelihood funksjonen. Matematiskkan dette uttrykkes som

I(θ)−1 = (−E(∂2LL

∂θ∂θT))−1 ,

der θ er parameteren eller vektoren av parametrar og I(θ) er informasjonsmatrisa. Kvad-ratrota av dei diagonale elementa av denne matrisa er standardavvika. Jamfør Lynch [4],side 39-40. Eg har brukt numerisk estimerte andre deriverte av log-likelihood funksjo-nen. Ved å bruke denne formelen i R har eg funne standardavvik 2, samt standardavviki resten av oppgåva. Sidan denne metoden er veldig rett fram å bruke har eg ikkje lagttil R koden for dette.

For å sjå grafisk på kva verdiar som gjev størst H, plottar eg eit konturplott av − logH.Der − logH er minst, vil da H vere størst. Sjå Figur 4.2. Ser av denne figuren at deter to små områder der H er maksimert. Det eine området ligg omtrent ved dei verdianeme har funne for intensitetane α og β ved maximum likelihood estimering(sjå punkta ifiguren), samt eit område til der verdiane for α og β er bytta om. Ein ser tydeleg fradette plottet at funksjonen er symmetrisk om α og β. Har satt γ konstant lik 0.0448 idenne figuren som er estimatet me fann for γ i Tabell 4.2.

No vil me vidare sjå på om den estimerte hendelsesraten som blir funnen og den ob-serverte hendelsesraten ser ut til å passe saman. Finner først den observerte hendelses-raten ved å dele antall fødslar i eit intervall på 6 månadar på antall som er i risiko for åføde ved byrjinga av intervallet. Dette er gjort i tillegg B. Så når me har den observertehendelsesraten vil me estimere hendelsesraten me får fra modellen. Dette gjer me ved åbruke relasjon (2.5), der me set inn (4.15) og dens deriverte slik at me får den estimertehasardraten α(t):

α(t) = −ddtS(t)

S(t)

= −−α2

β e−(α+γ)t − β2

α e−(β+γ)t + α3+β3

αβ e−(α+β+γ)t

1− α2β+αβ2+α2γ+β2γ(α+γ)(β+γ)(α+β+γ) + α2

β(α+γ)e−(α+γ)t + β2

α(β+γ)e−(β+γ)t − α3+β3

αβ(α+β+γ)e−(α+β+γ)t

.

(4.19)

Overlevelsesfunksjonen brukar da Aalen sine MLE for α, β og γ, samt at den får inn einvektor med forskjellige tider. Me får da den estimerte hendelsesraten når me gjev innein tidvektor og MLE’ane fra Tabell 4.1 i (4.19). Plottar denne estimerte hendelsesraten

25

som ei kurve og ser korleis den passar med den observerte hendelsesraten. Sjå Figur 4.3på neste side. Ser av denne grafen at den estimerte hendelsesraten passar godt med denobserverte. Altså virkar “den dynamiske modell” å vere ein god modell for “det simulertedatasett”. Eg vil her nemne at både dei observerte hendelsesrate punkta og den estimertehendelsesrate kurva i Figur 4.3 er dobbelt så stor som det Aalen fekk i Figur 12 i [1]. Herer det Aalen som har gjort ein liten feil, da han skulle ha gitt hendelsesratane sine perår og ikkje per halve år slik som det er gjort i figuren hans. Når me no veit at ratane ifiguren hans skulle vore dobbelt så store ser me at Figur 4.3 passar godt. Me fann omtrentsamme MLE som Aalen fekk i [1] og derfor har eg brukt dei MLE han fann gitt i Tabell4.1 til å putte inn i (4.19), for så å plotte denne α(t) for forskjellige tider. Det at eg fekkomtrent samme estimat som Aalen tyder på at eg har korrekte framgangsmetodar, oggjev oss også eit inntrykk av at estimeringen av MLE’ane er god. Med denne trygghetenkan me da gå vidare til neste kapittel der me vil sjå på korleis “den dynamiske modell”vil passe på “bokas datasett”.

Konturplott av −log H for forskjellige verdiar av α og β

α

β

2800

280

0

3000

300

0

3200

3200

3400

3400

3600

3600

3800

3800

4000

4200

4200

4400

0.2 0.4 0.6 0.8 1.0

0.2

0.4

0.6

0.8

1.0

●

●

Figur 4.2: Dei 2 punkta i plottet er punkta for dei gjennomsnittlege MLE’ane til α ogβ. Me ser at desse 2 punkta har havna så vidt utanfor minimumsområdet for -logH.Dette er fordi konturplottet er laga for eit av dei simulerte datasetta, og dermed vil ikkjepunktet for dei gjennomsnittlege MLE’ane passe heilt perfekt for akkurat dette simulertedatasettet.

26

●

●

●

●

●

●●

●

●

●

●

●●

● ● ●

●

●

●

●

●

●

●

● ● ●

● ● ●

● ● ●

● ●

●

●

●

● ●

0 5 10 15 20

0.0

0.1

0.2

0.3

0.4

Aalens estimerte hendelsesrate


Hen

dels

esra

te fo

r an

dre

føds

el

● Observert hendelsesrate fra eit simulert datasettEstimert hendelsesrate når me brukar Aalens MLE

Figur 4.3: Me ser av figuren at den estimerte hendelsesraten Aalen fann passar megetgodt med punkta for den observerte hendelsesraten. Den observerte hendelsesraten erher laga med bruk av eitt av dei simulerte datasetta. Kan sjå vekk i fra korleis kurva serut før tid lik 1 år. Det er berre ei fortsettelse av kurva som ikkje vil vere korrekt.

27

5Tilpassing av ein “Phase Type Distribution” ved å bruke

“den dynamiske modell” på “bokas datasett”

I dette kapittelet vil eg nytte meg av “bokas datasett” som er nemnt i innleiinga. Altsåvil eg no sjå på korleis det fungerer å bruke “den dynamiske modell” på dette datasettet,samt om den phase type fordelinga me finn vil passe godt med dei observerte hendel-sesratane. Eg har i kapittel 4 funne funksjonane for likelihood (4.17), overlevelse (4.15)og hasard (4.19). Me kan difor berre gå rett igang med maximum likelihood estimeringav likelihood funksjonenH med bruk av “bokas datasett”. (For kode av dette sjå tillegg C.)

Eg fann da ved bruk av forskjellige minimeringsmetodar to resultat for kva MLE avα, β og γ kunne bli. Desse resultata er gjevne i Tabell 5.1.

Tabell 5.1: 2 forskjellige MLE for fødselsintervall fra “bokas datasett”Parametrar α β γ

Estimat 0.259 0.259 0.0234Standardavvik 0.0098 0.0098 0.0019Estimat 0.364 0.0000 0.0311Standardavvik 0.0024 0.0057 0.0034

For dei to estimata i Tabell 5.1, blei logH litt større i det siste estimatet. Sidan mevil ha logH størst mogleg, er da det siste resultatet litt betre enn det første. Men deter så liten forskjell på desse 2 funksjonsverdiane at me kan ta med oss begge resultatavidare. Eg får altså ut heilt andre MLE for “bokas datasett” i forhold til det ein fekkfra “Aalens datasett”. Altså kan det virke som om fødselsmønsteret for mødre som alle-reie har eit barn har endra seg mellom datasetta. For det siste resultatet har det ingenbetyding om me byttar om på α og β. Altså kunne me like gjerne satt resultatet somα = 0, β = 0.364 og γ = 0.0311. Dette gjev akkurat den samme funksjonsverdien forlogH. Eg kunne og sjølvsagt ha bytta om α og β for det første resultatet vårt, sidandesse intensitetane er like. Me ser utifra Tabell 5.1 at det eine resultatet velger samme

29

intensitet for begge vegar å nå tilstand 3 på, medan det andre resultatet kuttar deneine av vegane å nå tilstand 3. “Den dynamiske modell” er laga for at dei to vegane ånå tilstand 3 på skal framstille ein kjapp og ein treigare måte å nå andre fødsel. Nårme da får resultat som anten ignorerer den eine vegen å gå på, eller set begge veganemed lik intensitet, tyder dette på at me ikkje klarar å skilje mødrene for å ta hensyn tilheterogenitet.

Fordi eg får 2 punkt som gjev maksimum av logH har eg i Figur 5.1 neste side lagaeit konturplott av -logH. (Sjå tillegg C.) Dette konturplottet er laga med forskjelligeverdiar av α og β når γ = 0.0234. At me for enkelheits skuld set γ = 0.0234 er fordi atdette er det eine av estimata me fann for γ i Tabell 5.1. Me ser utifra Figur 5.1 at deter eit ganske stort område der -logH er på sitt minste, og at verdiane av α og β somme har funne ved våre minimeringar er innanfor dette område. Det virkar som at -logHer konstant i dette “dalsøkket” fra (0,0.4) til (0.4,0). Altså ser det ut som det ikkje berretreng vere eitt, men at fleire punkt kan vere minimum for -logH. Me hugsar at dette erdet samme som maksimum av H. Dette stemmer godt med at me har funne fleire for-skjellige maksimumspunkt for H. Det er altså ikkje eitt punkt − logH konvergerar motslik som i “det simulerte datasett”. Me ser og utifra konturplottet vårt at likelihooden ersymmetrisk i α og β.

Me kan vidare sjå på korleis vår estimerte hendelsesrate med dei parametrane me harfunne vil passa med den observerte hendelsesraten. Måten å finne desse to på er akkuratden samme som i forrige kapittel, og koden er lagt til i tillegg C. Plottar så desse motkvarandre og får Figur 5.2 på side 32. Har óg tatt med den estimerte hendelsesratensom er funne fra “Aalens datasett”. Her ser eg at verken denne eller dei estimerte hen-delsesratar fra “bokas datasett” passar godt med den observerte hendelsesraten. At denestimerte hendelserate fra “Aalens datasett” ikkje passar her var forventa sidan MLE’aneikkje stemmer for dette datasettet. At våre to estimerte hendelsesrate kurver fra “bokasdatasett” som er veldig like, heller ikkje passar godt, tyder på at “den dynamiske modell”ikkje passar med “bokas datasett” slik som den gjorde for “Aalens datasett”.

Fordi “den dynamiske modell” ikkje klarte å tilpasse ei phase type fordeling med “bo-kas datasett”, vil eg i neste kapittel forsøke å lage ein ny modell. Eg har forsøkt å lagefleire modellar der eg både har hatt ein og to vegar å nå tilstanden for andre fødsel på.Den modellen som gav best resultat er den eg no vil gjennomgå.

30

Konturplott av −log H for forskjellige verdiar av α og β

α

β

60000

60000

65000

65000

70000

70000 75000

80000

85000

90000

95000

1e+05

105000

110000

115000

0.2 0.4 0.6 0.8 1.0

0.2

0.4

0.6

0.8

1.0

●

●

●

Figur 5.1: Maksimum av H er der me finn minimumsområdet i dette konturplottet. γ ersatt lik 0.0234. Dei røde punkta er dei 2 symmetriske punkta me får fra siste resultatfor estimat av α og β i Tabell 5.1. Det svarte punktet er punktet ein får fra det førsteresultatet i Tabell 5.1. Me ser at alle desse punkta er i minimumsområdet for -logH.

31

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

● ●

● ● ● ● ● ● ●

0 2 4 6 8 10 12 14

0.0

0.1

0.2

0.3

0.4

Plott av estimerte hendelsesratar mot den observerte hendelsesraten


Hen

dels

esra

te fo

r an

dre

føds

el

● observert hendelserate fra bokas datasettestimert hendelsesrate fra bokas datasett 1estimert hendelsesrate fra bokas datasett 2estimert hendelsesrate fra Aalens datasett

Figur 5.2: Den røde linja er hasardkurva for α og β lik 0.259 og γ lik 0.0234. Den blåelinja er hasardkurva for α lik 0.364, β lik 0 og γ lik 0.0311. Den grøne linja er funne vedå bruke dei estimata Aalen fann for “Aalens datasett”. Kan her også sjå vekk i fra korleiskurvene ser ut før tid lik 1 år. Det er berre ei fortsettelse av kurvene som ikkje vil verekorrekt.

32

6Tilpassing av ein “Phase Type Distribution” ved å bruke“den alternative dynamiske modell” på “bokas datasett”

6.1 “Den alternative dynamiske modell”

Etter å ha prøvd ut fleire nye modellar for å tilpasse ei phase type fordeling med denobserverte hendelsesraten, fann eg at ein 6 tilstandsmodell med kun ein veg å nå tilstand5 på passa godt. (Tilstand 5 er no den tilstanden som representerar andre fødsel.) Egvelger å kalle denne modellen for “den alternative dynamiske modell”. Modellen ser daslik ut:

Figur 6.1: Modell for fødselsintervall med 6 tilstandar, kalla “den alternative dynamiskemodell”.

Det er fleire årsaker til at eg har valgt akkurat denne 6-tilstandsmodellen. Ein er at resul-tata i kapittel 5 viste oss at me ikkje greier å skilje mødrene i to grupper slik som Aalenklarte. Dermed er det ikkje noko hensikt i å ha to vegar å nå andre fødsel på. Dette haddedet kun vore behov for viss me klarte å skilje to grupper av mødre fra kvarandre, der deneine gruppa brukte lenger tid enn den andre på å få eit nytt barn. Ein annan årsak er at

33

eg vil bruke fleire steg mellom første og andre barn enn det eg fekk i forrige modell. Nårme lagar fleire steg mellom første og andre fødsel, der alle stega har intensitet α, må αauke for å kompensere for dei ekstra stega. Årsaken til at eg vil oppnå fleire slike steg erat dette vil gje meg ei kurve som får større og smalare topp, noko som utifra Figur 5.2kan sjå ut til å passe betre med den observerte hendelsesraten. Me kan definere antallsteg mellom første og andre fødsel som k.

Forklaringa på at ein større k gjev ein større, samt smalare topp er følgjande; den ubetingafordelinga (f(t)) til tida mellom første og andre barn vil vere ganske lik ei gammafor-deling med parameter Γ (k, α) = Γ (4, α), fordi det er summen av 4 eksponensielle stegi serie med intensitet α. Me veit vidare at forventinga til denne gammafordelinga er likµ = k

α og at variansen er σ2 = kα2 = 1

k ( kα)2 = 1kµ

2. Når me da aukar antall eksponesiellesteg k, så må også α aukast for å behalde den samme µ. Me ser da at variansen vår σ2

vil ha den samme µ’en som følgje av dette, medan 1k vil ha minka fordi k har auka. Dette

gjev oss altså at kurva vil ha samme forventing, men mindre varians. Dette er noko somfører til ei høgare og smalare kurve. Det er nettopp dette me vil oppnå for kurva til denestimerte hendelsesraten vår sidan den forrige kurva vår var for låg og brei. Sidan denestimerte hendelsesraten er funne ved (2.5) der f(t) = − d

dtS(t), ser me at ein topp i f(t)vil gjenspegla seg i den betinga fordelinga til tida mellom første og andre barn (α(t))dersom S(t) er passe glatt. Dermed håpar me no at det å auka antallet eksponensiellesteg har gjeve oss ein modell som betre klarar å tilpasse ei phase type fordeling til data.Modellen har framleis med ein tilstand 6 som representerar det å aldri få eit nytt barn. Darepresenterar altså tilstand 1 fortsatt å få sitt første barn, tilstand 2, 3 og 4 er tilstandarein må innom før andre fødsel, og tilstand 5 representerar det å ha fått eit andre barn.Fra alle tilstandane før tilstand 5 er det alltid ein moglegheit å havne i tilstand 6, altså åaldri få eit nytt barn. Eg kan da byrje å utleie differensiallikningane for “den alternativedynamiske modell” i neste delkapittel.

6.2 Utleiing av differensiallikningar

Eg utleier differensiallikningane for denne modellen ved hjelp av Chapman-Kolmogorovsframover-likning (4.4) akkurat slik som me gjorde det i kapittel 4. Har i tillegg at P1(0) =1 og at Pk(0) = 0 for k=2, 3, 4, 5 og 6. Eg startar med tilstand 1:

P1(t+ h) = P1(t)P (X(t+ h) = 1|X(t) = 1)

= P1(t)(1− (α+ γ)h+ o(h)) ,

limh→0

P1(t+ h)− P1(t)

h= −(α+ γ)P1(t) ,

d

dtP1(t) = −(α+ γ)P1(t) . (6.1)

For tilstand 2 er situasjonen akkurat den samme som den var for tilstand 2 i “den dy-namiske modell”, så her setter eg berre rett opp differensiallikninga me fann i kapittel

34

4:

d

dtP2(t) = αP1(t)− (α+ γ)P2(t) . (6.2)

Eg utleiier vidare likningane til tilstand 3, 4 og 5.

P3(t+ h) = P2(t)P (X(t+ h) = 3|X(t) = 2)

+ P3(t)P (X(t+ h) = 3|X(t) = 3)

= P2(t)(αh+ o(h)) + P3(t)(1− (α+ γ)h+ o(h)) ,

limh→0

P3(t+ h)− P3(t)

h= αP2(t)− (α+ γ)P3(t) ,

d

dtP3(t) = αP2(t)− (α+ γ)P3(t) . (6.3)

P4(t+ h) = P3(t)P (X(t+ h) = 4|X(t) = 3)

+ P4(t)P (X(t+ h) = 4|X(t) = 4)

= P3(t)(αh+ o(h)) + P4(t)(1− (α+ γ)h+ o(h)) ,

limh→0

P4(t+ h)− P4(t)

h= αP3(t)− (α+ γ)P4(t) ,

d

dtP4(t) = αP3(t)− (α+ γ)P4(t) . (6.4)

P5(t+ h) = P4(t)P (X(t+ h) = 5|X(t) = 4)

+ P5(t)P (X(t+ h) = 5|X(t) = 5)

= P4(t)(αh+ o(h)) + P5(t)(1) ,

limh→0

P5(t+ h)− P5(t)

h= αP4(t) ,

d

dtP5(t) = αP4(t) . (6.5)

Sidan me ikkje treng likningen for tilstand 6 for å finne overlevelsesfunksjonen, er detikkje nokon årsak til å ta den med. Eg har derfor hoppa over denne og byrjar vidare åløyse differensiallikningane i neste del.

35

6.3 Løysing av differensiallikningane

Eg startar med å løyse (6.1):

d

dtP1(t) = −(α+ γ)P1(t) ,

ddtP1(t)

P1(t)= −(α+ γ) ,∫ t

0

d

dτlog(P1(τ)) dτ =

∫ t

0−(α+ γ) dτ ,

log(P1(t))− log(P1(0)) = −[(α+ γ)τ ]t0 = −(α+ γ)t .

Sidan logP1(0) = log(1) = 0 blir dette

P1(t) = e−(α+γ)t . (6.6)

Eg har da funne løysinga av (6.1). Held deretter fram med å løyse dei 4 siste differensial-likningane, altså løyser me (6.2), (6.3), (6.4) og (6.5).

d

dtP2(t) = αP1(t)− (α+ γ)P2(t) ,

d

dtP2(t) + (α+ γ)P2(t) = αP1(t) .

Eg multipliserer så heile uttrykket med integrerande faktor som er e∫ t0 α+γ dτ = e(α+γ)t.

(d


0

d


∫ t

0αe−(α+γ)τe(α+γ)τ dτ

=

∫ t

0α dτ ,

P2(t)e(α+γ)t − P2(0)e(α+γ)0 = [ατ ]t0 = αt ,

P2(t) = αte−(α+γ)t . (6.7)

d

dtP3(t) = αP2(t)− (α+ γ)P3(t) ,

d

dtP3(t) + (α+ γ)P3(t) = αP2(t) .

36

Eg multipliserer med integrerande faktor som fortsatt er e(α+γ)t.

(d


0

d


∫ t

0α(ατe−(α+γ)τ )e(α+γ)τ dτ

=

∫ t

0α2τ dτ ,

P3(t)e(α+γ)t − P3(0)e(α+γ)0 = [α2τ2

2]t0 =

(αt)2

2,

P3(t) =(αt)2

2e−(α+γ)t . (6.8)

d

dtP4(t) = αP3(t)− (α+ γ)P4(t) ,

d

dtP4(t) + (α+ γ)P4(t) = αP3(t) .

Eg multipliserer med e(α+γ)t på begge sider og får:

(d


0

d


∫ t

0α

(ατ)2

2e−(α+γ)τ )e(α+γ)τ dτ

=

∫ t

0

α3τ2

2dτ ,

P4(t)e(α+γ)t − P4(0)e(α+γ)0 = [α3τ3

6]t0 =

(αt)3

6,

P4(t) =α3

6t3e−(α+γ)t . (6.9)

d

dtP5(t) = αP4(t) = α

α3

6t3e−(α+γ)t ,∫ t

0

d

dτP5(τ) dτ =

∫ t

0

α4

6τ3e−(α+γ)τ dτ ,

P5(t)− P5(0) =α4

6

∫ t

0τ3e−(α+γ)τ dτ ,

6

α4P5(t) =

∫ t

0τ3e−(α+γ)τ dτ . (I)

Eg brukar delvis integrasjon på integralet på høgre side av likning (I) der me set τ3 = uog e−(α+γ)τ = v′. Formelen me brukar er:

∫uv′ dτ = uv −

∫u′v dτ .

u = τ3 u′ = 3τ2 ,

v′ = e−(α+γ)τ v = − 1

α+ γe−(α+γ)τ ,

37

I = uv −∫u′v dτ = [−τ3 1

α+ γe−(α+γ)τ ]t0 +

3

α+ γ

∫ t

0τ2e−(α+γ)τ dτ .

Her er v′ = ddtv og u′ = d

dtu. Eg utfører så delvis integrasjon på det gjenståande integraleti siste ledd over, der me no velger τ2 = u og e−(α+γ)τ = v′.

u = τ2 u′ = 2τ ,

v′ = e−(α+γ)τ v = − 1


I = − t3


3

α+ γ{uv −

∫u′v dτ}

= − t3


3

α+ γ{[−τ2 1

α+ γe−(α+γ)τ ]t0 +

2

α+ γ

∫ t

0τe−(α+γ)τ dτ} .

Integralet i siste ledd over løyser me igjen ved delvis integrasjon og får da:

u = τ u′ = 1 ,

v′ = e−(α+γ)τ v = − 1


I = − t3


3

α+ γ{−t2 1


2

α+ γ{[− τ

α+ γe−(α+γ)τ ]t0

+1

α+ γ

∫ t

0e−(α+γ)τ dτ}}

= − t3


3

α+ γ{−t2 1


2

α+ γ{− t

α+ γe−(α+γ)t

− 1

(α+ γ)2[e−(α+γ)τ ]t0}}

= − t3


3

α+ γ{−t2 1


2

α+ γ{− t

α+ γe−(α+γ)t

− 1

(α+ γ)2(e−(α+γ)t − 1)}} .

Dette medfører at P5(t) blir ved å sette inn det me har funne i likning (I):

6

α4P5(t) = − t3


3

α+ γ{−t2 1

α+ γe−(α+γ)t

+2

α+ γ{− t

α+ γe−(α+γ)t − 1

(α+ γ)2(e−(α+γ)t − 1)}} ,

P5(t) =α4

6{− t3


3

α+ γ{−t2 1

α+ γe−(α+γ)t

+2

α+ γ{− t

α+ γe−(α+γ)t − 1

(α+ γ)2(e−(α+γ)t − 1)}}} . (6.10)

38

Ved å gjere litt om på likning (6.10) får eg eit uttrykk for P5(t) som ser slik ut:

P5(t) =α4

2(α+ γ){− t

3

3e−(α+γ)t − t2

α+ γe−(α+γ)t − 2t

(α+ γ)2e−(α+γ)t

− 2

(α+ γ)3e−(α+γ)t +

2

(α+ γ)3} . (6.11)

Eg har da løyst alle differensiallikningane me utleidde i forrige delkapittel og funne P5(t)som er det me har behov for å ta med oss vidare. Ser me nærare på den deriverte avP5(t) som er det samme som sannsynsfordelinga f5(t) til tilstand 5, får me at uttrykketser slik ut:

f5(t) =d

dtP5(t) =

α4

6t3e−(α+γ)t . (6.12)

Når me ser på integralet av f5(t) får me∫ ∞0

f5(t) dt =

∫ ∞0

α4

6t3e−(α+γ)t dt

= (α

α+ γ)4

I︷︸︸︷∫ ∞0

(α+ γ)4

Γ(4)t3e−(α+γ)t dt .

Der me kan sjå at I er integralet av ein Γ (4, α+ γ) fordeling og er derfor lik 1. Dermedfår me at ∫ ∞

0f5(t) dt = (

α

α+ γ)4 .

Sidan integralet av f5(t) blir lik ( αα+γ )4 som er mindre enn 1, vil det sei at f5(t) er ein

defekt fordeling. Dette fordi integralet av ein fordeling over heile området sitt skal verelik 1. Årsaken til at me får ein defekt fordeling er at nokon av dei mødrene me følgjergjennom tilstandane vil hoppe ned til tilstand 6 istadenfor å følgje vegen til tilstand 5.Dermed kan ikkje integralet av sannsynsfordelinga for å nå tilstand 5 bli lik 1, nettoppfordi det ikkje er alle som vil komme til denne tilstanden.

Etter å ha sett på dette fekk eg ein idé om at det kanskje er ein lettare måte å fin-ne P5(t) på, utan å måtte utleie og løyse fleire differensiallikningar for å få eit resultat.For å finne P5(t) på ein annan måte startar eg med å sjå på Laplacetransformasjonen avein W ∼ Γ (4, α+ γ). Her er tettleiken til W: f(w) = (α+γ)4

Γ(4) w3e−(α+γ)w som me får brukfor i Laplacetransformasjonen av W:

LW (u) = E[e−uW ] =

∫ ∞0

e−uw(α+ γ)4

Γ(4)w3e−(α+γ)w dw

=(α+ γ)4

(α+ γ + u)4

1︷︸︸︷∫ ∞0

(α+ γ + u)4

Γ(4)w3e−(α+γ+u)w dw= (

α+ γ

α+ γ + u)4 . (6.13)

39

Me ser at det siste integralet vårt fra 0 til∞ vil bli lik 1 sidan det er ei sannsynsfordelingfor Γ (4, α+ γ + u) som er inni integralet. Eg har da funne eit uttrykk for Laplacetrans-formasjonen til ein varabel W ∼ Γ (4, α + γ) i (6.13). Eg ser så på ventetidene i “denalternative dynamiske modell” og definerar dei, samt ein indikatorfunksjon I:

Vi =

{Ti, viss hopp til høgre mot andre fødsel,∞, hopp ned til aldri å få eit nytt barn.

I =

{1, viss hopp til høgre mot andre fødsel,0, hopp ned til aldri å få eit nytt barn.

Viss me hoppar eit steg nærare andre fødsel, vil Vi vere lik ventetida i tilstand i (Ti),medan viss me hoppar til tilstand 6 vil Vi vere lik ∞ som vil sei å aldri få eit nytt barn.Me ser no vidare på Laplacetransformasjonen av Vi:

LVi(u) = E[e−uVi ] = E(E[e−uVi |I])

= P (I = 0)E[e−uVi |I = 0] + P (I = 1)E[e−uVi |I = 1]

=γ

α+ γe−∞ +

α

α+ γE[e−uTi ]

=α

α+ γE[e−uTi ] . (6.14)

Ventetida i tilstand i, Ti, er eksponensielt fordelt med parameter (α+ γ). Altså er Ti ∼exp(α + γ) og me kan finne eit uttrykk for E[e−uTi ] ved hjelp av at me no veit atfTi(t) = (α+ γ)e−(α+γ)t.

E[e−uTi ] =

∫ ∞0

e−ut(α+ γ)e−(α+γ)t dt

= (α+ γ)

∫ ∞0

e−(α+γ+u)t dt

= (α+ γ)[− 1

α+ γ + ue−(α+γ+u)t]∞0

= (α+ γ)(− 1

α+ γ + ue−∞ +

1

α+ γ + ue0)

=α+ γ

α+ γ + u.

Eg setter da dette uttrykket for E[e−uTi ] inn i (6.14) og får

LVi(u) =α

α+ γ

α+ γ

α+ γ + u. i = 1, 2, 3, 4 (6.15)

Eg kallar så den samla tida mellom første og andre fødsel for V, som er summen avventetidene i tilstandane 1,2,3 og 4. Altså er V = V1 + V2 + V3 + V4. Får da at Laplace-transformasjonen for V blir

LV (u) = E[e−u∑4

i=1 Vi ]∗= (E[e−uVi ])4 = (

α

α+ γ)4(

α+ γ

α+ γ + u)4 . (6.16)

40

Årsaken til at likhetsteiknet med * over gjeld er at Vi’ane er uavhengige. Hadde me ikkjehatt leddet ( α

α+γ )4 med på høgre side av likhetsteiknet i (6.16), ville me kjent igjen LV (u)som Laplacetransformasjonen til ein Γ (4, α + γ) fordelt variabel. Me ser det ved å sjåtilbake på (6.13). Dette kan me no bruka til å finne f5(t) for modellen vår ved først åsette opp Laplacetransformasjonen for V som

LV (u) = E[e−uV ] =

∫ ∞0

e−uvf(v) dv .

Altså får me fra (6.16) at∫ ∞0

e−uvf(v) dv = (α

α+ γ)4(

α+ γ

α+ γ + u)4 ,

∫ ∞0

e−uv

g(v)∼Γ (4,α+γ)︷︸︸︷f(v)(

α+ γ

α)4 dv = (

α+ γ

α+ γ + u)4 .

Me veit at g(v) = f(v)(α+γα )4 er sannsynsfordelinga til ein Γ (4, α+ γ) fordi me kjenner

igjen leddet på høgre side av likningen over som Laplacetransformasjonen til ein Γ (4, α+γ) fordelt variabel. Kjenner det igjen ved å sjå på (6.13). Ved å sette inn fordelinga tilg(v) får me da eit uttrykk for fordelinga til f(v) som er sannsynsfordelinga til tilstand 5og før i oppgåva blitt notert som f5(t).

(α+ γ)4

Γ(4)v3e−(α+γ)v = f(v)(

α+ γ

α)4 ,

f(v) =α4

6v3e−(α+γ)v . (6.17)

Når me da brukar notasjonen tidlegare i oppgåva der me brukar t istadenfor v somnotasjon for tid, blir (6.17)

f5(t) =α4

6t3e−(α+γ)t .

Dette kjenner me igjen som likning (7.12), og dermed treng me kun å integrere f5(t) såhar me funne P5(t) utan å utleie og løyse differensiallikningar for modellen. Sidan me noveit at

P5(t) =α4

2(α+ γ){− t

3

3e−(α+γ)t − t2



− 2

(α+ γ)3e−(α+γ)t +

2

(α+ γ)3}

=

∫ t

0f5(t) dt

treng me ikkje å løyse integralet. Hadde eg derimot ikkje funne dette fra før hadde melett funne P5(t) ved delvis integrasjon av f5(t).

41

Sidan det er P5(t) som representerar sannsynet for at ein ny fødsel har skjedd ved tid t,blir 1−P5(t) sannsynet for at ein ny fødsel ikkje har skjedd ved tid t. Dermed blir over-levelsesfunksjonen S(t) i dette tilfellet lik 1 − P5(t), og ved innsetting av likning (6.11)får me:

S(t) = 1− α4

2(α+ γ){− t

3

3e−(α+γ)t − t2



− 2

(α+ γ)3e−(α+γ)t +

2

(α+ γ)3} . (6.18)

Eg har altså funne likninga for overlevelsesfunksjonen som gjeld for denne modellen, me-dan likelihood funksjonen H og dens logaritme logH er dei samme og gitt av likningane(4.17-4.18). Merk berre at me no brukar vår nye S(t) i (4.17-4.18).

6.4 Maximum Likelihood estimering av α og γ

Me har no funne alt som trengs for å byrje maximum likelihood estimeringa av H. Dettehar eg gjort i R og koden ligg i tillegg E. MLE’ane eg finn for α og γ er gitt i Tabell 6.1.

Tabell 6.1: MLE for fødselsintervall fra “bokas datasett”Parametrar α γ

Estimat 1.031 0.1043Standardavvik 0.0045 0.0020

Konturplottet for -logH ser me i Figur 6.2 på neste side.(Sjå tillegg E.) Ser at maksi-mumspunktet me har funne i Tabell 6.1 er innanfor minimumsområdet i konturplottet.Brukar så desse MLE’ane, (2.5) samt overlevelsesfunksjonen (6.18) saman med sin deri-verte for å finne hasardraten for tida mellom første og andre barn. Denne kallar eg herfor η(t) og vil da sjå slik ut:

η(t) = −ddtS(t)

S(t)

= −−α4

6 t3e−(α+γ)t

1− α4

2(α+γ){−t3

3 e−(α+γ)t − t2

α+γ e−(α+γ)t − 2t

(α+γ)2e−(α+γ)t − 2

(α+γ)3e−(α+γ)t + 2

(α+γ)3}.

(6.19)

Eg må bytte α og γ med dei estimata me har funne i Tabell 6.1 for å få denne estimertehendelsesraten eller phase type fordelinga som me óg kallar den. Eg vil så sjekke korleisdenne passar med den observerte hendelsesraten. Den observerte hendelsesraten finn mepå akkurat samme måte som forklart tidlegare og R-koden ligg i tillegg E. Plottar så dessemot kvarandre (i tillegg E) og får Figur 6.3 på side 44. Eg har i denne figuren óg tattmed Aalen sin estimerte hendelsesrate, samt dei to eg fann når eg brukte “den dynamiskemodell” på mitt datasett. Eg ser av figuren at “den alternative dynamiske modell” gjevein estimert hendelsesrate som passar mykje betre med den observerte hendelsesraten.

42

Konturplott av −log H for forskjellige verdiar av α og γ

α

γ

60000

60000

80000

1e+05 1

2000

0

140

000

160

000

180

000

2e+

05

220

000

240

000

0.0 0.5 1.0 1.5

0.0

0.5

1.0

1.5

●

Figur 6.2: Maksimum av H er der me finn minimumsområdet i dette konturplottet. Serat punktet for dei MLE’ane eg har funne er innanfor dette området.

43

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

● ●

● ● ● ● ● ● ●

0 2 4 6 8 10 12 14

0.0

0.1

0.2

0.3

0.4

Plott av observerte og estimerte hendelsesratar


Hen

dels

esra

te fo

r an

dre

føds

el

● observert hendelsesrateAalens estimerte hendelsesratemin estimerte hendelsesrate, 5 tilstandarmin estimerte hendelsesrate, 5 tilstandarmin estimerte hendelsesrate, 6 tilstandar

Figur 6.3: I denne figuren er punkta den observerte hendelsesraten fra “bokas datasett”,den grøne linja er den estimerte hendelsesraten ein får med å bruke Aalen sine MLE fra[1], altså omtrent samme linja som ved å bruke “den dynamiske modell” på “det simulertedatasett”. Den raude og den blåe linja er dei to estimerte hendelsesratane eg fann med“den dynamiske modell” på “bokas datasett”, og til slutt er den brune linja den estimertehendelsesraten eg fann med “den alternative dynamiske modell” på “bokas datasett”. Serfortsatt vekk i fra korleis kurvene ser ut før tid lik 1 år.

44

7Konklusjon

Formålet med denne oppgåva var å studere tida mellom første og andre barn for “bokasdatasett”, samt å sjå på om det har blitt nokon endringar i fødselsmønsteret for kvinnerfra den tida “Aalens datasett” vart samla inn, og til den tida “bokas datasett” vart samlainn.

Det første eg gjorde var å sjekke at metodane mine fungerte slik som dei skulle i ka-pittel 4. Dette ved å bruke “den dynamiske modell” på “det simulerte datasett”. Når egda fekk liknande resultat som Aalen i [1], tok eg dette som ein bekreftelse på at mineutrekningar og metodar stemte. Det å simulere eit datasett med gitte verdiar for α, β ogγ, for så å sjå om eg får tilbake dei verdiane eg starta med, gjev meg også eit inntrykk avkor god estimeringen er. Startparametrane mine var α = 0.19, β = 0.822 og γ = 0.0476når eg simulerte datasettet, sjå Tabell 4.1. Gjennomsnittlege estimerte parametrar basertpå 10 simulerte datasett vart α = 0.175, β = 0.8153 og γ = 0.0448 sjå Tabell 4.2. Dettemå seiast å stemme godt med startparametrane for simuleringa som Aalen fann i Tabell4.1, og dermed virkar estimeringen min å vere god.

Når eg no kjente meg trygg på at eg gjekk fram på rett måte, byrja eg å sjå på “bo-kas datasett”. Resultata eg her fekk med “den dynamiske modell” var totalt ulike fraresultata fra “det simulerte datasett”. Altså har det tydeleg skjedd endringar i fødsels-mønsteret for mødre som fødte sitt første barn i perioden 1967-71, til mødre som fødtesitt første barn i perioden 1983-1997. Maksimeringa av H konvergerte ikkje mot ein be-stemt verdi lenger, og eg fekk fleire moglege løysingar av kva α, β og γ kunne bli. Detsom kom fram av desse løysingane for α, β og γ, var at “den dynamiske modell” ikkjeklarar å skilje mødrene i to grupper lenger. Eine løysinga ville sende alle mødrene gjen-nom ein av dei to vegane å nå andre fødsel på, medan andre løysinga ville sende likemange gjennom kvar av vegane for å nå andre fødsel. Dei to vegane å nå andre fødsel erlaga for å framstille at det er forskjell på når mødrene vil få sitt andre barn. Dette er ty-delegvis ikkje like lett å få fram lenger, fordi det har vorte endringar i datasetta me ser på.

45

Eg har og i kapittel 5 laga to kurver av den estimerte hendelsesraten me finn for tidamellom første og andre barn, og plotta desse mot den observerte hendelsesraten. Me serat dei estimerte hendelsesratane ikkje passar med den observerte hendelsesraten i detheile tatt, medan me for “Aalens datasett” fekk ei fordeling som følgde den observertehendelsesraten godt. Altså har ikkje “den dynamiske modell” vore god for å finne ei phasetype fordeling som passar med den observerte hendelsesraten i “bokas datasett”.

Fordi at “den dynamiske modell” passa dårleg, laga eg i kapittel 6 min eigen modellfor å prøve finne ei phase type fordeling som passar godt for “bokas datasett”. Eg kuttaut den eine av vegane å nå andre fødsel på sidan me ikkje klarte å skilje mødrene ito grupper i “bokas datasett”. Vidare dobla eg antall steg mellom første og andre barn.Dette resulterte i at eg fekk ein del større intensitet for både α og γ enn det eg fekk idei ulike resultata fra “den dynamiske modell”. At intensiteten for å gå eit steg nærmareandre fødsel måtte aukast når me aukar antall steg mellom fødslane er naturleg. Dersomintensiteten var den samme som i forrige modell ville det ta mykje lenger tid å kommeseg gjennom tilstandane. Når eg da plotta fordelinga for tida mellom første og andre barnfunne ved bruk av “den alternative dynamiske modell”, fekk eg ei kurve som passa mykjebetre med den observerte hendelsesraten enn det eg fekk fra “den dynamiske modell”.Altså virkar “den alternative dynamiske modell” å vere god for “bokas datasett”. Det somer ulempa med min modell, er at me ikkje får framstillt heterogenitet slik som Aalenså fint fekk det i “den dynamiske modell”. Det blir også vansklegare å intuitivt forklarefasane mellom første og andre fødsel.

Skal eg nevne noko forslag til vidare arbeid med denne oppgåva må det vere å forsøke åfinne ein annan Markovmodell for å tilpasse ei phase type fordeling med den observertehendelsesraten. Det å finne ein modell som har to vegar å nå andre fødsel på, samtidigsom den godt klarar å tilpasse ei phase type fordeling med data ville vore interessant. Dahadde me hatt ein modell som prøvde å framstille heterogeniteten i datasettet slik somAalen hadde i “den dynamiske modell”.

Konklusjonen for denne oppgåva er altså at fødselsmønsteret har endra seg, noko somikkje er urimeleg sidan det er opptil 30 års forskjell på når datasetta blei samla inn.Hendelsesraten er blitt mindre i “bokas datasett” enn det den var i “Aalens datasett”.Dette tyder på at ikkje like mange får eit andre barn i “bokas datasett”. Sjølve tidenesom går mellom første og andre barn har derimot ikkje endra seg spesielt. Me ser at bådeden estimerte hendelsesrate kurva fra “Aalens datasett” og fra “bokas datasett” har eintopp ved omtrent samme tid.

46

Litteratur

[1] O. O. Aalen. Phase-type distributions in survival analysis. Scandinavian Journal ofStatistics, 22(4):447–463, 1995.

[2] Odd O. Aalen, Ørnulf Borgan, and Håkon K. Gjessing. Survival and event historyanalysis: a process point of view. Springer, New York, 2008.

[3] Robert V. Hogg and Elliot A. Tanis. Probability and Statistical Inference. Pearson-/Prentice Hall, Upper Saddle River, N.J, 2006.

[4] Scott M. Lynch. Introduction to applied Bayesian statistics and estimation for socialscientists. Springer, New York, 2007.

[5] Hans-Georg Muller and Jane-Ling Wang. Hazard rate estimation under randomcensoring with varying kernels and bandwidths. Biometrics, 50(1):pp. 61–76, 1994.

[6] Ragnar Norberg. Basic Life Insurance Mathematics. Lecture notes, draft version,Copenhagen, 1998.

[7] S original by Kenneth Hess and R port by R. Gentleman. muhaz: Hazard FunctionEstimation in Survival Analysis, 2010. R package version 1.2.5.

[8] R Development Core Team. R: A Language and Environment for Statistical Compu-ting. R Foundation for Statistical Computing, Vienna, Austria, 2011. ISBN 3-900051-07-0.

[9] Howard M. Taylor and Samuel Karlin. An introduction to stochastic modeling. Aca-demic Press, San Diego, Calif., 1998. 3rd ed.

47

ASimulering av “det simulerte datasett” i R

Me ynskjer her å bruke R til å simulere eit datasett (kalla “det simulerte datasett”) til åbli så likt “Aalens datasett” som mogleg. For å få til dette brukar me dei MLE for α, βog γ som han fekk i [1] som intensitetar når me simulerer. Desse intensitetane er gitt iTabell 4.1. Me startar med å definere dei 3 intensitetane α, β og γ i R:

alpha=0.19; beta=0.822; gamma=0.0476;

For enklare notasjon lagar eg og ein variabel som er summen av dei 3 intensitetane:

lambda<-alpha+beta+gamma

Me kan da starte med simuleringa. Me vil no lage oss eit datasett på 1000 observasjonar.Me vil altså finne samla tid ei mor er i dei forskjellige tilstandane i “den dynamiskemodell”, før ho kjem seg til tilstand 3. Dette er det samme som tida mellom første ogandre barn. Sidan alle byrjar i tilstand 1, simulerer me først tida dei er i denne tilstanden.Denne tida er eksponensielt fordelt med parameter lambda, og me finn derfor desse 1000tidene i tilstand 1 ved å lage 1000 tider fra denna fordelinga i vektoren tid1:

tid1<-rexp(1000,lambda)

For så å avgjere korleis veg dei 1000 mødrene vil ta etter dette lagar me 1000 variablarmellom 0 og 1 fra den uniforme fordeling:

u<-runif(1000)

Me simulerer da vegen dei skal gå vidare ved å velge at alle dei uniformt fordelte variablaneu[i]≤ α

λ , representerar å gå fra tilstand 1 til tilstand 2. Her er u ein vektor med alledei uniforme variablane, der u[i] representerar variabel nr i og i=1,2,.....,1000. Vidarerepresenterar da α

λ <u[i]≤α+βλ at ein går til tilstand 5, medan u[i]> α+β

λ betyr at einhar blitt absorbert i tilstand 4. Grensene me har valgt for kva den uniforme variabelenrepresenterar er henta fra overgangssannsyna me fann i kapittel 4 for “den dynamiskemodell”. Kan da sjå på koden for simulering av dette første steget:

49

tilstand2=0;tilstand3=0;tilstand4=0;tilstand5=0;for(i in 1:1000){if(u[i]<=alpha/landa2){

tilstand2=tilstand2+1}if(u[i]>alpha/landa2 && u[i]<=(alpha+beta)/landa2){

tilstand5=tilstand5+1}if(u[i]>(alpha+beta)/landa2){tilstand4=tilstand4+1}

}

Her har me definert variablar for dei ulike tilstandane, der desse blir oppdatert til åinneholde kor mange som har gått til kvar tilstand. Når me no veit kor mange som hargått til kvar tilstand, finn me tidene dei er i den nye tilstanden. Her vil tidene i tilstand 2vere eksponensielt fordelt med parameter alpha+gamma, tidene i tilstand 5 eksponensieltfordelt med parameter beta+gamma og tidene i tilstand 4 set me veldig høgt. Dette fordiein er blitt absorbert i tilstand 4, noko som vil sei at ein aldri kjem seg ut av tilstand 4.Eg har valgt å sette tidene her lik 1000. Kan da sjå på koden for desse tidene:

tid2<-rexp(tilstand2,(alpha+gamma))tid5<-rexp(tilstand5,(beta+gamma))tid4<-rep(1000,tilstand4)

No har me altså funne alle tidene i tilstand 1, 2 og 5. Kan da halde fram med å simulerekorleis dei som er i tilstand 2 no vil fortsette. Lagar igjen uniforme variablar mellom 0og 1 som skal bestemme den vidare vegen mødrene i tilstand 2 vil gå. I tilstand 2 erovergangssannsynet til tilstand 3 lik α

α+γ og overgangssannsynet til tilstand 4 er lik γα+γ .

Av den årsak velger me at dei uniforme variablane u[i]≤ αα+γ representerar at mor nr i

går til tilstand 3. Dei uniforme variablane u[i]> αα+γ representerar dermed at mor nr i

går til tilstand 4.

tilstand3fra2=0; tilstand3fra5=0; tilstand4fra2=0; tilstand4fra5=0;u<-runif(tilstand2)for(i in 1:tilstand2){if(u[i]<=alpha/(alpha+gamma)){

tilstand3fra2=tilstand3fra2+1}if(u[i]>alpha/(alpha+gamma)){

tilstand4fra2=tilstand4fra2+1}

}

I første linje av koden over har me definert 4 variablar. Desse fortel oss kor mange somgjekk til tilstand 3 og 4 fra tilstand 2, og kor mange som gjekk til tilstand 3 og 4 fra

50

tilstand 5. Fortset så med å simulere korleis dei i tilstand 5 vil fortsette. Her gjer meakkurat det samme som me gjorde for dei som var i tilstand 2, berre at me no har nokreandre overgangssannsyn. No er overgangssannsynet fra tilstand 5 til 3 lik β

β+γ , og fratilstand 5 til 4 er den lik γ

β+γ .

u<-runif(tilstand5)for(i in 1:tilstand5){if(u[i]<=beta/(beta+gamma)){

tilstand3fra5=tilstand3fra5+1}if(u[i]>beta/(beta+gamma)){

tilstand4fra5=tilstand4fra5+1}

}

Da har me simulert alle dei 1000 mødrene sine ulike vegar å gå gjennom tilstandanepå. Dermed gjenstår det berre å legge saman tidene i kvar tilstand for ei mor som gårgjennom denne prosessen. Dette gjer me på følgjande måte:

T<-rep(0,1000)for(i in 1:tilstand3fra2){T[i]=tid1[i]+tid2[i]

}for(i in (tilstand3fra2+1):(tilstand3fra2+tilstand4fra2)){T[i]=tid1[i]+tid2[i]+1000

}for(i in (tilstand3fra2+tilstand4fra2+1):(tilstand3fra2+tilstand4fra2+tilstand3fra5)){T[i]=tid1[i]+tid5[i-(tilstand3fra2+tilstand4fra2)]

}for(i in (tilstand3fra2+tilstand4fra2+tilstand3fra5+1):(tilstand3fra2+tilstand4fra2+tilstand3fra5+tilstand4fra5)){T[i]=tid1[i]+tid5[i-(tilstand3fra2+tilstand4fra2)]+1000

}for(i in (tilstand3fra2+tilstand4fra2+tilstand3fra5+tilstand4fra5+1):(tilstand3fra2+tilstand4fra2+tilstand3fra5+tilstand4fra5+tilstand4)){T[i]=tid1[i]+1000

}

Eg har no funne 1000 tider mellom første og andre fødsel i vektoren T, så med dette harme simulert ferdig eit datasett som er liknande “Aalens datasett”.

51

BHasardkurver funne ved glatting av Nelson-Aalen

aukingane i R

Ynskjer her å vise korleis eg finn hasardkurver for datasetta eg ser på i R ved hjelpav glatting av Nelson-Aalen estimatoren. Eg startar med å lese inn alle data fra filasecond_births.txt i objektet secbirth. Fila second_births.txt inneheld “bokas data-sett” som eg vil studere i mi oppgåve. Så gjer eg tidene fra secbirth om fra å vise antalldagar til antall år i vektoren aar. Etter å ha gjort dette brukar eg funksjonen muhaz i Rtil å finne hasardraten for mødrene som fekk eit levande første barn, samt dei som fekkeit dødt første barn. Funksjonen muhaz har eg forklart korleis fungerer i kapittel 3.

secbirth <- read.table("second_births.txt",header=T)attach(secbirth)aar <- time/365hazfunc <- muhaz(aar[death==0],status[death==0])hazfunc2<-muhaz(aar[death==1],status[death==1])

Eg har da funne hasardraten for mødrene i “bokas datasett” med levande og dødt førs-te barn i henholdsvis hazfunc og hazfunc2. Vil så finne hasardraten for dei simulerteoverlevelsestidene eg fann i tillegg A. Dette er for mødre med levande første barn. Harda ein vektor T som inneheld desse overlevelsestidene. Byrjar med å sortere dei i sti-gande rekkefølgje i vektoren ordnaT, før eg fjernar dei sensorerte tidene og får vektorenusensorertT. Får da hasardraten for desse overlevelsestidene ved igjen å bruke muhazfunksjonen i R på desse usensorerte overlevelsestidene.

ordnaT<-T[order(T)]usensorertT<-subset(ordnaT,ordnaT<1000)hazfunc3 <- muhaz(usensorertT)

Dermed har eg også funne hasardraten for mitt simulerte datasett i objektet hazfunc3.Når me no har funne desse hasardratane kan me plotte desse inn i figur 3.1 i kapittel 3ved å bruke følgjande kode:

53

plot(hazfunc,xlim=c(1,6),ylim=c(0,0.8),main="Plott av hasardkurver fordei to datasetta eg har nytta meg av")lines(hazfunc2,col="red")lines(hazfunc3,col="blue")legend(1.5,0.8,c("Hasard rate fra “bokas datasett” der første barnoverlevde","Hasard rate fra “bokas datasett” der første barn døydde","Hasard rate fra eit simulert datasett der første barn overlevde"),col=c("black","red","blue"),lty=c(1,1,1),pch=c(-1,-1,-1))

Vil så undersøke nærare hasardkurva der første barn døyr i løpet av sitt første leveår.Dette fordi at hasardkurva for dette i Figur 3.1 ikkje stemmer overeins med hasardkurvafor akkurat samme data i Figur 1.1. Lagar da eit objekt kalla deads i koden som følgjerder eg har med kun dei mødrene med dødt første barn, og sorterar slik at eg får over-levelsestidene i stigande rekkefølgje. Desse tidene er i vektoren aar2 der dei er oppgittmed år som tidsenhet.

dead <- subset(secbirth,death==1)detach(secbirth)

attach(dead)deads <- dead[order(time),]detach(dead)

attach(deads)aar2 <- time/365

Fortset så med å laga eit objekt kalla NAest som inneheld Nelson-Aalen estimatoranefor dei observerte hendelsestidene. Her vil hendelsestidene vere gitt som time og Nelson-Aalen estimatoren som hazard i objektet NAest.

NAest <- basehaz(coxph(Surv(aar2,status==1)~1))detach(deads)attach(NAest)

Når me no har funne Nelson-Aalen for ulike tider, kan me starte å glatte aukene i denneestimatoren for å få hasardraten. Lagar først Epanechnikov kjernefunksjonen Epanechsamt den tilhøyrande boundary funksjonen Boundary som me brukar på randområdanær tid 0:

Epanech <- function(tid,T,b){o<-(tid-T)/bif(abs(o)<=1) {(3/4)*(1-(o^2))}else {0}

}

Boundary<- function(tid,T,b){

54

o<-(tid-T)/bq<-tid/bif(abs(o)<=1) {(12/((1+q)^4))*(o+1)*(o*(1-(2*q))+((3*(q^2)-(2*q)+1)/2))}else {0}

}

Lagar så ei dobbel løkke som gjev oss heile summasjonsleddet for α(t) gitt av (4.1) forkvar t. Desse summane for kvar t lagrar me i ein vektor som me kallar teller. Me harher to av desse doble løkkene der den første brukar mindre bandbreidde og tar for segpunkta nær randområdet. Den andre doble løkka brukar større bandbreidde og er forpunkta utanfor randområdet. Koden er som følgjer:

teller <- seq(0,0,length.out=49)b = 0.3tid <- seq(0,12,by=.25)#Length 49.for(i in 1:9){

t=tid[i]for(j in 1:length(time)){

if(t>=b){if((t-b)<=time[j] && time[j]<=(t+b)){

if(j==1){teller[i]=teller[i]+((Epanech(t,time[j],b)*(hazard[j])))}else{teller[i]=teller[i]+((Epanech(t,time[j],b)*(hazard[j]-

hazard[j-1])))}}}

else{if((t-b)<=time[j] && time[j]<=(t+b)){

if(j==1){teller[i]=teller[i]+((Boundary(t,time[j],b)*(hazard[j])))}else{teller[i]=teller[i]+((Boundary(t,time[j],b)*(hazard[j]-

hazard[j-1])))}}}

j=j+1}i=i+1

}

c=2for(i in 10:49){

t=tid[i]for(j in 1:length(time)){

if(t>=c){if((t-c)<=time[j] && time[j]<=(t+c)){

if(j==1){teller[i]=teller[i]+((Epanech(t,time[j],c)*(hazard[j])))}else{teller[i]=teller[i]+((Epanech(t,time[j],c)*(hazard[j]-

55

hazard[j-1])))}}

}

else{if((t-c)<=time[j] && time[j]<=(t+c)){

if(j==1){teller[i]=teller[i]+((Boundary(t,time[j],c)*(hazard[j])))}else{teller[i]=teller[i]+((Boundary(t,time[j],c)*(hazard[j]-

hazard[j-1])))}}}

j=j+1}i=i+1

}

Manglar da kun å dele desse summane på båndbreidden b som me ser av (3.1). Når megjer dette får me hasardraten vår i vektoren esthaz og plottar denne inn i Figur 3.2 ikapittel 3. Koden er:

esthaz<-seq(0,0,length.out=49)for(i in 1:9){esthaz[i] <- teller[i]/b

}for(i in 10:49){esthaz[i] <- teller[i]/c

}

plot(tid,esthaz,main="Plott av hasardkurve for mødre med dødtførste barn",ylim=range(0,.8),xlim=c(1,6),xlab="Fødselsintervalli år",ylab="Hasardrate for andre fødsel")

lines(tid,esthaz)

56

CMaximum likelihood estimering av α, β og γ med bruk av

“den dynamiske modell” på “det simulerte datasett”

Som nemnt i kapittel 4 ynskjer eg no å maksimere likelihood funksjonen H (4.17) ved åbruke minimeringsmetodar i R på -logH, der logH er gitt av (4.18). Minimerer eg -logH,maksimerer eg logH og dermed også H. Det første eg byrjar med er å ordne vektorenmed dei simulerte tidene mine, vektoren T slik at den blir i stigande rekkefølgje fra minsttil størst. Denne ordna vektoren kan me kalle ordnaT. Deretter lagar eg ei delmengde avordnaT, der eg berre har dei som ikkje går til tilstand 4 inkludert. Kan kalla denne forusensorertT. Koden for dette blir:

ordnaT<-T[order(T)]usensorertT<-subset(T1,T1<1000)

Definerar så vektorane antfod og tid. Desse gjer me så store som det trengs i forholdtil antall intervall ein treng for å få med største tid i usensorertT. Antall fødslar i kvartintervall skal da bli satt inn i antfod, medan tid inneheld alle tidene med 6 månadersintervall fra 0 og opp til endetida for siste intervall. Koden for desse vektorane er somfølgjer:

antfod<-rep(0,2*(ceiling(usensorertT[length(usensorertT)]*2)/2))tid<-seq(0,ceiling(usensorertT[length(usensorertT)]*2)/2,by=0.5)

Oppdaterer så kor mange som blir født i kvart intervall i antfod:

for(j in 1:length(tid)){for(i in 1:length(usensorertT)){if(usensorertT[i]>=tid[j] && usensorertT[i]<tid[j+1]){antfod[j]=antfod[j]+1

}}}

Eg kan da laga vektoren antatrisk som seier kor mange som er i riskiko for å føde vedbyrjinga av kvart intervall:

57

vec<-seq(1000,1000,length.out=length(antfod))antatrisk<-vec-c(0,cumsum(antfod[1:length(antfod)-1]))

Me har da alt som trengs for å byrje minimeringen av -logH. Eg lagar funksjonen -logHi R og prøver nokre minimeringsmetodar på denne:

-logH <- function(u){alpha=u[1]; beta=u[2]; gamma=u[3];Survivalv<-1-(((alpha^2)*beta)+(alpha*(beta^2))+((alpha^2)*gamma)+((beta^2)*gamma))/((alpha+gamma)*(beta+gamma)*(alpha+beta+gamma))+((alpha^2)/(beta*(alpha+gamma)))*exp(-(alpha+gamma)*tid)+((beta^2)/(alpha*(beta+gamma)))*exp(-(beta+gamma)*tid)-(((alpha^3)+(beta^3))/(alpha*beta*(alpha+beta+gamma)))*exp(-(alpha+beta+gamma)*tid)L<-seq(0,0,length.out=length(tid))for(i in 2:length(tid)){L[i]<-(antatrisk[i-1]-antfod[i-1])*log(Survivalv[i]/Survivalv[i-1])+(antfod[i-1])*log((1-(Survivalv[i]/Survivalv[i-1])))

}Res <- -(sum(L))Res

}

Her har eg brukt både nlm() og nlminb(), der begge fungerte fint. Eg føler ikkje at deter noko behov for å ta med begge sidan dei gjev omtrent samme svar. Eg har derforkoden for nlminb() saman med ein vektor med startparametrar under:

param<-c(0.15,0.7,0.1)nlminb(param,-logH,control=list(trace=5,abs.tol=1e-20),lower=c(0,0,0),upper=c(1,1,1))

Har valgt desse parametrane i ein nærleik av det Aalen fekk, sidan eg trur det er i dennenærleiken minimum av -logH ligg. For 10 gjennomkøyringar av simuleringskoden i tilleggA slik at eg får 10 datasett, blir det følgjande resultat av nlminb():

1 simulering: 0.21249490 0.83213260 0.04021092 simulering: 0.24998829 0.79755673 0.051526763 simulering: 0.17037511 0.81245528 0.045356084 simulering: 0.23490117 0.78861723 0.043074915 simulering: 0.13564575 0.78833745 0.049961576 simulering: 0.17858036 0.82231279 0.044433477 simulering: 0.16725421 0.86342578 0.044857738 simulering: 0.10641288 0.82151887 0.045119279 simulering: 0.18329134 0.82048083 0.0419160310simulering: 0.10954574 0.80612460 0.04142815

58

Her er α, β og γ gjeven i henholdsvis 1, 2 og 3 kolonne. Desse verdiane er MLE’aneav α, β og γ. Eg tek gjennomsnittet og standardavviket av desse 10 verdiane for kvarparameter:

alph<-c(0.213,0.250,0.170,0.235,0.136,0.179,0.167,0.106,0.183,0.110)bet<-c(0.832,0.798,0.812,0.789,0.788,0.822,0.863,0.822,0.821,0.806)gam<-c(0.0402,0.0515,0.0454,0.0431,0.0500,0.0444,0.0449,0.0451,0.0419,0.0414)alphabar<-mean(alph)0.175sdalpha<-sd(alph)0.0487betabar<-mean(bet)0.8153sdbeta<-sd(bet)0.0224gammabar<-mean(gam)0.0448sdgamma<-sd(gam)0.0036

Me får da at gjennomsnittet av MLE over 10 simuleringar blir α = 0.175, β = 0.8153 og γ =0.0448. Detta er omtrent dei samme MLE for α, β og γ som Aalen fann. Desse gjennom-snitta har eg gitt i Tabell 4.2. Eg finn også standardavvika til α, β og γ som er henholdsvis0.0487, 0.0224 og 0.0036. Desse er også gjevne i Tabell 4.2. Desse lignar Aalen sine gjevnei Tabell 4.1. Altså ser det ut som minimeringsmetodane i R fungerer godt sidan eg fårnesten likt resultat som Aalen fekk.

For å sjå litt nærmare på kva verdiar av α og β som gjev størst H vil eg lage eitkonturplott av -logH. Eg har satt γ lik 0.0448 i dette plottet. Koden for dette er:

alphav<-seq(0.05,1,by=0.05)betav<-seq(0.05,1,by=0.05)gammav<-rep(0.0448,20)Hmatrix<-matrix(nrow=20,ncol=20)for(i in 1:20){for(j in 1:20){Hmatrix[i,j]<--logH(c(alphav[i],betav[j],0))

}}contour(alphav,betav,Hmatrix,xlab=expression(alpha),ylab=expression(beta),main=expression(paste("Konturplottav -log H for forskjellige verdiar av ",alpha," og ",beta,sep="")))points(0.175,0.8153)points(0.8153,0.175)

No vil eg vidare sjekke ut om “den dynamiske modell” passar godt med datasettet eg harsimulert. Dette gjere eg ved å plotte den observerte hendelsesraten mot den estimertehendelsesraten eg får ved bruk av Aalen sine MLE. Viss den estimerte hendelsesratenpassar godt med den observerte hendelsesrate, kan me sei at “den dynamiske modell”passar godt med “det simulerte datasett”. Me kan byrje med å finne den observerte

59

hendelsesraten. Dette er veldig enkelt no når eg har funne antall fødslar og antall i risikofor kvart intervall i vektorane antatrisk og antfod over. Deler berre vektoren antfodpå vektoren antatrisk som gjev meg den observerte hendelsesraten pr heile år når egdeler på 0.5:

incrat=(antfod/antatrisk)/0.5

Eg lagar vidare den estimerte hendelsesraten per år ved å bruke dei MLE’ane for α, βog γ som Aalen fann i Tabell 4.1, tid vektoren, (2.5) og (4.15):

S<-function(v,tid){alpha=v[1]; beta=v[2]; gamma=v[3];1-((((alpha^2)*beta)+(alpha*(beta^2))+((alpha^2)*gamma)+((beta^2)*gamma))/((alpha+gamma)*(beta+gamma)*(alpha+beta+gamma)))+(((alpha^2)/(beta*(alpha+gamma)))*exp(-(alpha+gamma)*tid))+(((beta^2)/(alpha*(beta+gamma)))*exp(-(beta+gamma)*tid))-((((alpha^3)+(beta^3))/(alpha*beta*(alpha+beta+gamma)))*exp(-(alpha+beta+gamma)*tid))

}

dS<-function(v,tid){alpha=v[1]; beta=v[2]; gamma=v[3];(-(alpha^2/beta)*exp(-(alpha+gamma)*tid))-((beta^2/alpha)*exp(-(beta+gamma)*tid))+(((alpha^3+beta^3)/(alpha*beta))*exp(-(alpha+beta+gamma)*tid))

}

w<-c(0.19,0.822,0.0476)haz <- -(dS(w,tid)/S(w,tid))

plot(tid[-1],incrat,col=’red’,ylim=c(0,0.4),xlab="Fødselsintervall i år",ylab="Hendelsesrate for andre fødsel",main="Aalens estimertehendelsesrate")lines(tid[-1],haz2[-1],col=’blue’)legend(5,0.4,c("Observert hendelsesrate fra eit simulert datasett","Estimert hendelsesrate når me brukar Aalens MLE"),col=c("red","blue"),lty=c(-1,1),pch=c(1,-1))

Funksjonen dS over er berre den deriverte av overlevelsesfunksjonen (4.15). Å deriveredenne er rett fram, og derfor ikkje vist i oppgåva. Hasardraten per halve år er no ivektoren haz. Siste avsnitt i koden over er det som gjev grafen som er vist i Figur 4.3 ikapittel 4.

60

DMaximum likelihood estimering av α, β og γ med bruk av

“den dynamiske modell” på “bokas datasett”

Eg ynskjer her igjen å maksimere likelihood funksjonen H, som nemnt i kapittel 5. Somsagt før så kan dette gjerast ved å minimere -logH med minimeringsmetodar i R. Harfunne logH i (4.18). Me brukar no “bokas datasett” som ligg i fila second_births.txt.Startar med å få R til å lese inn datasettet for så å sjekke dimensjonen på det:

secbirth <- read.table("second_births.txt",header=T)dim(secbirth)

[1] 53558 5

Me ser altså at det er 53 558 førstefødande kvinner med i dette datasettet. Her er bådekvinner der det første barnet dør innan sitt første leveår, og kvinner der det første barnoverlever talt med. Vidare er det 5 kolonner med informasjon om desse kvinnene. Fraførste til femte kolonne er dette henholdsvis informasjon om alder på mora ved førstefødsel, kjønn på første barn, om det første barnet døydde i sitt første leveår, tid mellomførste og andre fødsel og informasjon om det er ei sensorert eller usensorert tid. I dettetilfellet er me kun interessert i dei mødrene som har fått eit levande første barn. Derforlagar eg ei delmengde av datasettet secbirth som eg kallar alive, der kun dei med eitlevande første barn tel med:

alive <- subset(secbirth,death==0)attach(alive)dim(alive)

[1] 53296 5live <- alive[order(time),]detach(alive)attach(live)time[53296]

[1] 5070unsclive<-subset(live,status==1)

61

detach(live)attach(unsclive)

Me ser at det er 53 296 førstefødande som får eit barn som overlev sitt første leveår.Dermed er størrelsen på datasettet vårt no 53 296. Vidare ordnar eg datasettet slik atme får mødrene plassert i stigande rekkefølgje etter tidene mellom første og andre barn.Da vil mora med minst tid mellom første og andre barn vere først i datasettet. Det ordnadatasettet kallar eg live. Her sjekkar eg kva den største tida mellom første og andrebarn er fordi eg vil bruke denne informasjonen til å lage ein tidsvektor etterpå. Me serat denne tida er 5070 dagar som er lik 13.89 år. Difor treng ikkje tidvektoren min å gålenger enn til 14 år for å dekke alle tidene i datasettet. Til slutt vil eg ha ei delmengdeav datasettet live der me fjernar alle dei sensorerte tidene. Altså får me i datasettetunsclive berre med dei som faktisk fekk eit andre barn medan data blei samla inn. Deisensorerte tidene er tider som oppstår når ei mor ikkje blir oppfølgt lenger, utan å hafått eit nytt barn. Da blir tida frå ho får sitt første barn og til oppfølginga av ho sluttar,det som blir skrive ned i datasettet. Byrjar så med å lage vektoren antfod som inneheldkor mange som får sitt andre barn i kvart tidsintervall. Tidsintervalla er som før på 6månadar og startar ved tid 0.

tid<-seq(0,14,by=.5)n<-dim(unsclive)[1]aar <- unsclive$time/365antfod<-seq(0,0,length.out=29)for(j in 1:(length(tid)-1)){for(i in 1:n){

if(aar[i]>=tid[j] && aar[i]<tid[j+1]){antfod[j+1]<-antfod[j+1]+1

}}}

Eg vil så finne antall som er i risiko for å føde ved byrjinga av kvart intervall i ein vektorantatrisk. Da må me for kvart nye intervall fjerne dei mødrene som har fått eit nytt barneller blitt sensorert fra antall i risiko. Dermed må eg tilbake til å bruke datasettet live,der dei sensorerte tidene også er inkludert. Eg lagar vektoren antscfod som inneheld allesom får eit andre barn eller blir sensorert i kvart tidsintervall. Eg tek så alle i risiko vedtid 0 og trekker fra alle som er falle vekk fram til det tidsintervallet me er interessert i.Når me gjer dette for alle tidsintervalla finn me antatrisk. Koden er som følgjer:

detach(unsclive)attach(live)n<-dim(live)[1]aar <- live$time/365antscfod<-seq(0,0,length.out=29)for(j in 1:(length(tid)-1)){for(i in 1:n){

if(aar[i]>=tid[j] && aar[i]<tid[j+1]){

62

antscfod[j+1]<-antscfod[j+1]+1}}}

nvec<-seq(n,n,length.out=29)antatrisk<-nvec-c(0,cumsum(antscfod[2:length(antscfod)]))

Eg lagar så funksjonen -logH i R, der me har logH fra (4.18).

-logH <- function(u){alpha=u[1]; beta=u[2]; gamma=u[3];Survivalv<-1-(((alpha^2)*beta)+(alpha*(beta^2))+((alpha^2)*gamma)+((beta^2)*gamma))/((alpha+gamma)*(beta+gamma)*(alpha+beta+gamma))+((alpha^2)/(beta*(alpha+gamma)))*exp(-(alpha+gamma)*tid)+((beta^2)/(alpha*(beta+gamma)))*exp(-(beta+gamma)*tid)-(((alpha^3)+(beta^3))/(alpha*beta*(alpha+beta+gamma)))*exp(-(alpha+beta+gamma)*tid)L<-seq(0,0,length.out=29)for(i in 2:29){

L[i]<-(antatrisk[i-1]-antfod[i])*log(Survivalv[i]/Survivalv[i-1])+(antfod[i])*log((1-(Survivalv[i]/Survivalv[i-1])))


}

Eg kan da starte minimeringen av -logH. Har her brukt funksjonane nlm, nlminb ogoptim som er minimeringsfunksjonar i R. Eg lagar ein vektor parammed dei startverdianefor α, β og γ som eg vil at minimeringsmetodane skal byrje minimeringen fra.

param<-c(0.4,0.5,0.02)typsize=rep(1, length(param))nlm(-logH,param,typsize=rep(1, length(param)),stepmax = max(0.1 *sqrt(sum((param/typsize)^2)), 1e-2))$minimum

[1] 57768.9$estimate

[1] 0.25917487 0.25917854 0.02340819$gradient

[1] -0.004511094 0.005391485 0.001164153$code

[1] 1$iterations

[1] 19

Vektoren typesize er eit estimat av størrelsen på kvar parameter i minimum. stepmax erstørste steg nlm får ta i minimeringen, og det siste talet i funksjonen er minste steglengde

63

funksjonen får ta. nlm funksjonen minimerer H ved å utføre ein type Newton algoritme.Me får da at minimumsverdien til -logH er 57768.9. Her er α = 0.259, β = 0.259 og γ =0.0234. Ser at me får kode 1 som output av funksjonen. Dette betyr at relativ gradienter nær null, noko som tyder på at svaret me får sannsynlegvis er løysinga.

Fordi me får 2 ulike løysingar av α, β og γ ved bruk av forskjellige minimeringsmeto-dar, vil eg no fortsette med minimeringsfunksjonen optim:

optim(param,-logH,method="BFGS")$par

[1] 3.640402e-01 1.773647e-05 3.105331e-02$value

[1] 57689.96$counts

function gradient97 21

$convergence[1] 0$message

NULL

Metoden BFGS er ein kvasi-Newton metode. Denne brukar funksjonsverdiar og gradi-entar til å bygge opp eit bilde av overflata som skal bli optimalisert. Får her ein mini-mumsverdi for -logH på 57689.96, der α = 0.364, β = 0 og γ = 0.0311. Når eg bruktemetoden CG istadenfor BFGS får eg samme svar, berre at α og β har bytta verdi. Altsåtyder det på at det ikkje har noko å sei kven av vegane som får α eller β som intensitet.Eg får i output konvergens 0 som tyder på at metoden har fungert godt.

Fordi eg får fleire minimumspunkt for -logH lagar eg eit konturplott for å sjekke omdette kan stemme. I dette plottet lar eg γ = 0.0234 og ser på forskjellige verdiar av α ogγ. Plottet er vist i Figur 5.1 og koden er som følgjer:

alphav<-seq(0.05,1,by=0.05)betav<-seq(0.05,1,by=0.05)gammav<-rep(0.0234,20)Hmatrix<-matrix(nrow=20,ncol=20)for(i in 1:20){for(j in 1:20){

Hmatrix[i,j]<--logH(c(alphav[i],betav[j],0))}}contour(alphav,betav,Hmatrix,xlab=expression(alpha),ylab=expression(beta),main=expression(paste("Konturplottav -log H for forskjellige verdiar av ",alpha," og ",beta,sep="")))points(0.259,0.259)points(0.364,0,col="red")

64

points(0,0.364,col="red")

No vil eg lage eit plott med dei estimerte hendelsesratane mot den observerte hendelses-raten. Eg tar og med Aalens estimerte hendelsesrate i plottet. Eg lagar da tre vektorarsom inneheld mine MLE og Aalens MLE, og brukar desse samt likning (2.5) og (4.15)til å finne dei estimerte hendelsesratane. Finn til slutt den observerte hendelsesraten påsamme måte som i tillegg C og plottar alle desse i samme graf. Dette er vist i Figur 5.2og koden er:

w<-c(0.25917754,0.25917751,0.02340923)k<-c(0.364,0.000017,0.031)p<-c(0.190,0.822,0.0476)

S<-function(v,tid){alpha=v[1]; beta=v[2]; gamma=v[3];1-((((alpha^2)*beta)+(alpha*(beta^2))+((alpha^2)*gamma)+((beta^2)*gamma))/((alpha+gamma)*(beta+gamma)*(alpha+beta+gamma)))+(((alpha^2)/(beta*(alpha+gamma)))*exp(-(alpha+gamma)*tid))+(((beta^2)/(alpha*(beta+gamma)))*exp(-(beta+gamma)*tid))-((((alpha^3)+(beta^3))/(alpha*beta*(alpha+beta+gamma)))*exp(-(alpha+beta+gamma)*tid))

}

dS<-function(v,tid){alpha=v[1]; beta=v[2]; gamma=v[3];(-(alpha^2/beta)*exp(-(alpha+gamma)*tid))-((beta^2/alpha)*exp(-(beta+gamma)*tid))+(((alpha^3+beta^3)/(alpha*beta))*exp(-(alpha+beta+gamma)*tid))

}

haz1<- -(dS(w,tid)/S(w,tid))haz2<- -(dS(p,tid)/S(p,tid))haz3<- -(dS(k,tid)/S(k,tid))

incrat<-seq(0,0,length.out=28)for(i in 1:length(antatrisk)-1){incrat[i]=2*(antfod[i+1]/antatrisk[i])

}

plot(tid[-1],incrat,ylim=c(0,0.4),xlab="Fødselsintervall i år",ylab="Hendelsesrate for andre fødsel",main="Plott av estimertehendelsesratar mot den observerte hendelsesraten")lines(tid,haz1,col="red")lines(tid,haz3,col="blue")

65

lines(tid,haz2,col="green")legend(5,0.4,c("observert hendelserate fra boka sitt datasett","estimert hendelsesrate fra bokas datasett 1","estimert hendelsesrate fra bokas datasett 2","estimert hendelsesrate fra Aalens datasett"),col=c("black","red","blue","green") ,lty=c(-1,1,1,1),pch=c(1,-1,-1,-1))

66

EMaximum likelihood estimering av α og γ med bruk av“den alternative dynamiske modell” på “bokas datasett”

Skal igjen maksimere H slik som me gjorde i tillegg D med hensyn på boka sitt datasett.Me leser inn datasettet i R, og finn antall fødslar og antall i risiko for kvart intervalli vektorane antfod og antatrisk. Sidan koden for dette er akkurat den samme som itillegg D forklarar eg ikkje koden ein gang til. Sjå tillegg D for forklaring.

secbirth <- read.table("second_births.txt",header=T)alive <- subset(secbirth,death==0)attach(alive)live <- alive[order(time),]detach(alive)attach(live)unsclive<-subset(live,status==1)detach(live)attach(unsclive)

tid<-seq(0,14,by=.5) #lengde29n<-dim(unsclive)[1]aar <- unsclive$time/365antfod<-seq(0,0,length.out=29)for(j in 1:(length(tid)-1)){for(i in 1:n){

if(aar[i]>=tid[j] && aar[i]<tid[j+1]){antfod[j+1]<-antfod[j+1]+1

}}}

detach(unsclive)attach(live)#dim er 53296 5n<-dim(live)[1]

67

aar <- live$time/365antscfod<-seq(0,0,length.out=29)for(j in 1:(length(tid)-1)){for(i in 1:n){

if(aar[i]>=tid[j] && aar[i]<tid[j+1]){antscfod[j+1]<-antscfod[j+1]+1

}}}

nvec<-seq(n,n,length.out=29)antatrisk<-nvec-c(0,cumsum(antscfod[2:length(antscfod)]))

Eg lagar så funksjonen -logH i R, der me har logH fra (4.18) og brukar overlevelses-funksjonen fra (6.18):

-logH <- function(u){alpha=u[1]; gamma=u[2];ag=alpha+gamma;Survivalv<-1-((alpha^4/(2*ag))*(-(tid^3/3)*exp(-ag*tid)-(tid^2/ag)*exp(-ag*tid)-((2*tid)/(ag^2))*exp(-ag*tid)-(2/(ag^3))*exp(-ag*tid)+(2/(ag^3))))L<-seq(0,0,length.out=29)for(i in 2:29){

L[i]<-(antatrisk[i-1]-antfod[i])*log(Survivalv[i]/Survivalv[i-1])+(antfod[i])*log((1-(Survivalv[i]/Survivalv[i-1])))


}

Minimerar så -logH sidan dette gjev oss dei parametrane som maksimerer H. Brukarminimeringsmetoden nlminb for dette og koden følgjer under saman med output:

nlminb(parameter,-logH,lower=c(0,0))$par

[1] 1.0305605 0.1043273$objective

[1] 54980.93$convergence

[1] 0$message

[1] "relative convergence (4)"$iterations

[1] 11$evaluations

function gradient18 34

68

Me får at minimumsverdien av -logH er 54980.93 der parametrane α og β da er likhenholdsvis 1.031 og 0.1043. Får konvergens 0 som tyder på suksessfull konvergens, nokosom gjev oss ein indikasjon på at dette sannsynlegvis er løysinga. Eg vil så lage eitkonturplott for -logH ved følgjande kode:

alphav<-seq(0.05,1.5,by=0.01)gammav<-seq(0.05,1.5,by=0.01)-logH(c(alphav[1],gammav[1]))Hmatrix<-matrix(nrow=146,ncol=146)for(i in 1:146){for(j in 1:146){

Hmatrix[i,j]<--logH(c(alphav[i],gammav[j]))}}

contour(alphav,gammav,Hmatrix,xlab=expression(alpha),ylab=expression(gamma),main=expression(paste("Konturplottav -log H for forskjellige verdiar av ",alpha," og ",gamma,sep="")))points(1.031,0.1043)

Brukar så desse parametrane som er MLE av α og γ til å finne den estimerte hendelsera-ten. Relasjon (2.5) gjev oss denne hendelsesraten/hasarden og me lagar derfor funksjo-nane for S(t) og d

dtS(t). Setter desse inn i (2.5) saman med tidvektoren tid, noko somgjev oss den estimerte hendelsesraten for alle tidene i tid. Koden for dette er som følgjer:

S<-function(v,tid){alpha=v[1]; gamma=v[2]; ag=alpha+gamma;1-((alpha^4/(2*ag))*(-(tid^3/3)*exp(-ag*tid)-(tid^2/ag)*exp(-ag*tid)-((2*tid)/(ag^2))*exp(-ag*tid)-(2/(ag^3))*exp(-ag*tid)+(2/(ag^3))))

}

dS<-function(v,tid){alpha=v[1]; gamma=v[2]; ag=alpha+gamma;-(alpha^4/6)*(tid^3)*exp(-ag*tid)

}

a<-c(1.031,0.1043)haz<- -(dS(a,tid)/S(a,tid))

Funksjonen dS over er her den deriverte av overlevelsesfunksjonen S(t). Vil så plottedenne estimerte hendelsesraten me har funne i vektoren haz mot den observerte hen-delsesraten. Lagar den observerte som før og plottar dei mot kvarandre. Tar og medAalen sin estimerte hendelsesrate, samt dei to estimerte hendelsesratane eg fann i forrigekapittel i figuren. Koden er:

incrat<-seq(0,0,length.out=28)

69

for(i in 1:length(antatrisk)-1){incrat[i]=2*(antfod[i+1]/antatrisk[i])

}

S1<-function(v,tid){alpha=v[1]; beta=v[2]; gamma=v[3];1-((((alpha^2)*beta)+(alpha*(beta^2))+((alpha^2)*gamma)+((beta^2)*gamma))/((alpha+gamma)*(beta+gamma)*(alpha+beta+gamma)))+(((alpha^2)/(beta*(alpha+gamma)))*exp(-(alpha+gamma)*tid))+(((beta^2)/(alpha*(beta+gamma)))*exp(-(beta+gamma)*tid))-((((alpha^3)+(beta^3))/(alpha*beta*(alpha+beta+gamma)))*exp(-(alpha+beta+gamma)*tid))

}

dS1<-function(v,tid){alpha=v[1]; beta=v[2]; gamma=v[3];(-(alpha^2/beta)*exp(-(alpha+gamma)*tid))-((beta^2/alpha)*exp(-(beta+gamma)*tid))+(((alpha^3+beta^3)/(alpha*beta))*exp(-(alpha+beta+gamma)*tid))

}w<-c(0.25917754,0.25917751,0.02340923)k<-c(0.364,0.000017,0.031)n<-c(0.19,0.822,0.0476)haz1<- -(dS1(w,tid)/S1(w,tid))haz2<- -(dS1(k,tid)/S1(k,tid))haz3<- -(dS1(n,tid)/S1(n,tid))

plot(tid[-1],incrat,ylim=c(0,0.4),main="Plott av observerteog estimerte hendelsesratar",xlab="Fødselsintervall i år",ylab="Hendelsesrate for andre fødsel")lines(tid,haz,col="brown")lines(tid,haz1,col="red")lines(tid,haz2,col="blue")lines(tid,haz3,col="green")legend(5,0.4,c("observert hendelsesrate","Aalens estimertehendelsesrate","min estimerte hendelsesrate, 5 tilstandar","min estimerte hendelsesrate,5 tilstandar","min estimertehendelsesrate, 6 tilstandar"),col=c("black","green","red","blue","brown"),lty=c(-1,1,1,1,1),pch=c(1,-1,-1,-1,-1))

Dette gjev Figur 6.3. S1 og dS1 er her henholdsvis overlevelsesfunksjonen fra “den dyna-miske modell” og dens deriverte.

70

intervallmellomfødslarstudertved “phasetypedistributions” av leivmagneasperheim · 2016. 4....

Documents