hisstat realisaties en mogelijkhedende wet van benford: –onderzochte lokstat- datasets...

34
HISSTAT Voorstelling Kritische analyse bronnen Brussel, FOD Economie, 20 juni 2012

Upload: others

Post on 09-Jun-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 1

HISSTAT

Voorstelling

Kritische analyse bronnen

Brussel, FOD Economie, 20 juni 2012

Page 2: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 2

Inhoud

1. Voorstelling van HISSTAT

2. Toepassing: kritische analyse van de volkstellingen (1800-1970)

3. Demonstratie van de website “Census 1900”

Page 3: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 3

1. Voorstelling van HISSTAT

Page 4: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 4

1. HISSTAT - voorstelling

• Beschrijving – Infrastructuur voor historische statistieken

• Databanken voor de opslag en het beheer van primaire, originele data

• Instrumenten voor de analyse van de gegevens (o.a. GIS)

• Metadatabank en bronnenkritiek

– Scope:

• Volledige Belgische grondgebied

– op microniveau (gemeenten of lager)

• Periode 1800-1970

Page 5: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 5

1 HISSTAT - voorstelling

• Doelstellingen – Bewaring van het statistisch erfgoed

– Wetenschappelijk potentieel van oude bronnen valoriseren

• Door data exploiteerbaar te maken

• Gebruik van moderne technieken mogelijk maken

• Potentieel wordt nog onvoldoende benut

– Stimuleren van interdisciplinaire samenwerking

– Brug slaan tussen micro-onderzoek en onderzoek op nationaal en internationaal niveau

– Coördinatie van expertise in België

Page 6: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 6

1. HISSTAT - voorstelling

• Verschillende aanpak door toestand bronnenmateriaal – 1801-1970 alleen geaggregeerde data

• op het niveau van de gemeenten (ca. 2500)

• alleen beschikbaar op papier (bibliotheken, archieven)

• digitalisering en ontsluiting door de UGent, Lokstat

– Vanaf 1961 data beschikbaar op individueel niveau

• in machine-leesbare vorm

• afkomstig van overheidsinstellingen

• ontsluiting door de VUB, Interface Demography

Page 7: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 7

Data available at local level (municipalities)

Data available at individual level

HISSTAT: Research Infrastructure for Historical Statistics based on Microdata in Belgium

Databases

Population statistics

1970 - 2001

VUB

Digital datasets from the Belgian gov.

Institutions (Censuses ADSEI,...)

GIS

(TRANSCENS)

1961- 2001

VUB

LOKSTAT: database of local statistics

1800 - 1970

UGent

Data from non digital sources:

Books, archives

Quantitative Database of the

Belgian Municipalities

Digital collections from external

depositors

GIS

(HISGIS )

1800-1961

UGent

Database

Tool

Raw Data source

1. HISSTAT - voorstelling

Page 8: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 8

1. HISSTAT - voorstelling

• LOKSTAT – Selectiecriteria van de microstatistieken

• Graad van detail

– moet volledig Belgische grondgebied beslaan

– moet teruggaan tot op het niveau van de gemeenten

• Relevantie en bruikbaarheid van de variabelen

• Beschikbaarheid van de bronnen

• Mogelijkheid tot vergelijking in de tijd

– Voornamelijk klassieke tellingen van de bevolking, landbouw, handel en nijverheid

– Occasionale statistieken (stemrecht, kadaster)

Page 9: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 9

1. HISSTAT - voorstelling

• LOKSTAT/HISSTAT – Project gefinancierd door de Herculesstichting

– Duur 2009-2013

– Toegang tot de data

• data komen vrij op het einde van het project

• staan ter beschikking van het wetenschappelijk onderzoek

– met inachtneming van de privacywetgeving

– via website Census 1900 (www.lokstat.ugent.be)

– op eenvoudige aanvraag bij ploegen VUB en UGent

Page 10: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 10

2. Voorbeeldtoepassing

Kritische analyse van de volkstellingen in België

1800-1970

Page 11: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 11

2. Kritiek volkstellingen 1800 - 1970

• Kritische evaluatie van Lokstat-data – Vraag naar de kwaliteit van oude statistieken

Tellingen zijn vatbaar voor vertekening en fouten

Relatief weinig bekend over de betrouwbaarheid, door

→ onvoldoende data in digitale vorm

→ gebrek aan evaluatietechnieken

– Kritische doorlichting met de volkstellingen 1800- 1970

1. Principes van de Wet van Benford

2. Analyse van de officiële uitslagen

Page 12: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 12

2. Kritiek volkstellingen 1800 - 1970

• De Wet van Benford – Artikel “The Law of Anomalous Numbers” (New York, 1938)

– Principe: frequentie van de begincijfers van getallen uit bepaalde datasets beantwoordt aan vaste verhoudingen • geen uniforme verdeling zoals intuïtief wordt aangevoeld

– Vast percentage begincijfers • 1 → 30,1 %

• 2 → 17,6 %

• 3 → 12,5 %

• 4 → 9,7 %

• 5 → 7,9 %

• 6 → 6,7 %

• 7 → 5,8 %

• 8 → 5,1 %

• 9 → 4,5 %

Totaal 100 %

Page 13: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 13

Page 14: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 14

2. Kritiek volkstellingen 1800 - 1970

• De Wet van Benford – Empirisch aangetoond in zeer uiteenlopende domeinen

– Wiskundige verklaring volgt pas laat (Hill 1996 )

– Datasets onderhevig aan de wet:

• op basis van waarnemingen

• geen onder- of bovengrens

• niet ontsproten aan de menselijke brein of random gekozen

– geen telefoonnumers, lotto-uitslagen; …

• Voldoende aantal waarnemingen

– bij voorkeur minstens 10.000

Page 15: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 15

2. Kritiek volkstellingen 1800 - 1970

Sambridge e.a. 2010

Page 16: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 16

2. Kritiek volkstellingen 1800 - 1970

• De Wet van Benford: praktische toepassingen – Opsporing bias in datasets

– Fraudebestrijding

• Boekhouding, financiële audits

• Macro-economische statistieken (bv. begrotingscijfers Eurozone)

• Verkiezingsuitslagen (Iran)

• Officiële statistieken van broekasgasemissies

– Vnl. toepassingen in V.S.

• Minder in Europa, weinig in België

– Toepasbaar op bevolkingsstatistieken (Benford 1938, Sakai 1991)

Page 17: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 17

2. Kritiek volkstellingen 1800 - 1970

• De Wet van Benford: – Onderzochte LOKSTAT- datasets

• Volkstellingen:

– Bevolking naar burgerlijke staat en geslacht, 1801-1970

(N = 185.000)

• Bevolkingsverloop:

– Geboorten, sterfte, in- en uitwijking per geslacht en per jaar, 1841-1976

(N = 2.500.000)

– Artikel

• “De macht van het getal: een kritische analyse van de bevolkingsstatistieken in België (1801-1970)” In: Belgisch Tijdschrift voor Nieuwste Geschiedenis (31 blz., ingestuurd mei 2012)

Page 18: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 18 0%

5%

10%

15%

20%

25%

30%

35%

1 2 3 4 5 6 7 8 9

Volkstellingen

Mouvement

Wet van Benford

% Aandeel van de eerste cijfers

Bevolkingsstatistieken van de Belgische gemeenten, 1800-1975 Bevolking naar geslacht en burgerlijke staat (tellingen); Geboorten, sterften, migratie (Mouvement)

2. Kritiek volkstellingen 1800 - 1970

Page 19: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 19

2. Kritiek volkstellingen 1800 - 1970

0

1

2

3

4

5

6

7

8

9

10

0

10

20

30

40

50

60

70

80

90

100

1801 1806 1818 1830 1846 1856 1866 1880 1890 1900 1910 1961 1970

MAD χ²

χ² MAD

Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)

Page 20: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 20

2. Kritiek volkstellingen 1800 - 1970

• De Wet van Benford: – Criteria van conformiteit (first digit, Drake & Nigrini 2000)

• Gemiddelde Absolute Afwijking

– 0 – 4 : grote gelijkenis met het patroon van Benford

» Verschillen toe te schrijven aan toeval

» Tellingen 1800 - 1818

– 4 – 8: duidelijke afwijkingen, maar acceptabel

» Tellingen 1830-1846, 1890-1971

– 8 en meer: aanzienlijke afwijking

» Tellingen 1856 - 1880

Page 21: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 21

2. Kritiek volkstellingen 1800 - 1970

0

1

2

3

4

5

6

7

8

9

10

0

10

20

30

40

50

60

70

80

90

100

1801 1806 1818 1830 1846 1856 1866 1880 1890 1900 1910 1961 1970

MAD χ²

χ² MAD

3

Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)

1

2

Page 22: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 22

2. Kritiek volkstellingen 1800 - 1970

Standaard telformulieren

-1818

1830-

Page 23: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 23

2. Kritiek volkstellingen 1800 - 1970

Standaard telformulieren

1818

1830

Page 24: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 24

2. Kritiek volkstellingen 1800 - 1970

0

1

2

3

4

5

6

7

8

9

10

0

10

20

30

40

50

60

70

80

90

100

1801 1806 1818 1830 1846 1856 1866 1880 1890 1900 1910 1961 1970

MAD χ²

χ² MAD

Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)

2

Page 25: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 25

2. Kritiek volkstellingen 1800 - 1970

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

0,50

1846 1856 1866 1880 1890 1900 1910 1920 1930 1947 1961

Fr.

Kostprijs van de volkstellingen (Fr. per inwoner – geïndexeerd, basis 1914)

Page 26: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 26

2. Voorbeeldtoepassing

0

1

2

3

4

5

6

7

8

9

10

0

10

20

30

40

50

60

70

80

90

100

1801 1806 1818 1830 1846 1856 1866 1880 1890 1900 1910 1961 1970

MAD χ²

χ² MAD

3

Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)

Page 27: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 27

2. Kritiek volkstellingen 1800 - 1970

• Organisatie volkstellingen 1880 - 1890

Controle van de gemeentelijke telformulieren – 1880: geringe controle

– beperkte controlemechanismen

– 1890: oprichting van een telbureau in de schoot van Binnenlandse Zaken • 37 000 tabellen nagekeken

– 4 829 tabellen voor rectificatie teruggestuurd naar gemeenten – 3 970 aanmaningen en rappels gestuurd naar gemeenten

Verschillen

Significant Niet-significant

Scope X

Richtlijnen X

Uitvoering X

Resultaten X

Controle X

Page 28: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 28

2. Kritiek volkstellingen 1800 - 1970

0

1

2

3

4

5

6

7

8

9

10

0

10

20

30

40

50

60

70

80

90

100

1801 1806 1818 1830 1846 1856 1866 1880 1890 1900 1910 1961 1970

MAD χ²

χ² MAD

Afwijking met het Patroon van Benford (eerste cijfer) Bevolking naar Burgerlijke Staat en geslacht (volkstellingen)

Page 29: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 29

2. Kritiek volkstellingen 1800 - 1970

• Volkstellingen 1801-1818 – Geen afwijking met de verdeling volgens Benford

• Datasets die de verdeling volgen zijn niet noodzakelijk betrouwbaar

– Alleen systematische cijfervertekening is detecteerbaar

• Redenen voor grote conformiteit met de verdeling van Benford

– Afwezigheid van centrale instantie die teluitkomsten kon bijwerken

– Telformulieren waren niet complex

Page 30: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 30

2. Kritiek volkstellingen 1800 - 1970

• Conclusie – De Wet van Benford biedt een bruikbaar referentiekader om datasets

kritisch te wegen

• bepaalde vormen van systematische afwijkingen detecteerbaar

• Voorzichtigheid is geboden bij de interpretatie van de resultaten

– De toepassingsvoorwaarden van de wetmatigheid zijn niet altijd duidelijk

– Artikel

• “De macht van het getal: een kritische analyse van de bevolkingsstatistieken in België (1801-1970)” In: Belgisch Tijdschrift voor Nieuwste Geschiedenis (31 blz., ingestuurd mei 2012)

Page 31: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 31

2. Kritiek statistieken bevolkingsverloop 1841-1976

0

20

40

60

80

100

120

140

160 χ²

Trend

Aantal geboorten geregistreerd per jaar en per geslacht in de Belgische gemeenten,

1841-1976 (uitgezonderd 1851-1879)

Conformiteit met de frequentieverdeling van Benford (eerste cijfer)

Page 32: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 32

2. Kritiek statistieken bevolkingsverloop 1841-1976

0

20

40

60

80

100

120

140

160

Trend

Aantal sterften geregistreerd per jaar en per geslacht in de Belgische gemeenten,

1841-1976 (uitgezonderd 1851-1879)

Conformiteit met de frequentieverdeling van Benford (eerste cijfer)

χ²

Page 33: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 33

3. Voorstelling van de website

“Census 1900”

Page 34: Hisstat Realisaties en mogelijkhedenDe Wet van Benford: –Onderzochte LOKSTAT- datasets •Volkstellingen: –Bevolking naar burgerlijke staat en geslacht, 1801-1970 (N = 185.000)

Workshop 20 juni 2012 34

3. Voorstelling website

• Website Census 1900 – www.lokstat.ugent.be

– Ontwikkeld in samenwerking van Vakgroep Geografie UGent

– Bronnen: • Landbouwtelling 1895

• Nijverheidstelling 1896

• Volkstelling 1900

– Structuur: • Toelichting bronnen

• Tabellen

• Kaarten

– Technische achtergrond: • HTML

• PHP

• MySQL