Statistical Matching (data fusion o synthetic matching) consists in a series of methods to integrate two or more data sources referred to the same target population.
Basic SM framework:
Y X
source A
X Z
source B
1. X variables are in common
2. Y and Z are NOT jointly observed
3. The chance of observing the same unit in A and B is close to zero
tabanell
arial 32 grassetto colote testo RGB 95 - 95 - 95posizione casella di testo 5,50 - 0,90margini sinistro 0, destro 0, superiore 0, inferiore 0punto di ancoraggio del testo: in mezzo
tabanell
casella di testo: posizione 5,50 - 3,5margine sinistro 0, destro 0, superiore 0, inferiore 0punto di ancoraggio del testo: altoaltezza massima della casella di testo: 13larghezza fissa 18,5titoletto: arial 16 grassetto colore testo RGB 153 - 51- 51testo: arial 16 colore testo RGB 95 - 95 - 95
tabanell
Posizione casella di testo 5,50 - 18arial 10 colore testo RGB 95 - 95 - 95
tabanell
posizione logo: 21,90 - 18
tabanell
arial 10 colore testo biancomassimo 3 righeposizione casella di testo 0 - 0,6margini: sinistro 0, destro 0, superiore 0, inferiore 0punto di ancoraggio del testo: basso
Objectives of Statistical Matching
micro: derive a “synthetic” data-set with X, Y and Z
A filled-in with Z Y X Z
macro: estimation of parameters: correlation coef. ( )
or frequenciesYZ
zZ,yYN
UNECEWork Session on
Statistical Data Editing
Approaches
Objectives SM Parametric Nonparametric Mixed
Macro
Micro
Ljubljana, 9-11 May 2011
tabanell
arial 32 grassetto colote testo RGB 95 - 95 - 95posizione casella di testo 5,50 - 0,90margini sinistro 0, destro 0, superiore 0, inferiore 0punto di ancoraggio del testo: in mezzo
tabanell
casella di testo: posizione 5,50 - 3,5margine sinistro 0, destro 0, superiore 0, inferiore 0punto di ancoraggio del testo: altoaltezza massima della casella di testo: 13larghezza fissa 18,5titoletto: arial 16 grassetto colore testo RGB 153 - 51- 51testo: arial 16 colore testo RGB 95 - 95 - 95
tabanell
Posizione casella di testo 5,50 - 18arial 10 colore testo RGB 95 - 95 - 95
tabanell
posizione logo: 21,90 - 18
tabanell
arial 10 colore testo biancomassimo 3 righeposizione casella di testo 0 - 0,6margini: sinistro 0, destro 0, superiore 0, inferiore 0punto di ancoraggio del testo: basso
“StatMatch” provides R functions to apply some Statistical Matching methods
Generalization and optimization of the code provided with the monograph about SM by D’Orazio et al. (2006).
The first version of StatMatch (version 0.4) released on CRAN (Comprehensive R Archive Network) in 2008.
In the beginning of 2011 the version 1.0.1 has been released; this version present a significant improvement of the functionalities of the previous version (0.8 released in 2009).
Renssen’s (1998) approach based on a series of calibration steps of the survey weights of A and B, and if available C (C may contain Y and Z or X, Y and Z)
harmonize.x() harmonizes the joint/marginal
distribution of X variables in A and B
comb.samples() estimates the contingency table Y vs. Z using available auxiliaryinformation in C (when available):- Conditional Independence Assum.- incomplete two way stratification- synthetic two way stratification
SM of data from complex sample surveys UNECE
Work Session on Statistical Data Editing
Ljubljana, 9-11 May 2011
tabanell
casella di testo: posizione 5,50 - 8,60margine interno 0,3 - 0,3 - 0,3 - 0,3Punto di ancoraggio del testo: altodimensioni 3,70 - 7arial 14 - allinea a sinistra - colore testo RGB 95 - 95 - 95
tabanell
Casella di testo:Posizione 13,20 - 8,60margine interno 0,3 - 0,3 - 0,3 - 0,3punto di ancoraggio del testo: altoarial 14 - allinea a sinistra - colore testo RGB 95 - 95 - 95
Frechet.bounds.cat() to derive the uncertainty bounds forfrequencies in the contingency table Y vs. Z, starting from the marginal tables X vs. Y and X vs. Z
Fbwidths.by.x() explores how the various possiblesubsets of the X variables contributein reducing the uncertainty on thecells of Y vs. Z
Exploring uncertainty due to SM basic frameworkUNECE
Work Session on Statistical Data Editing
Ljubljana, 9-11 May 2011
tabanell
casella di testo: posizione 5,50 - 8,60margine interno 0,3 - 0,3 - 0,3 - 0,3Punto di ancoraggio del testo: altodimensioni 3,70 - 7arial 14 - allinea a sinistra - colore testo RGB 95 - 95 - 95
tabanell
Casella di testo:Posizione 13,20 - 8,60margine interno 0,3 - 0,3 - 0,3 - 0,3punto di ancoraggio del testo: altoarial 14 - allinea a sinistra - colore testo RGB 95 - 95 - 95
Artificial data: A contains 14,000 obs.; about 54,000 obs. in B. PC with CPU Pentium IV 3GHz, 3GB RAM, MS Windows XP Prof. (SP 3; 32bit)
All the functions in StatMatch are based on R code and there are no calls to other external code (compiled C or Fortran):
“Interpreted languages (Matlab, R, Python, Lisp) are fun ... but slow. Compiled languages (machine code, assembly, FORTRAN, C, Java) are fast… but are work (= no fun)” Mizera (2006)
UNECEWork Session on
Statistical Data Editing
Ljubljana, 9-11 May 2011
tabanell
casella di testo: posizione 5,50 - 8,60margine interno 0,3 - 0,3 - 0,3 - 0,3Punto di ancoraggio del testo: altodimensioni 3,70 - 7arial 14 - allinea a sinistra - colore testo RGB 95 - 95 - 95
tabanell
Casella di testo:Posizione 13,20 - 8,60margine interno 0,3 - 0,3 - 0,3 - 0,3punto di ancoraggio del testo: altoarial 14 - allinea a sinistra - colore testo RGB 95 - 95 - 95
D'Orazio, M. (2009). StatMatch: Statistical Matching. R package version 1.0.1.http://CRAN.R-project.org/package=StatMatch
D’Orazio, M., Di Zio, M., and Scanu, M. (2006) Statistical Matching: Theory and Practice. Wiley and Sons, Chichester.
Mizera, I. (2006) “Graphical Exploratory Analysis Using Halfspace Depth”. Presentation at “useR!, The R User Conference 2006”, Wien, 15-17 June 2006.
Moriarity C., Scheuren F. (2001) “Statistical matching: a paradigm for assessing the uncertainty in the procedure”. Journal of Official Statistics, 17, 407–422.
Renssen, R.H. (1998) “Use of Statistical matching techniques in calibration estimation” Survey Methodology, 24, pp. 171-183.
UNECEWork Session on
Statistical Data Editing
Ljubljana, 9-11 May 2011
tabanell
esempio di grafico:posizione 0,90 - 5altezza massima 12 cm, larghezza massima 23 cm