datu-analisiaaldizkari-txikia.elhuyar.eus/pdf/elhuyar-47-02.pdf · 2007. 6. 21. · datu-analisia...

8
DATU-ANALISIA P. Larrañaga Mugi ka eta J.L. Jirnenez Jimenez lnformntika-Fakultatea EHUíüPV Donostia SUMMARY: fhe objetive of this work ir to sumrnarize the main techniques usualy clarrified under the heading of Muitivariate Analysis. We have tired to expose fn a general form and withaut mathernatical formula tions the sense of some of these techiques like cluster Analysis, Segmetation, MÚItrpEe Regresskn, Pr~ncipal Componen t Anatysis, Discri- minant AnaJysis, Canonical Analysis and Preferente Analysiz. O.- SARRERA Estatistikaren zati hau azkeneko hamabost urteetan desarroilatu da bater ere, eta bere helburua di- mentrio handiko taulak deskribatv eta ahal den neurrian beraietatik Enformaziorik gehiena ateratzea da. Nahiz eta Estatu Batuetan teknika hauetaz zenbait matematiko kezka- turik egon, Datu-Analisiaren jaio- terria Frantzia dela esan daiteke. I.P.Benz&cri-ren inguruan lan egiten dclten zenbait maternatikari (L.Lebart, A. Morineau, N. Tabard, M. Volle, J.M. Romeder, I.C. Lerman) izan dira S.P.A.D.(Systeme portable puur I'Analyse des donnbes) pakete infor- matikoaren egileak. 1983 urtean kaleratu zen lchenengo aldiz. Harrez gero urtero rcnbait etapa berri gehitzen joan dirá, gaur egun berrogeitamar inguru daurkalarik. Esan beharra dago beste bi pakete, $.M.O.-P. (Biomedical Computer Pro- grams) eta S.P.S.S. (Statiscal Package for the Social Science), daudela tek- nika hauek erabil ahal izateko. Nahiz eta tekni ka hauen aplika- zio-eremua oso zabala izan (Medi- kuntza, Biologia, Botani ka, Pedago- ¶Fa, Soziologia, Geologia, Meteoro- logia, Marketing-a, etab.) hiru dira aplikazio geiztietan agertzen diren ideia arnankomunak: a) Informati karen erabi tpen derrigo- rrezkoa b) Hasierako datuen deformaziorik 1x1 kiena c) 5ubjektibotasvnaren ahalik eta erreduksiori k handiena J.-P. Benzbcri-k (1973) zioenez: Ereduak datuei jarraitu behar dio eta er atderantziz. Aspalditik gizakumeak objektuak errepresentatzeko eta/edo sai l katse- ko behava izan du; objektu hauetaz informazio anirkoitza zeukanean batez ere. Hala eta guztiz ere, lnformatika garatu arle zenbait errealitate multidimentsional ezin zitekeen i kertu; horretarako behar tiren kafkuluak oso 'luzeak eta konpfexuak baEt ziren. Kalkulatzeko

Upload: others

Post on 07-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • DATU-ANALISIA

    P. Larrañaga Mugi ka eta J.L. Jirnenez Jimenez

    lnformntika-Fakultatea EHUíüPV Donostia

    SUMMARY: fhe objetive of this work ir to sumrnarize the main techniques usualy

    clarrified under the heading o f Muitivariate Analysis. We have tired to expose fn a general form and withaut mathernatical

    formula tions the sense of some of these techiques like cluster Analysis, Segmetation, MÚItrpEe Regresskn, Pr~ncipal Componen t Anatysis, Discri- minant AnaJysis, Canonical Analysis and Preferente Analysiz.

    O.- SARRERA

    Estatistikaren zati hau azkeneko hamabost urteetan desarroilatu da bater ere, eta bere helburua di- mentrio handiko taulak deskribatv eta ahal den neurrian beraietatik Enformaziorik gehiena ateratzea da. Nahiz eta Estatu Batuetan teknika hauetaz zenbait matematiko kezka- turik egon, Datu-Analisiaren jaio- terria Frantzia dela esan daiteke.

    I.P.Benz&cri-ren inguruan lan egiten dclten zenbait maternatikari (L.Lebart, A. Morineau, N. Tabard, M. Volle, J.M. Romeder, I.C. Lerman) izan dira S.P.A.D.(Systeme portable puur I'Analyse des donnbes) pakete infor- matikoaren egileak. 1983 urtean kaleratu zen lchenengo aldiz. Harrez gero urtero rcnbait etapa berri gehitzen joan dirá, gaur egun berrogeitamar inguru daurkalarik. Esan beharra dago beste bi pakete, $.M.O.-P. (Biomedical Computer Pro- grams) eta S.P.S.S. (Statiscal Package for the Social Science), daudela tek- nika hauek erabil ahal izateko.

    Nahiz eta tekni ka hauen aplika- zio-eremua oso zabala izan (Medi- kuntza, Biologia, Botani ka, Pedago- ¶Fa, Soziologia, Geologia, Meteoro- logia, Marketing-a, etab.) hiru dira aplikazio geiztietan agertzen diren ideia arnankomunak: a) Informati karen erabi tpen derrigo-

    rrezkoa b) Hasierako datuen deformaziorik

    1x1 kiena c) 5ubjektibotasvnaren ahalik eta

    erreduksiori k handiena J.-P. Benzbcri-k (1973) zioenez:

    Ereduak datuei jarraitu behar dio eta er atderantziz.

    Aspalditik gizakumeak objektuak errepresentatzeko eta/edo sai l katse- ko behava izan du; objektu hauetaz informazio anirkoitza zeukanean batez ere. Hala eta guztiz ere, lnformatika garatu arle zenbait errealitate multidimentsional ezin zitekeen i kertu; horretarako behar tiren kafkuluak oso ' luzeak eta konpfexuak baEt ziren. Kalkulatzeko

  • erabiltren diren tartekatze handien garapenak, g~zakurneari erreali taze anizkoitza automatikoki ikertzeko ahalmena eman dio. eta honekin batera eguneroko biritzan gertatzen den zenbait prozesu askez ere uler- garriago izan daitezen pos1 bilitatea. Esandakoa erabaki-arlora ere eraman daiteke. Orain arte, ata roritxarrer gauregun ere, erabakiak askotan intuiti boki hartsen dira, zenbakie- tatik edo hobeto esanda datu-taule- tatik atera daitezken ondorioak kon- tutan hartu gabe.

    Zenbait teknikak behar duen algoritmoen mamia, oso sinplea izaten da. Adibidet, 1757. urtean Adanson-ek landareekin lanean ari zela, Sailkapen Automatikoaren lehe- nengo algoritmoen hartapenak eman rituen: Porik geratuko nintrateke, objektuak beraien artean dauzka ten antzekatarunak kontutan harturik bilduko banitu. Horrela bildutaka objek tuek talde txikfak ora tuke Iituzkete; gero. eta objektu guztiak batzeka asrnoz, talde tx iki hauek berriro elkartuko nituzke, taldeko oblektuek daurkalen ezaugarriak kontotan izanik.

    Faktore-analisiari dagokionez, Sperman (1904) eta Thurrtone (19301 konsidera daitezke aintzindari. B i ikertzaile hauen lanak Psi kologiarekin dute zerikuria, eta beraien ustez faktorea, ikerketan agertzeñi diren aldagai aleatorioen konbinazío lineal kansidera dai teke

    2.- PROBABlLlTATEA BAl, PROBABILI- TATEA E2

    Datu-analisia garatu den neurri- an, gero eta nabarmenagoa izan da estatisti koen banaketa; tekni ka hauek desarroilatzeko behar diren

    frogapenek ez bait dute aldagai aleatoriei buruz inolako hipotesi probabilisti korik egiten Beraz tekni- ka hauek ez dute eredu probabi- listi koen beharri k.

    J.-P. Benzécri-ren hitzetan: Esta- tistrka er da probabflitatea. Zenbart autorek. sekula betetzen ez diren hipotesretan finkaturik dagoen teo- rfa eratu dute. E z ~ n dugu beraiengan- dtk gure problema topologikoen tza t irtenbfderik espero.

    Metodo gehienen oinarria alge- braikoa edo geornetrikoa da, eta ~olvzioak crirpide bat minimizatuz edo maxirnizatuz lortren dira.

    Horrela ikusten du Gower-ek (1971) Estatistika Enferentzialaren eta Datu-Analisiaren jarrai ttaileen arteko burruka. Gower-ek dioener: Formolazio eta hipo tesi probabilis- tikoen menpe lan egitea gustatzen ez zaien esta tntikoek, hobe lukete besteek egiten du tenari oztopoak jarriko ez balizkie. Era berean baina alderantzizko egoera, hau da, pro- blema erreaf eta praktikotan saiatzen diren taxonornistak, estatirtiko teori- koen nurka egotea ulergarr~a izan daiteke; hauek ez bait dtete inolako Iaguntzarik ema ten. Hala era guztiz ere, nrre ustes bt tendentzia hauek ba tu egin beharko lukete. Eslatisti- koak atde ba tetrk, Informa trkaren Iaguntzax Da tu-Analisiak eskaintzen dizkion teknika ahaltsuak erabiti behar dttu, eta beste aldetik, Esta- trstika Inferentzialen me todo ez-para- rnetrrkoak, lokabide asintotikoak, etab. Hau oso garbr skusten da erre- gsesio edo bererzke ?a-analrsian zen- h i t test egin behar denean.

  • 3.- ANAtlSlA EGlTEKO BEHAR DlREN URRAf SAK

    lkus dezagun laburki edozein ana- tiria prestatzeko eman behar diren urratsak. Paula eraikitzeko, gaian esperialista denak estatistikoaren laguntzaz indi biduoen multsoa, para- metroen mu ltzoa eta parametro bakoitzari dagaki on behaketa-ere- mua, aukeratzen ditu. Indibiduo ba- koitzarr neurtu behar dizkiogun aldagaiak, kuantitatiboak edo kuali- tatiboak izan daitezke. Atkeneko hauetarako, eta datu-matrizearekin lana egin ahal izateko, kodifi kaziea egiten da. f enbait garbiketar (alda- gai konstanteak kentren dira, zenbait indibiduo ex dira kontutan hartzen balio ugari falta zaielako, kontvtan hartzekoak dira datu arraroak eda '~utliers" izenekoak ere) Patu-ma- trizea prestatu ondoren, egin die- zaiokequ bada eskatzen duen ana- lisia.

    4.- METODOAK

    PY ntu honetan, datu-analisiaren metodorrk esagunenak aipatuko di- tugu. S.P.A.D. (Syzteme portable pour I'Analyse des donnker) paketeak 198S.eko bertsioan erregresio aniz- koitza eta bereizketa-analisia erantsi ditu. Beraz, aipatuko ditugun meto- doei dagozkien apli kario praktikoak, datu ordinalei, seghentazioari eta analisi kanoni koari dagozkienak ezi k, pakete honekin landu daitezke. Datu ordinalekin erlazionatuta dauden programa batzuk hauexek dira: MDSCAL. TORSCA, ELECTRE I eta II, ANAPREF. Anal~si kanonikoari dago- kionez 5.P.5.5. (Statistisal Package for the Social Science) paketean avrki

    daiteke aplikazio hori egiten duen programa.

    ikur dezagun bada renbait meto- doren mamia: a) Sailkapen automatikea

    lten hbnekln zenbart metedo eta algoritmo biltzen da, beraien helbu- rus objektuz osaturi ko dagoen popu- lazioa zenbai t taldetan banatzea delartk. Banaketa hau , objektuei neurtzen dnzkiegun aldagaiek har-

    tzen dituzten balioak kontuzan harturik egiten da. Normalean lortren diren partiketak, bata bestearen barruan egoten dira klase-hierarkia osatuz. Klase edo talde bakoittarf zenbaki positi boa el kartzen badiogu, indiredun hierarkia lortsen da, bere adierazpide grafikoa zuhafts bat de- larik. Hierarkia eraikitzeko eta nola- bait bi tafdeen arteko antzekotasuna neurtzeko asmoz, agregazio-indizea definitzen da. Prakti kan agregazio- -indize ugari daude. lndize honen definizioa garrantzizkoa da; metodo honekin Fortzen den hierarkia, indi- rearen araberakoa bait da. Aipatze- koa da jauxr minjmazko indizca; haw erabiliz Iurera minrmoa duen zv- haitza erai kitzen da eta

    Kontutan hartzekoa da bestetik hodei dinarniko izenez ezagutzen den algeritmoa. Berari esker iteratiboki ondorengo ertzpidea hobetzen joan daiteke: partiketa osatzen duten klaseak gero eta hurbilago egongo dira korapíioekiko, hauek klase ba- koitzaren grabitate-zentru edo indi- biduo errepresentagarrientzat konsi- dera daitezkeelarik.

    Segmentatio-metodoek ebatri nahi dvten problema, hauxe litzate- ke: p esplikatsaileak deituriko aldagai kualifatviboz eta espli katu behar den beste aldagai kualiratibo nahiz kuan-

  • YIEJ/ 1 C E N T J 2 nWhW/ 2 EGUI / 2 I T E G / 2 A N Y I / 2 A L Z 1 / 3 A S T I / 4 € I B A / 1 EL&' G l l N / S GEJl/ r H E Q R / 1 H E R N I 1 HUNO/ 1 I B A R / 1 IDI&/ 4 I R U t / 5 I R U H / 3 I R W l LEGO/ t L E I H / 5 L E L O / 1 Ltll/ 5 M U T I / 4 M U T R / 4 nLAB/ 3 O N I T J 4 OF!DI/ 1 O R E REGI/ 5 R E t + T / 3 S E G b / 4 T O L O / 1 U R N I / J U R R E / 6 USUR/ 1 V I L L / 1 L A L O / 4 Z A R , ZU ' lk / b

    O 0 - --- -- - - --- -- -- -- --- - - -- - -- - - - - -- - - - - - - -- -- -- -- -- - ----- *- -- -- - -- - - - - - ---------- O F I N D E L - E T A P E Ve T d M l S 0 *--------. 0 S T O P * C O FIN DE 1 - A H A L Y S E 0 *-*-** *---**----------------------

    titatiboz osaturiko datu-matrizea az- tensea. Adibidez, datu-matri ze hatl soldatekin erlazianaturi k dagoen in- kesta batetik etor daiteke; p aldagai esplikatzaileak Pangile bakoitsaren egoeraren ezaugarriak neurtuka li- tuzke (adina, sexua, ogibidea, ikaske- ta-maila), soldata esplikatu behar den aldgaia delarik. b) Metodo I i neala k

    Metodo hauen helburua, bestc aldagai kuantitati boak espli katzeko (erregresioan) edo zenbait aldagi kuantitatibo azaltzeko (analisi kano- nikoan}, edo indibiduoen adierazpide grafi koa lortzeko (faktorezko ana- lisian) aldagaien konbinazio linealak lorlzea da. m Erregresio aniskaitza

    Hasierako egoera, hauxe da: p aldagai kuantitati bo espli katzaile daurkagu eta esplikatu behar den beste aldagai kuantitati bo bat. Erregreslo-he1 burua espli katzailea seili k izan daiteke, baina aldagai esplikatzaileen balioak ezagutren direnean ere erabiltzen da metodo hau, esplikatu behar den aldagaia- ren balioa aurrezesateko. Erregre- sioa lortu ondoren interesgarria izan daiteke, erregresioaren kalita- tea hobetzeko asmoz, eredutr k

    zenbait aldagai esplikatsaile mu- rriztea edo gehitzea Gusti hau Estatistika lnferentsialak eskain- tzen dizkigun tertez egfn daiteke. Metodo fa ktorialak habur daiteke aipatuko ditugun lau metodoen arteko antzekotasuna, aldc batetik rnatrize-datuko indibi- duoen adierazpide grafrkoan eta beítetik matrize-datuaren laburpe- nean dagoela esanes. Desberdinta- sunak matrizc-datuen rnotan dau- de.

    Osagai nagvsiko analisia, alda- gai kuantitati boz osaturi ko taula batean cgiten da, eta lortzen dena indibiduoen edoleta alda- gaien adierazpide grafi koa iza- ten da. Ikus ditzagun ondorengo irudie- tan Gipuskoan 82.eko Hautes- kunde Orokorretan lortuiiko emaitzen arabera, indibiduoen (herriak) eta aldagaien (alderdi politi koak) adierazpide grafl- koak.

    * Korrespondentzi analiriak kon- Eingentzi taulekin lan egiten du, lortzen dena indibiduoen eta aldagaien adierazpide grafiko bateratva delarik.

  • --+ 1 Irudia Hedei dinamiko ~zeneko metodoa erabiliz. Gipuzkoako herrien sailkapena, 6 klaaetan,

    82 eko hauteskunde orokorretan lorturiko emaitzat kontutan hartw ondoren - --

    * Distantzia neurtzen duen taula- ren analisian, matrire karratue- k in lan egingo dugu, taularen osagaiak indi biduoen arteko binaka harturi ko distantziak direlarik. Helburua, plano fak- torialen laguntzar eta indibi- duoen arteko hasierako distan- tziak ahalrk eta gehien errespe- tatuz indibiduoen arteko distan- tziak errepresentatrea litsateke. Honi, hurbiltasun-analisia dei- tzen zaio Analisi kanoni kaak, aldagai kualitatiboz nahiz kuantitati boz osaturi ko bi multzoen arteko erlazioak aztertzen ditu

    c) Beieizketa-analisia Hasierako datu-taula, renbait

    abdagai kuantitatiboz eta aldagai kualitatibo batez osatuta aurkitzen da. Azkeneko aldagai kualitatibo honek indibiduoen artean partiketa bat egiten du. Helbzirua aldagai kualitati boa ahalik eta hobekien espli katzen duen hasierako aldagai

    kuantftatiboz egindako konbinazio lineala aurkitzea da.

    Bereizketa-analisia, helburu des- kribatzailez erabil daiteke, hau da,

    espli katu bchar den aldagai kuali- tati'boa definitten duten klaseak kon- tutan harturik, taulan aurkitzen diren indibiduoen partiketak eginez. Hef- burua erabakikorra ere izan daiteke, hasieñako taulan aurkitzen er den indibiduo baten klasea aurkitu nahi dugunean.

    Bestetik, gutxien bereizten duten aldagaien ebaspena egitea pentsa daiteke; horrctarako urratsez urra- treko ("rtepwiseh) zenbait teknika dags. d) Lehentasun-analisia

    Datu-analisiaren zati honetan, lantzen den; matrize-datuan indibi- duo bakoitzak hehentasun erlazioa adierazten du objektuz osaturiko rnultso batekiko.

    kehentasun-analisias, ondorengo galderak erantrvn nahl dira: a) Nola adierazi grafi koki indi biduoak

    e2a objektuak, lehentasun indibi- dualak ahalik eta hobekien erre- presentatuz

    b) Nola ordenatu objektuak indibi- duoek daukaten batesberteko eriz- pidearekiko.

    C] Nala lortu eta adierasi indibiduo homogenoz osaturiko azpitaldeen joerak.

  • 2 Irudia. Indibiduoen adierazpide grafikoa

  • Lehenengo galdera, lehentarun- -datuen errepresentazio euklidear batez erantzuten da. Lehentasun- -datuei dagozkien agregazio-meta. deek erantzungo diote bigarren galderari, hirugarrena azterketa tipo- logi ko baten bitartez egiten delari k.

    NO, DF PWRICTED 6WUP EW€FVIP P C W 6ROiJP C A X S 2 - -- -- --

    BERTIER, P . BOUROCHE, J M , ~ n n l y s t des donnees multrdrmensionnelles, Massan. Par45 1975 BENZECRl et colaborateurr; L'anlyse desdonncres, 1 2 . Bordas. Parrs 1976

    : BEMZECRI et colaberateurs, L'analyse desdonné~s. 2 , 2 , Bordas. Parir 1976 BOUROCHE, 1 M ; Analyse des donnPes en .Marketing: Masson, Paris 1977 DIDAY, E , LEMAiRE, J . PUGET. J . TESTU. F , El~mentsd 'ana l~ re derdonnees. Bordar, Par15 1982 LE BART. L , M0RINEAU.A.. FENEtON,J P , iraitement des donneps rtatistiqu~s, Bordar, Par is 1979 L E B n R f L.. MOR~NEAY.A, TAI3ARD.N , Terhniquer de la descrrpt~onrtati~ique, Bordar. Parir, 1977

    ! LEFEBURE,J . lntrOdunion aux anafyses stat~ffiques multidim~nrionnelles, 2 . Masron. Paris 1980

    i LERMAN,J C , C(asrficatr0n etnnalyse ordinales des donn~es : Bordas. Par15 198 1 MARCOTORCH~NO.J F ; M1CHAUD.P , Optimiration en analys~ ordinale des donnbes, Masron, Paris 4 1979 i