rapport dexpérimentations aci-mda h. kou, a. napoli and y. toussaint orpailleur,...

25
Rapport d’expérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Upload: leger-geffroy

Post on 04-Apr-2015

102 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Rapport d’expérimentations

ACI-MDA

H. KOU, A. Napoli and Y. ToussaintOrpailleur, LORIA/INRIA-Lorraine,

Nancy, 15/10/2004

Page 2: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Plan

Rappel sur les travaux précédentsDescriptions et UCDsAnalyse de la distributions d’UCDsPassage à l’échelle : Division de CorpusPerformanceObservationsDistribution de performanceConclusion

Page 3: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Rappel sur les travaux précédents(1)

Corpus 4904 descriptions:3371 pour l’apprentissage

(70%) et 1533 pour le test (30%) 98 UCDs: au moins 30 descriptions. 3228 termes

Connaissances pour l’apprentissage Label, unit, descriptions

Algorithmes évalués: k-NN et Naive Bayes: ont échoué Rocchio: a réussit

Page 4: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Rappel sur les travaux précédents(2)

Performance par Rocchio

Nbr UCDs Rappel

1 83.7%

2 90.8%

3 93.1%

Pour un UCD,

• rappel=Nbr de descriptions associées trouvées/nbr de

descriptions associées

Page 5: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Passage à l’échelle : Descriptions et UCDs

Au total: 124,096 descriptions 1,183 UCDs Moyenne 105 descriptions / UCD

Certains UCDs sont très fréquents; et d’autres beaucoup moins Ex.

10,687 pour l’UCD ‘ERROR’. 1 pour 145 UCDs

Page 6: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Analyse de la distributions d’UCDs

305

252

178156

128

73

2616 16 12 13 5 2 1

0

50

100

150

200

250

300

350

<4 <10

<20

<40

<100

<200

<300

<400

<600

<1000

<3000

<5000

<10000

>10000

nombre de descriptions

no

mb

re d

' UC

Ds

Page 7: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Division du corpus

Ont été retirés tous les UCD associés à moins de 4 descriptions : 305

Corpus est composé des 873 UCDs 123,518 descriptions

Le corpus est divisé en deux parties :

Apprentissage (70%):85951 Test (30%): 37567

26114 termes

Page 8: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Performance

Nbr UCDs Rappel

1 66.3%

2 76.7%

3 80.7%

Rocchio

Page 9: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Observations Rappels = 0 pour 37 UCDsRappels très faibles pour 127 UCDsRappels assez forts pour 119 UCDsRappels très forts pour 519 UCDs

Page 10: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Rappels = 0 pour 37 UCDs (1) UCD nbr de

desc

AT_DATA 4

INST_PLATE_DIST 4

PHOT_DDO_48-51 4

PHOT_MAG_K 4

PHOT_PHG_R-I 4

PHOT_HST_F850LP 4

PHOT_COUNT-RATE_GAMMA 4

PHOT_SB_LIMIT 4

PHOT_UV_1900 4

POS_RADIUS 4

PHOT_UV_2500 4

PHOT_DDO_35-38 5

PHOT_IR_K-10 5

PHOT_HST_CI_B-V 5

PHOT_UV_COLOR 5

PHOT_DDO_38-41 5

OBS_SLIT_ORIENT 6

SPECT_PECUL 6

UCD nbr de desc

STAT_STDEV 6

PHOT_STR_U-V 6

INST_DET_MISC 7

INST_TYPE 8

ID_PARAM 9

PHOT_FLUX_RADIO_850M 9

MODEL_POP-SYNTHESIS 11

PHOT_FLUX_DENSITY 11

PHOT_FLUX_RADIO_180G 11

PHOT_UV_1500 12

INST_WAVELENGTH_COVERAGE 13

PHOT_HST_V 14

PHOT_COUNTS_MISC 15

POS_ANG_DIST_REL 19

PHOT_HST_CI_V-I 20

STAT_PROP 20

PHOT_SPHOT_INDEX 23

PHYS_DENSITY_SURFACE 37

CLASS_STRUCT 56

Page 11: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Rappels = 0 pour certain UCDs (2)

Hétérogénéité entre ses descriptions pour apprentissage et pour test

AT_DATA test

Fraction of cascade contribution from the first series Fraction of cascade contribution from the second series

apprentissage Fe XVI dielectronic satellite atomic data Fe XVI dielectronic satellite atomic data

SPECT_PECUL test

Spectral-luminosity peculiarities Spectral peculiarities

apprentissage [yn] Emission line found in spectrum? (3) [Be] Be: Be star [ABE] Spectral characteristics (1) Spectrum

Page 12: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Rappels très faibles pour certains UCDs (1)

Rappels (0, 0.50] pour 127 UCDsCertains UCDs sont fréquents Exemples UCD rappel nbr de desc

REMARKS ,391 605 CODE_MISC ,389 666 ID_ALTERNATIVE ,414 981 ID_MAIN ,405 1743

Concepts très étendus

Page 13: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Rappels très faibles pour certains UCDs (2)

Vecteur conceptuel ID_MAIN et les vecteurs de ses descriptions

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0,0 0,2 0,4 0,6 0,8 1,0

star

nam

e

Page 14: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Rappels très faibles pour certains UCDs (3)Spécialisation de définition d’UCDs

Page 15: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Rappels assez forts pour certains UCDs

Rappels [0.70, 0.90) pour 119 UCDsPour améliorer les performances: Spécialisation de définition d’UCDs

Conversion d’unités: 4850 MHz=>4.85 Ghz

Flux density at 4850 MHz dans PHOT_FLUX_RADIO_5G PHOT_FLUX_RADIO_5G retourné si 4850 MHz=>4.85 Ghz PHOT_FLUX_RADIO_110M retourné sinon

Error

Error

PHOT_FLUX_RADIO_5G_ERRORPOS_EQ_RA_MAIN_ERROR

Page 16: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Rappels très forts pour certains UCDs(1)

Rappels (9.0,1.0] pour 519 UCDs271 UCDs un peu fréquents (<20 ) ucd rappel nbr de desc AT_ENERGY_FORMATION 1 4 AT_FREQUENCY_ROTAT 1 4 AT_LIFETIME 1 4 INST_ANG_PHASE 1 4 AT_TRANS_TYPE 1 4 INST_BASELINE 1 4 MODEL_FLUX 1 4 PHOT_CLASS 1 4 PHOT_DDO_M48 1 4

Page 17: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Rappels très forts pour certains UCDs(2)

Vecteurs conceptuels bien concentrés TIME_EXPTIME => Exposure Time =>

time 0.35,exposure 0.319,exptime 0.16, exp 0.121,exposition 0.064, integration 0.039, total 0.033,texp 0.03, live 0.025,…

Descriptions homogènes entre apprentissage et test

Page 18: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Rappels très forts pour certains UCDs(3)

Vecteur conceptuel TIME_EXPTIME et les vecteurs de ses descriptions

0

0,1

0,2

0,3

0,4

0,5

0,6

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

time

exp

osu

re

Page 19: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Distribution de performance 04%

(0,0,5]14%

(0,5,0,7]11%

(0,7,0,9]13%

(0,9,1]58%

Rappel

Nbr de UCD

Rappel etPourcentage d’UCD

Page 20: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

ConclusionBonne perfomance globale d’assignation UCD par Rocchio: 58% UCD dont les rappels>90% 71% UCD dont les rappels>70%

Les définitions de certains UCDs restent à être spécialsés Mauvaise performance d’assignation UCD Concepts très étendus

31% UCDs très peu utilisésRapport d’utilisation des connaissances de domaine pour améliorer les perfomances.

Page 21: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Pour le future

Installer notre maquette à StrasbourgRédiger des documents expliquant la structure des programmes, des données et comment maintenir le système

Page 22: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Merci

Page 23: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Vecteurs conceptuels étendus

ID_ALTERNATIVE => Alternative identification =>

name 0.171,other 0.099,hd 0.047,identification 0.043,designation 0.04,number 0.039,catalog 0.039,cat 0.033,star 0.026,alternate 0.023,iras 0.021,hr 0.018,…

ID_MAIN => Main Identifier of a Celestial Object =>

name 0.222,star 0.096,number 0.062,identification 0.054,id 0.052,designation 0.04,source 0.04,galaxy 0.036,object 0.035,hd 0.03,cluster 0.023,catalog 0.019,…

CODE_MISC => Miscellaneous Codes or Flags =>

f 0.098,flag 0.07,code 0.033,indicate 0.026,band 0.018,source 0.017,reliable 0.014,cluster 0.013,measurement 0.012,confusion 0.012,note 0.012,type 0.012, …

Page 24: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Vecteurs conceptuals concentrés PHOT_JHN_V-I => Johnson color index V-I (JHN) =>

v-i 0.74,v 0.403,index 0.175,color 0.149,colour 0.147,dereddenned 0.021,v-ic 0.019,ic 0.016,johnson 0.014,…

AT_OSC_STRENGTH => Oscillator Strength =>

oscillate 0.41,strength 0.335,gf 0.295,log 0.219,loggf 0.132,fv 0.046,fl 0.044,length 0.039,gf-value 0.037,j 0.032,absorption 0.031,statistical …

PHOT_JHN_H-K => Johnson color index H-K (JHN) =>

h-k 0.658,k 0.427,h 0.362,color 0.13,index 0.095,colour 0.075,h-ks 0.035,ks 0.025,observe 0.024,cit 0.014,k-h 0.014,2mass 0.013,…

PHOT_FLUX_IR_25 => Flux density (IRAS) at 25 microns =>

flux 0.246,mu 0.19,density 0.185,f25 0.132,25um 0.123,m 0.122,um 0.108,s25um 0.103,f25um 0.101,25micron 0.088,iras 0.083,s25 0.077,micron 0.066,…

PHYS_TEMP_EFFEC => Effective Temperature =>

effective 0.354,temperature 0.354,teff 0.335,log 0.157,logte 0.137,logtu 0.086,uncorrected 0.083,wr 0.082,star 0.045,logteff 0.045,logarithm 0.027,…

Page 25: Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

Analysis de distributions d’UCDs

ERROR 10687RECORD 9485ID_MAIN 5811NOTE 4797POS_EQ_RA_MAIN 3716POS_EQ_DEC_MAIN 3697ID_ALTERNATIVE 3282PHYS_ABUND_MISC 3019CODE_ERROR 2468NUMBER 2440REFER_CODE 2286CODE_MISC 2216REMARKS 2019CODE_LIMIT 1979TIME_DATE 1975SPECT_EQ-WIDTH 1854VELOC_HC 1343PHOT_JHN_V 1262PHOT_DIFF_MAG 1240FIT_PARAM_VALUE 1239ID_NUMBER 1125

4 10 20 40 100 200 300 400 6001000

3000

5000

10000 10001

0

2000

4000

6000

8000

10000

12000

305 252 178 156 128 73 26 16 16 12 13 5 2 1