procÉdures documentation scientifique

PROCÉDURES

D'ANALYSE SÉMANTIQUE

APPLIQUÉES A LA DOCUMENTATION SCIENTIFIQUE

O U V R A G E S D E L A C O L L E C T I O N

< D O C U M E N T A T I O N E T I N F O R M A T I O N »

Parus :

B. C. VICKERY. — La classification à facettes. Guide pour la construction et l'utilisation des schémas spéciaux. Traduit de l'anglais par P. SALVAN .

R. DUBUC. — La classification décimale universelle. Manuel pratique d'utilisation.

R.-C. CROS, J.-C. GARDIN, F. LÉVY. - L'automatisation des recherches documentaires. Un modèle général : LE SYNTOL.

L'organisation de la documentation scientifique. Études par J.-C. GARDIN, E. DE GROLIER, F. LEVÉRY et l'Association nationale d'études pour la documentation automatique (A. N. E. D. A.).

Z. DOBROWOLSKI. — Etude sur la construction des systèmes de classification.

C. LEGEARD. — Guide de recherches documentaires en dé- mographie.

Économie générale d'une chaîne documentaire mécanisée. Par F. ALOUCHE, N. BÉLY, R.-C. CROS, J.-C. GARDIN et J. PERRIAULT.

R. CORMIER. — Les sources des statistiques actuelles. Guide de documentation.

R. DUBUC. — Exercices programmés sur la C. D. U.

Procédures d'analyse sémantique appliquées à la documentation scientifique. Par N. BÉLY, A. BORILLO, N. SIOT- DECAUVILLE et J. VIRBEL . Il

Classification médicale de la "National Library of Medicine". Traduit par Dr G. NICOLE et M. NICOLE.

D O C U M E N T A T I O N E T I N F O R M A T I O N Collection dirigée par Paul Poindron,

Directeur des études de l 'Institut national

des techniques de la documentat ion

PROCÉDURES

D'ANALYSE SÉMANTIQUE

APPLIQUÉES A LA

DOCUMENTATION SCIENTIFIQUE

par

N. BELY A. BORILLO

N. SIOT-DECAUVILLE J. VIRBEL

CENTRE NATIONAL D E LA R E C H E R C H E S C I E N T I F I Q U E

P R É F A C E D E J . - c . G A R D I N

GAUTHIER-VILLARS ÉDITEUR 55, quai des Grands-Augustins, 75 - PARIS - VI.

1970

Procédures d'analyse sémantique appliquées à la documentation scientifique, par N. BELY, A. BORILLO, N. SIOT-DECAUVILLE, J. VIRBEL. Préface de J.-C. GARDIN. - Paris, Gauthier-Villars, 1970. - 16 cm, XVIII-242, fig. tableaux.

(Documentation et Information).

@ G A U T H I E R - V I L L A R S , 1970

Toute reproduction, même partielle, de cet ouvrage est interdite. La copie ou reproduction, par quelque procédé que ce soit : photographie, microfilm, bande magnétique, disque ou autre, constitue une contre- façon passible des peines prévues par la loi du 11 mars 1957 sur la

protection des droits d'auteurs.

TABLE DES MATIÈRES

Pages

Préface de J.C. Gardin XIII

le PARTIE : CADRE METHODOLOGIQUE

1. Fondements de la recherche 3

2. Paramètres expérimentaux 7

2.1. Le langage-cible 7 2.2. Le domaine et le corpus 11 2.3. Démarche générale 12 2.4. Etapes de la recherche 14

2e PARTIE : INDEXATION LEXICALE

3. Démarche de l 'indexation lexicale 19

3.1. Morphologie des termes du langage naturel 19 3.2. Les groupes de mots 20

3.2.1. Définition des groupes de mots 20 3.2.2. Reconnaissance des groupes de mots 21

3.3. Statuts des termes LN quant à leur traduction 23 3.4. Polysémies 25

3.4.1. Définition 25

3.4.2. Résolution des polysémies 26

3.4.2/1 Polysémies de type "1" : "mots c lef ' 26 3.4.2/2 Polysémies de type " 2 " : "catégories grammati-

cales multiples" 27 3.4.2/3 Polysémies de type " 3 " : "analyse sémantique

seule" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Pages

3.4.2/4 Polysémies de type "4" : "analyse syntaxique et sémantique 31

3.4.2/5 Polysémies de type "5" : "descripteurs obliga- toires 34

3.5. Inventaire des types d'outils nécessaires à l'indexation lexicale. 35

4. Description des outils linguistiques 37

4.1. Le lexique documentaire 37 4.2. Le dictionnaire automatique 38

4.2.1. Codes affectés aux entrées 38

4.2.1/1 Codes grammaticaux 38 A. Codes de catégories grammaticales 38 B. Codes morphologiques 39

a. Codes affectés aux verbes 39 b. Codes affectés aux autres catégories va-

riables 40

4.2.1/2 Codes affectés aux groupes de mots 42 4.2.1/3 Codes de polysémies 43

4.2.2. Conventions pour la rédaction des articles du dictionnaire 43

4.2.2/1 Transcription des signes diacritiques 44 4.2.2/2 Codes de délimitation des éléments de l'article.. 44 4.2.2/3 Règles pour la rédaction des articles . 45 4.2.2/4 Exemples d'articles 45

A. Articles sans règle de résolution polysémique. 45 B. Articles avec règles de résolution polysémique 45

4.3. Les algorithmes d'analyse 46

4.3.1. Reconnaissance des groupes de mots 46 4.3.2. Résolution des polysémies 46

4.3.2/1 Type "2" 46 4.3.2/2 Type "3" 47 4.3.2/3 Type "4" 48

5. Le programme 49 5.1. Les données 49

5.1.1. Le lexique 49 5.1.2. Les désinences morphologiques 49

5.1.2/1 Désinences de noms ou d'adjectifs 49 5.1.2/2 Désinences de verbes 50

5.1.3. Le dictionnaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Pages

5.2. Le traitement 50

5.2.1. Introduction des données 50

5.2.1/1 Introduction du lexique 50 5.2.1/2 Introduction des désinences 51 5.2.1/3 Introduction du dictionnaire 51

5.2.2. Traitement des résumés 52

5.2.2/1 Première étape 52 5.2.2/2 Seconde étape 52 5.2.2/3 Troisième étape 52 5.2.2/4 Quatrième étape 53 5.2.2/5 Cinquième étape 53

5.3. Exploitation 54

6. Résultats 55

6.1. Reconnaissance des groupes de mots 55 6.2. Résolution des polysémies 56

6.2.1. Résultats d'ensemble 56

6.2.2. Algorithme " 1 " 58 6.2.3. Algorithme "2" 58 6.2.4. Algorithme " 3 " 61

6.2.4/1 Contexte immédiat ( " I" ) 62 6.2.4/2 Contexte de la phrase ("P") 63 6.2.4/3 Contexte du résumé ( "R" ) 63

6.2.5. Algorithme "4" 65

6.2.5/1 Résolution des substantifs 66 6.2.5/2 Résolution des adjectifs 68 6.2.5/3 Les non-résolutions 69

A. Structures non-reconnues 70 B. Structures vides 70

6.2.6. Algorithme "5" 71

6.3. Bilan d'ensemble 71

3e PARTIE : INDEXATION SYNTAXIQUE

7. Exposé de méthode 77

7.1. Nature des relations logiques 77 7.2. Format des relations logiques 78 7.3. Passage du langage naturel à la représentation documentaire . . . 80

7.3.1. Méthode de reconnaissance et d'extraction des relations

logiques 82 7.3.2. Utilisation du réseau notionel . . . . . . . . . . . . . . . . . . . 84

Pages

8. Analyse de l 'énoncé en langage naturel 87

8.1. Type d'analyse 87 8.2. Exploitation de l 'énoncé . . . . 88 8.3. Méthode d'analyse 90

8.3.1. La reconnaissance des catégories grammaticales . . . . . . . 90 8.3.2. La caractérisation de la fonction 92

8.4. Résultats de l'analyse 98

9. Extraction des relations logiques 101

9.1. Extraction des relations consécutives et comparatives . . . . . . . 101

9.1.1. Les mots-outils 101

9.1.2. Les schémas syntaxiques 103 9.1.3. Règles de construction des syntagmes 105 9.1.4. Recherches des suppléants et des coordonnés . . . . . . . 106 9.1.5. Vérification sémantique 108

9.2. Extraction des relations associatives 109

9.2.1. Construction des syntagmes 110 9.2.2. Restrictions 111

9.2.3. Vérification sémantique 111

10. Synthèse des résultats 115

10.1. Types de résultats 115

10.1.1. Des syntagmes complets 115 10.1.2. Des syntagmes incomplets 115 10.1.3. Des descripteurs isolés ou isolats 116

10.2. Traitement des interprétations multiples 116 10.3. Opération de raccordement 117 10.4. Les opérations de développement 118

11. Programme 119

11.1. Organisation générale 119 11.2. Introduction des données permanentes 120

11.2.1. Les codes grammaticaux et fonctionnels 121 a) Forme externe 121 b) Forme interne . 122

11.2.2. Régies d'analyse grammaticale . . . . . . . . . . . . . . . . 122 a) Forme externe . . . . . . . . . . . . . . . . . . . . . . . . 122 b) Forme interne . . . . . . . . . . . . . . . . . . . . . . . . . 122

Pages

11.2.3. Schémas 122

a) Forme externe 122 b) Forme interne 123

11.2.4. Coordonnés et suppléants 124 a) Forme externe 124 b) Forme interne 124

11.2.5. Règles associatives 124 a) Forme externe 124 b) Forme interne 125

11.3. Traitement des résumés 125

11.3.1. Lecture des résumés 125

Traitement des parenthèses 125

11.3.2. Interprétation syntaxique d'une phrase (organigramme 2) 126

Format des résultats partiels (Voir Annexe 21B) 126

11.3.3. Recherche des syntagmes à l'aide des schémas syntaxiques (organigramme 3) 128

11.3.3.1. Orientation de l'exploration 128 11.3.3.2. Recherche des suppléants et des coordon-

nés 128 11.3.3.3. Médiation 130

11.3.3.4. Format des résultats partiels (Voir Annexe 21B) 130

11.3.3.5. Interprétations multiples 131

11.4. Recherche des syntagmes associatifs (organigramme 4) 131

11.4.1. Exploration de la phrase 131 11.4.2. Format des résultats partiels (Voir Annexe 21B) . . . 133 11.4.3. Les isolats 134

11.5. Les raccordements 134

11.6. Impression des résultats finals 134

11.6.1. Condensation à l 'intérieur d 'un résumé

(programme 6) 134 11.6.2. Format des résultats finals (Voir Annexe 21C)

(programme 7) . . . . . . . . . . . . . . . . . . . . . . . . . . 134

I l .7 . Exploitation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

Pages

12. Résultats de la phase syntaxique d'indexation 137

12.1. Evaluation de l'analyse syntaxique 137

12.1.1. Déroulement de l'analyse 138 a) Arrêts dûs à des altérations dans les données . . . . 138

b) Arrêts dûs aux règles 138

12.1.2. Résultats de l'analyse 140

12.2. Résultats de la recherche des relations consécutives et comparatives 142

12.2.1. Evaluation quantitative des résultats 142 a) Les mots-outils 142 b) Les mises en relations 143

12.2.2. Evaluation de la procédure de recherche des syntagmes 144 a) Les syntagmes complets 144 b) Les syntagmes incomplets 146 c) Absence de mise en relation 147

12.2.3. Examen des résultats en fonction de leur valeur in- formative 150

12.3. Résultats de la recherche des relations associatives 153

12.3.1. Evaluation qualitative des résultats 153 12.3.2. Evaluation de la procédure de recherche des syn-

tagmes associatifs 154

12.3.2/1 Les mises en relation incorrectes 154 12.3.2/2 Les isolats 155

12.3.3. Examen des résultats en fonction de leur valeur in- formative 158

12.4. Valeur des opérations de condensation et de raccordement . 159

Conclusion 161

Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

TABLE DES ANNEXES

Pages

ANNEXE 1 : Catégories grammaticales 167

ANNEXE 2 : Codes morphologiques des catégories variables (autres que le verbe) 169

ANNEXE 3 : Codes morphologiques des verbes 172

ANNEXE 4 : Reconnaissance des groupes de mots (GpM) 175

ANNEXE 5 : Résolution des polysémies type "2" : homographies substantif-verbe (N.V) et substantif-participe présent (N.T.) 176

ANNEXE 6 : Résolution des polysémies type "2" : homographies adjectif-verbe (A.V.) 177

ANNEXE 7 : Résolution des polysémies type "2" : homographies substantif-adjectif (N.A.) et substantif-verbe- adjectif, (N.V.A.) 178

ANNEXE 8 : Résolution des polysémies type "2" : homographies substantif-participe passé (N.B.) 179

ANNEXE 9 : Résolution des polysémies type "4" : analyse syntaxique 180

ANNEXE 10 : Echantillon du dictionnaire automatique 181

ANNEXE Il : Echantillon du lexique . 184

ANNEXE 12 : Echantillon des règles d'analyse syntaxique 187 ANNEXE 13 : Liste des mots outils 193

ANNEXE 14 : Schémas consécutifs (exemples) 198

ANNEXE 15 : Schémas comparatifs (exemples) 201

ANNEXE 16 : Table des coordonnés et des suppléants . . . . . . . . . . 204

Pages

ANNEXE 17 : Recherche des coordonnés et des suppléants . . . . . . . 207

ANNEXE 18 : Règles associatives 208 ANNEXE 19 : Echantillon du réseau notionnel 210

ANNEXE 20 : Echantillon du listing de la sortie lexicale 213

ANNEXE 21 : Echantillon d'analyse syntaxique 225

21-A : Texte soumis à l'analyse syntaxique 226 21-B : Résultat intermédiaire 234 21-C : Résultat final de l'analyse syntaxique . . . . . . . . . . . . 240

PRÉFACE

On voit paraître de temps en temps, sous couvert de recherches sur les techniques documentaires, des ouvrages d'une allure un peu ésotérique, dont le sens le plus riche n'est pas nécessairement celui qui se donne le plus immédiatement. Tel est selon nous le cas du livre rédigé par Andrée Borillo et Jacques Virbel, au terme d'une étude de trois ans menée conjoin- tement avec Nathalie Bely et Nelly Siot-Decauville, au Laboratoire d'Auto- matique Documentaire et Linguistique du Centre National de la Recherche Scientifique. L'objet de cette étude semblait pourtant simple, et bien dé- fini : il s'agissait de trouver une démarche relativement générale pour mé- caniser l'analyse des textes scientifiques, telle que la pratiquent les documentalistes sous des noms divers (indexation, classification, catégorisation, etc.). La mécanisation de l'indexation — pour nous en tenir à cette appellation désormais bien acquise — a un intérêt d'abord pratique : des dizaines de milliers de spécialistes consacrent une part notable de leur temps à exprimer le contenu de documents scientifiques toujours plus nombreux, en vue de faciliter les recherches rétrospectives ultérieures ; le recrutement et la formation d'analystes compétents, pour cette tâche, sont de plus en plus difficiles, et il est naturel que l 'on cherche à contourner l'obstacle, ici comme ailleurs, par la mécanisation de celle-ci. Le mérite premier de l'étude qui suit est d'apporter des indications enfin précises sur le coût de cette solution, si c'en est une. Entendons-nous, en effet : nos auteurs n 'entendent pas vanter les avantages de l'indexation automatique par rapport aux méthodes d'analyse traditionnelles, ou comme on dit "manuelles" ; leur propos est seulement de montrer le genre d'outils qu'il faut fournir à la machine pour qu'elle puisse analyser elle-même le contenu de textes scientifiques donnés, dans des termes comparables à ceux qu'auraient pu préconiser des inter- prètes humains.

Par outils, il faut entendre évidemment des outils de calcul, au sens large du mot, et plus précisément, dans le cas qui nous occupe, un ensemble ordonné de règles assurant le passage automatique d'un texte écrit dans une

langue naturelle - en l'occurence, le français - à une représentation de ce texte qui soit censée en exprimer le sens, du point de vue largement intuitif où se placent habituellement les documentalistes. On ne saurait être surpris de la complexité relative des règles en question, telles qu'elles sont illustrées par l'expérience d'indexation automatique dont ce livre est le compte rendu : l'analyse sémantique d'un texte scientifique, fût-il déjà résumé, est une opé- ration éminemment intelligente, qui exige une double compétence, sur le plan de la langue tout d'abord, mais aussi sur le plan de la pensée scientifique elle-même, puisqu'enfin l'on n'attend plus aujourd'hui d 'un documen- taliste omniscient qu'il soit capable de dégager indifféremment le sens d'un article de physique théorique ou de sociologie. La machine doit être ins- truite de la même manière dans ces deux ordres de compétence ; et l'on trouvera dans les pages qui suivent une bonne mesure de ce qu'il en coûte, sous forme de ce que les auteurs appellent judicieusement l'"investissement intellectuel" nécessaire : construction de dictionnaires et réseaux sé-

mantiques spécialisés, exprimant une certaine organisation de la connaissance scientifique dans un domaine particulier, élaboration de grammaires ad hoc, assurant une relative normalisation du discours sur le plan du lexique et de la grammaire, établissement de programmes permettant la mise en œuvre de ces outils logico-linguistiques par une machine, telles sont les tâches initiales que présuppose l'indexation mécanique, dès lors qu 'on attend d'elle des résultats comparables à ceux d'une analyse conduite par des cerveaux humains.

Quant à la rentabilité de cet investissement, elle est à son tour illustrée par les temps de calcul observés au cours de l'expérience, sur un nombre suffisamment élevé de résumés scientifiques — un millier environ — pour fournir au moins un ordre de grandeur des coûts, en termes d'argent cette fois. Dès maintenant, il apparaît que l 'automatisation de l'analyse documentaire est une entreprise justifiée, du point de vue économique, sans que l 'on ait à transiger sur la qualité finale du produit ; et tout porte à croire que la balance ne cessera de pencher davantage en faveur de cette option, à mesure que le coût des machines baissera par rapport à celui du travail humain. Mais la décision, sur ce point, relève d'une politique à long terme de l 'information scientifique, qui dépasse l'objet d'une étude théorique.

Théorique, cette étude l'est en effet par la nature des problèmes qu'elle pose, au moins de façon implicite, au-delà de son objectif appliqué immé- diat. L'un d'eux est évoqué au début du livre : c'est celui de la généralité du modèle utilisé pour définir le langage-cible de l'indexation, à savoir ici le SYNTOL, déjà décrit dans un ouvrage de la présente collection. La thèse des auteurs, selon laquelle la plupart des "langages documentaires" exis- tants peuvent être décrits ou traduits dans le formalisme binaire du SYNTOL, sans perte d'informations notable, mériterait à elle seule une étude parti- culière. Non qu'elle nous semble fragile : bien au contraire, elle se trouve

plutôt renforcée par l'apparition d'études récentes, notamment en U.R.S.S. et aux Etats-Unis, où les langages d'information proposés, sous des noms divers, présentent des caractéristiques formelles tout-à-fait comparables à celles du SYNTOL, tant sur le plan de l'organisation sémantique (ex. : les "data bases", reductibles — et parfois déjà réduites, par leurs auteurs même — à des réseaux de relations binaires), que sur le plan de l'expression syntaxique proprement dite, d'où le SYNTOL tire son nom. Nous avons déjà eu l'occasion de signaler ce fait en présentant la seconde édition du livre consa- cré au SYNTOL, il y a deux ans ; bornons-nous à en marquer une fois encore l'importance, dans la perspective nouvelle de l 'indexation mécanique. En effet, s'il était établi que les langages-cible de cette opération font appel à des modes d'expression fondamentalement voisins, au-delà des différences de vocabulaire, et que ces modes d'expression entrent eux-mêmes sans peine dans les schémas binaires du SYNTOL, la démarche décrite dans les pages qui suivent trouverait du même coup un champ d'application extrêmement éten- du, au moins pour ce qui concerne l'analyse de textes scientifiques rédigés (ou résumés) en français.

Un malentendu risque cependant de se répandre à ce sujet. La conver- gence des langages documentaires, sur le plan des structures logiques mises en œuvre, conduit certains auteurs à voir en eux autant de modèles appro- chés d'un hypothétique "langage (unique) de la science", débarrassé des impropriétés que manifestent les langues naturelles au regard des impératifs du discours scientifique. Et l'on croit trouver une confirmation de cette thèse dans le fait que les énoncés du langage documentaire se prêtent parfois à des calculs qui rappellent ceux de la logique propositionnelle : dé- tection de tautologies ou de contradictions, déductions, implications, etc. De là à suggérer que l'analyse sémantique des textes scientifiques est par conséquent une activité de recherche, et non de documentation, il n'y a malheureusement qu'un pas ; on saura gré aux auteurs du présent ouvrage de n'avoir à aucun moment pu laisser entendre qu'ils l'avaient franchi, alors même qu'ils exposaient des procédures apparentées a celles de Inintelligence artificielle", comme il est aujourd'hui d'usage de les nommer (voir par exemple § 10). Mais la question n'en demeure pas moins fondée, du moins en théorie : au fur et à mesure que le langage-cible de l 'indexation tend à prendre des formes justiciables d'un "calcul sémantique" - l'expression est de plus en plus fréquente dans la littérature de l'informatique documentaire — l'algorithme d'analyse (du langage naturel au langage d'indexation) tend lui- même à devenir un outil de raisonnement que l'on peut manipuler à des fins autres que celles de la recherche rétrospective d'informations, stricto sensu.

En pratique, et s'agissant de disciplines où le langage scientifique est solidement fondé, cette éventualité n'est qu'une vue de l'esprit : nous n'en sommes pas encore arrivés au moment où les outils syntaxiques et séman-

tiques de l'analyse documentaire, en physique ou en astronomie, pourraient conduire à des découvertes dont le langage propre de ces sciences, haute- ment formalisé, n'aurait pas été déjà p o r t e u r . . . La situation n'est pas la même, néanmoins, dans certains domaines de recherche apparentés à ce que l 'on est convenu d'appeler les sciences de l'homme. Là, en effet, les exi- gences logiques de l'analyse automatique du langage spécialisé en arrivent à révéler des inconséquences, sinon des modèles cachés, dont les spécia- listes eux-mêmes commencent à reconnaître l'utilité, du point de vue de la connaissance scientifique, et non plus seulement documentaire de leur champ. Les applications de l 'informatique au traitement de la documentation médicale ou juridique, par exemple, ont parfois des conséquences théoriques de cet ordre ; et le lecteur curieux de ces incidences pourra s'en faire une idée assez bonne, ici même, en essayant d'imaginer la forme et le contenu qu'auraient dû revêtir les outils de l'indexation mécanique, tels qu'ils sont définis plus loin, si les textes considérés avaient été tirés de la sociologie, par exemple, et non de la physiologie.

Cet exercice ne serait d'ailleurs pas purement spéculatif : notre lecteur aurait en effet à sa disposition un nombre déjà notable de "dictionnaires" conceptuels établis dans des circonstances assez voisines, à savoir comme outils d'une analyse automatique de textes très divers, intéressant le sociologue, le psychanalyste, l 'anthropologue, etc. Les plus connus, sinon les plus élaborés, sont ceux que l'on associe généralement au système de programmation construit sous la direction de Philip Stone, à l'Université de Harvard, sous le nom de "General Inquirer". Le but de ce système est, comme ici, la mécanisation de l'analyse sémantique visant des textes écrits dans une langue naturelle, en l'occurence, l'anglais ; et les moyens employés sont largement les mêmes, à savoir un langage-cible d'indexation possédant son lexique et sa grammaire propres. On définit l'analyse mécanique, à nouveau, comme l'application de règles logico-linguistiques établissant les correspondances voulues entre la langue naturelle d'entrée et ce langage artificiel de sortie. Dans l 'état présent du General Inquirer, cependant, ce calcul consiste pour l'essentiel en des consultations de table visant la seule "phase lexicale" de l'indexation, selon la terminologie adoptée dans les pages qui suivent : la machine remplace les mots du texte par les descripteurs équivalents indiqués dans tel ou tel dictionnaire ad hoc. Les opé- rations plus raisonnées qu'impliquent la résolution des polysémies et, plus encore, l 'attribution des fonctions logiques dans la phase syntaxique de l'analyse, sont laissées pour le moment à la diligence de "pré-éditeurs" ou de "post-éditeurs", dont le rôle demeure prépondérant.

Ces différences, autant que l'analogie de la visée, donnent plus de relief encore à l'exercice de nos quatre auteurs : l'invention de règles ca- pables d'assurer sans faillir - ou sans beaucoup faillir - l 'interprétation automatique de termes homographiques ou la construction mécanique de

graphes syntaxiques même rudimentaires, comme le sont ceux du langage- cible dans l'expérience relatée plus loin, était déjà un projet bien ambitieux ; Andrée Borillo et Jacques Virbel ont su lui trouver un aboutissement qui fera date, même si l 'on ne retient pas à l'avenir tous les tours de leur dé- marche. L'intégration de ces règles en un algorithme d'analyse déjà remar- quablement efficace, malgré les limites avouées d'un programme tourné vers l'expérimentation plus que vers la performance, est un accomplissement non moins méritoire, dû à la science de Nathalie Bely et de Nelly Siot-Decauville en matière d'informatique non-numérique. Aussi devrait-on souhaiter qu'un tel travail ait maintenant des suites, dans l'une ou l'autre des directions qui viennent d'être suggérées : applications concrètes dans le domaine de la documentation automatique, études comparatives des langages-cible de l'analyse documentaire sur le plan sémantique et syntaxique, relations entre ce genre d'analyse et celle que pratiquent les exégètes de textes de toutes sortes dans les sciences de l 'homme (articles de presse, biographies, contes populaires, mythes, etc.), lorsqu'ils cherchent de la même manière à objec- tiver les opérations sous-jacentes, pour les besoins de la mécanisation, si ce n'est pour d'autres raisons plus sérieuses, etc.

Les prolongements possibles ne manquent pas, on le voit ; il en .est un que nous avons délibérément gardé pour la fin de cette courte présen- tation, cependant, parce qu'il est à nos yeux le plus évident, et sans doute aussi le plus fécond. Tout lecteur averti des progrès de l'analyse linguistique, dans les dernières décennies, devinera certaines parentés entre le projet appliqué qui fait la matière de ce livre et les recherches théoriques de la linguistique formelle, notamment dans le domaine de l'analyse syntaxique. On sait en effet qu 'un des objectif de celle-ci est de définir des suites d'opérations — un calcul, par conséquent — permettant de reconnaître ou d'engendrer des propositions tenues pour équivalentes, à certaines nuances près, sur le plan des structures logiques profondes. Sans entrer ici dans les discussions toujours ouvertes concernant les frontières que l'on croit alors devoir affirmer, ou au contraire nier, entre syntaxe et sémantique, analyse de la langue et analyse de la pensée, etc., bornons-nous à souligner le pa- rallélisme apparent entre cet objectif de l'analyse transformationnelle, en linguistique, et le but de l'analyse documentaire elle-même. Non qu'il soit raisonnable de considérer celle-ci comme une variante de celle-là : la vérité,

plutôt, est que les macro-mécanismes de l'analyse documentaire, tels qu'ils sont posés dans le présent ouvrage, sont des sortes de "court-circuits" d'une analyse plus fine du discours, au sens où l 'entendent les transformationalistes (Z.S. Harris et ses épigones aux Etats-Unis, Maurice Gross en France, etc.). Il n'est pas dit cependant que les premiers ne puissent aider au progrès de la seconde, en raison même de cette relative parenté des visées ; les travaux de linguistes comme I. Mel'Chuk et I. Jolkovski, en U.R.S.S., le suggèrent en tout cas fortement, tant le concept de (méta) langage-cible y joue un rôle

essentiel, dans l'expression des structures "syntactico-sémantiques" sous- jacentes aux formes d'expression plus diverses des langues naturelles. La double étiquette du Laboratoire d'Automatique Documentaire et Linguis- tique, où les recherches ci-dessous ont pu naître — avec l'appui décisif, en son temps, de la Délégation Générale à la Recherche Scientifique et Tech- nique — laisse bien augurer de cette interaction nécessaire entre modèles théoriques et systèmes appliqués, dans l'analyse automatique des textes scientifiques.

J.C. Gardin

PREMIÈRE PARTIE

CADRE MÉTHODOLOGIQUE

1. FONDEMENTS DE LA RECHERCHE *

Toute allusion aux machines à propos de travaux de documentation évoque le plus souvent, aujourd'hui encore, le jeu connu des questions et des réponses, où l'on demande à l'ordinateur de fournir des listes de réfé- rences bibliographiques relatives à un thème de recherche donné. Une variante également populaire de ce type d'application est la fabrication mé- canique d'index et de concordances, dans laquelle chaque entrée des tables produites par l'ordinateur correspond formellement à une "question", dans le jeu précédent. Deux écoles s'opposent, en ce qui concerne la nature des données qu'il convient de traiter dans ces deux cas : soit les textes scientifiques eux-mêmes (intégraux ou résumés) dans leur formulation originale, c'est-à-dire dans une langue dite "naturelle" (symbole LN : l'anglais, le chinois, le français, etc.), soit au contraire certaines représentations conven- tionnelles de ces textes, exprimées dans les termes et selon les règles d'un langage artificiel, diversement appelé "langage documentaire" en français (symbole LD), "information retrieval language" en anglais (symbole IRL), "informationnyj Jazyk" en russe (symbole IJa), etc. Ce n'est pas ici le lieu de reprendre les arguments contradictoires propres à chaque école ; bornons- nous à marquer notre ralliement à la seconde(l), d'où découle le sujet de cette étude.

En effet, si l'on admet qu'il est généralement profitable de substituer aux énoncés en langue naturelle diverses représentations symboliques for- mées dans un langage documentaire ad hoc, pour les besoins de l'exploitation ultérieure, le problème se pose de la mécanisation de cette transformation elle-même, dans la chaîne des opérations successives de la documentation. C'est dans ce sens qu'il faut comprendre l'expression "indexation

(*) Les indications qui suivent sont tirées d'un article récent, qui résume l'orientation mé- thodologique de l'étude, et son état d'avancement au début de 1967 : J.C. GARDIN, Recherches sur l'indexation automatique, Revue Française d'Informatique et de Re- cherche Opérationnelle, le année, n° 6, nov.-déc. 1967, pp. 27-46.

(1) Voir sur ce sujet R.C. CROS, J.C. GARDIN, F. LÉVY, L'automatisation des recherches documentaires, un modèle général : le SYNTOL, Paris, Gauthier-Villars, 1964, pp. 26-31.

automatique" dans le titre de cet ouvrage : l'indexation est en effet le nom que l'on donne à la transformation en question, chez les documentalistes, quelle que soit la nature du langage documentaire visé. Souvent, celui-ci se réduit à une classification de type traditionnel (ex. : la Classification Décimale Universelle) ; l'indexation consiste alors à trouver ou à composer le mot-vedette qui est censé traduire le mieux le sujet principal dont traite chaque document. Dans les langages documentaires plus évolués, cependant, cette caractérisation sémantique fait appel non plus à un mot-vedette unique — fût-il composé — mais à un nombre libre de termes dont les combinaisons expriment d'une manière à la fois plus riche et plus souple le contenu dé- taillé des documents ; l'indexation est dite alors de type combinatoire, ou "coordonné" (de l'anglais "coordinate indexing"). Dans les deux cas, on voit que les opérations intellectuelles mises en jeu sont en gros de deux types : la condensation tout d'abord, qui aboutit à la représentation d'énon- cés souvent fort longs (à la limite des ouvrages entiers) au moyen d'un nombre restreint de notions ; et une sorte de traduction d'autre part, par où l'on passe des expressions multiformes (et notamment, multilingues) de la littérature scientifique aux expressions normalisées du langage documentaire. Ces deux types de processus sont en général étroitement mêlés dans toute indexation ; par ailleurs, si l'on peut espérer que le second manifeste un nombre suffisant de régularités pour se prêter à une algorithmisation —au même titre que la traduction automatique d'une langue naturelle vers une autre— il n'en va pas de même du premier, où l'on ne décèle guère d'uniformité, en pratique, entre les différents résumés relatifs au même document(2). Il paraît donc sage d'essayer de séparer les deux problèmes, pour autant qu'on le puisse, et de traiter d'abord le plus simple, à savoir celui de la traduction du langage naturel au langage documentaire, sans autre condensation que celle qui peut résulter de cette transformation même.

Une manière commode d'y parvenir consiste à n'envisager que le cas de l'indexation conduite à partir de textes déjà résumés ; on étudie alors les règles nécessaires pour passer du résumé écrit dans une langue-source donnée (le français, l'anglais, etc.) à sa représentation dans une langue-cible également spécifique (une "classification", une liste alphabétique de "descripteurs", etc.) construite pour les besoins de l'analyse de contenu. Une question vient cependant à l'esprit : dans quelle mesure ces règles peuvent- elles être générales, alors que les langues naturelles à considérer sont multiples, et que les langages documentaires en usage manifestent eux-mêmes la plus grande diversité ? On sait en effet qu'à l'intérieur même d'une discipline ou d'un domaine donné — par exemple, la chimie moléculaire, l'in-

(2) Les produits que l'on appelle "résumés automatiques" ne résolvent nullement le pro- blème, dans la mesure où ils n'ont en fait aucun rapport avec de véritables résumés scientifiques : ce sont des suites de phrases, extraites du texte original en vertu de critères statistiques, où l'on a de la peine à reconnaître les articulations d'un "abstract" raisonné.

dustrie du pétrole, etc. — il n'existe guère de normes universellement ad- mises quant à la manière d'exprimer le contenu des textes scientifiques et techniques : la plupart des centres de documentation utilisant des langages d'indexation qui leur sont propres, et qu'ils ont chacun des raisons de préférer aux langages de leurs voisins, eu égard à leurs objectifs ou à leurs moyens particuliers (nature des recherches documentaires, niveau de fi- nesse de l'analyse, équipements disponibles, etc.). Dans ces conditions, la mécanisation de l'indexation ne risque-t-elle pas de se réduire à l'établisse- ment d'une multitude de "dictionnaires automatiques", issus chacun de l'étude des correspondances entre une langue naturelle et un langage documentaire particuliers, et applicables par conséquent au seul champ de ces correspondances locales ?

A cette question légitime, il existe deux réponses. La première est que la diversité des langages d'indexation est souvent une affaire de forme : lorsque les domaines scientifiques visés se recoupent à quelque degré que ce soit, les mêmes notions, les mêmes entités se retrouvent d'un langage à l'autre, en plus ou moins grand nombre, les seules différences touchant à la désignation de ces éléments (ici des mots en clair, dont le choix peut être influencé par des usages d'école, des habitudes de métier, etc. ; ailleurs des termes abrégés, des symboles numériques, etc.), e t /ou à leur organisation sous forme de classifications ou de réseaux sémantiques particuliers. Or, ni la terminologie ni l'ordre adoptés pour présenter les concepts pris en compte dans un langage d'indexation quelconque n 'ont d'influence sur le sens indi- viduel de ces concepts ; de sorte qu'il est possible d'établir des correspondances d'un langage à l'autre, au-delà de ces différences de structure et de dénomination. Tel est le but des études dites de "compatibilité" ou de "convertibilité" qui se multiplient depuis quelques années, à propos des outils linguistiques de la documentation (lexique, thesaurus, etc.)(3) ; leur intérêt, pour le problème qui nous occupe, tient au principe même de la conversion possible, laquelle rend à certains égards secondaire le choix que l'on fait de tel ou tel langage-cible particulier, pour étudier les démarches de l'indexation automatique.

La seconde réponse à la question posée plus haut tient au caractère fini et relativement monotone des types de difficultés observées dans ces démarches, quelles que soient les langues considérées. Dans tous les cas, il s'agit de résoudre des problèmes de même nature, d 'un point de vue formel, bien qu'incarnés dans des manifestations linguistiques différentes : ainsi de la traduction des symboles homographiques (polysémie), de l'in- terprétation de termes ou de tournures implicites (pronoms, ellipses etc.) ; de l'analyse des faits syntaxiques, etc. On peut dès lors supposer que les

(3) Voir par exemple Information Systems Compatibility, ed. S.M. NEWMAN, New-York et Londres, Spartan Books-Macmillan, 1965.

p r o c é d u r e s é l aborées à p r o p o s d ' u n coup le de langues pa r t i cu l i e r se ron t

ut i l i sables p o u r d ' au t r e s , au p r ix de r e m a n i e m e n t s l o c a u x ; la t r a d u c t i o n au-

t o m a t i q u e , dans la m e s u r e o ù elle t e n d à deveni r u n d o m a i n e de r e c h e r c h e s

m é t h o d o l o g i q u e s h o m o g è n e , p r o c è d e e l le -même d ' u n e h y p o t h è s e ana logue .

L ' a r g u m e n t a t i o n qu i p r é c è d e jus t i f i e le p ro j e t d ' u n e m é t h o d o l o g i e gé-

néra le d e l ' i n d e x a t i o n a u t o m a t i q u e , é t u d i é e à t ravers u n cas pa r t i cu l i e r ju- d i c i e u s e m e n t choisi — les t e r m e s de ce cho ix c o n c e r n a n t :

a) d ' u n e pa r t , le co rpus , c 'es t-à-dire l ' ensemble de t e x t e s soumis a u x

p r o c é d u r e s e x p é r i m e n t a l e s d ' i n d e x a t i o n : ces t e x t e s d e v r o n t ê t re des résu-

més, p o u r les ra i sons i nd iquées plus h a u t , e t leur r é d a c t i o n devra faire

appe l à u n e phraséo log ie na tu re l l e , d a n s une langue s u f f i s a m m e n t r é p a n d u e

p o u r q u e la m é c a n i s a t i o n de l ' ana lyse ait u n e u t i l i t é p r a t i q u e ;

b) d ' a u t r e pa r t , le langage d o c u m e n t a i r e , c 'es t-à-dire l ' e n s e m b l e des

t e r m e s e t des règles ut i l isés p o u r t r a d u i r e le c o n t e n u des t e x t e s p r é c é d e n t s :

ce langage à son t o u r devra se r a p p r o c h e r d ' u n e so r te de m o d è l e des lan-

gages d o c u m e n t a i r e s les p lus c o u r a n t s , a u x f ins de la généra l i té poursuiv ie .

2. PARAMÈTRES EXPÉRIMENTAUX

2.1. LE LANGAGE-CIBLE

2.1.1. L'option principale, dans l'indexation automatique telle qu'elle vient d'être définie, concerne évidemment le langage d'indexation lui-même, qui constitue le langage-cible de l'opération. La composante essentielle de tout langage de ce genre est une liste de termes conventionnels, choisis pour désigner les notions ou entités que l'on se propose de signaler dans l'analyse des documents relevant d'un domaine ou d'une discipline quelconque. Ces termes sont couramment appelés "descripteurs" ; et nous nommerons par ailleurs "lexique" (lexique documentaire) tout ensemble de descripteurs définis pour une application documentaire particulière. Ainsi, l'ensemble des mots-vedette d'un fichier-matière, l'ensemble des rubriques d'une classification, etc., constituent autant de "lexiques documentaires" ; de même, l'ensemble des termes d'indexation dont les combinaisons servent à représenter plus finement le contenu des documents dans les langages de type "coor- donné" que l'on évoquait plus haut. Ces derniers se prêtent particulièrement bien aux manipulations sur machines, pour les besoins de la recherche documentaire, de sorte que l'on est tenté de les considérer comme le modèle par excellence des langages d'indexation dans la perspective de l'automatisation. Nous avons donc choisi nous-même un lexique de descripteurs libre- ment combinables les uns avec les autres, comme première composante du langage-cible de l'indexation mécanique.

2.1.2. Les combinaisons libres de descripteurs ont cependant le défaut d'être quelquefois ambiguës : une expression formée de deux termes "poissons" et "alimentation", par exemple, peut signifier indifféremment "alimentation des poissons" ou "alimentation à base de poissons", etc. Le problème de ces équivoques a donné lieu à d'innombrables débats, qui se réduisent pourtant à deux questions simples : a) l'une sur la mesure des inconvénients

réels de telles ambiguïtés, dans un système documentaire concret ; b) l 'autre sur la nature des procédés syntaxiques les plus efficaces pour limiter ou pour supprimer les équivoques de ce genre, s'il est nécessaire. Il est évidemment sot de prétendre apporter une réponse générale à la première question : certains systèmes documentaires peuvent s'accommoder sans dommage de quelques ambiguïtés syntaxiques, en même temps que d'autres se voient au contraire obligés de les résoudre, pour des raisons également pratiques dans les deux cas. Quant à la nature de la solution dans cette dernière hypo- thèse, elle varie elle-même selon les circonstances de l 'exploitation : structure plus ou moins rigide du domaine de référence, organisation "normale" ou "inversée" des données en mémoire, etc. En revanche, on démontre que les divers procédés d'expression syntaxique utilisés dans les langages documentaires (opérateurs fonctionnels ou "indicateurs de rôle" associés à chaque descripteur, indices de liaison ou "liens" associés à des n-uplets de descripteurs, etc.) sont généralement convertibles les uns aux autres, et qu'il est commode de les réduire à un "format" unique du type suivant : (R,., a, b ) , où a et b désignent deux descripteurs, R l'existence d'une relation syntaxique entre des deux termes, et l'indice i une interprétation particulière de cette relation (ex. : 1, causalité, a est un agent de l 'événement b ; 2, finalité, a est la destination de b, etc.). Dès lors, on pourra caractériser les différents langages documentaires, du point de vue de leur "grammaire" , par le nombre et le sens des valeurs possibles de i :

i = 0, langages sans syntaxe ;

i = 1, langages indiquant seulement la présence de relations syntaxiques non spécifiées (ex. : le procédé dit "interfix", etc.) ;

i = 2, 3, . . . n, langages prévoyant une différenciation des liaisons syntaxiques en 2, 3, . . . n catégories.

Dans ce dernier cas, les catégories de relations sont en nombre fini : il n'existe pas une quantité illimitée de relations logiques possibles entre deux termes, et l 'on peut songer à dresser un inventaire de celles qui fi- gurent dans les langages documentaires actuels, sous quelque forme d'expression que ce soit. Les premiers essais dans ce sens ont montré qu'il était en outre possible de présenter l'inventaire à la manière d 'un arbre, la plupart des relations observées manifestant un lien hiérarchique par rapport à telle ou telle autre (ex. : les relations "agent-action" et "action-objet" sont deux modalités parmi d'autres d'une relation que l 'on peut appeler "qualificative", d'ordre statique, laquelle s'oppose aux relations dynamiques, "agent-objet", "facteur-produit", etc.)(4). Dès lors, la convertibilité d'une grammaire à une autre, dans les langages documentaires, prend un sens très

(4) On trouvera un exemple d'arbre de relations syntaxiques (au nombre de 10), dans : F. ALOUCHE, N. BELY, R.C. CROS, J.C. GARDIN, F. LÉVY, J. PERRIAULT, Economie géné- rale d'une chaîne documentaire mécanisée, Paris, Gauthier-Villars, 1967, p. 87.

précis : elle équivaut à un changement de niveaux dans l'arbre des différen- ciations syntaxiques possibles, tel qu 'on vient de l'envisager<5).

On a donc profit à utiliser une grammaire correspondant à l'un des niveaux ainsi définis, de manière à réserver d'éventuelles conversions vers des représentations syntaxiques plus fines ou plus grossières. Pour les besoins de l'étude, nous avons choisi, un peu arbitrairement, un niveau qui nous semblait en quelque sorte "moyen" , compte tenu des pratiques ou des opinions courantes, à savoir une syntaxe limitée à trois relations :

— rapports d'ordre formel ou extrinsèque, n'impliquant aucune liaison logique ou physique entre les entités visées.

Ex. : a à gauche de b, a identique à b, action comparée de a et de b sur . . . , etc.

Cette relation est appelée coordinative dans son acception la plus large, comparative dans une interprétation plus spécifique, etc.

— R2 liaisons données comme intrinsèques entre deux entités, dans l'ordre statique (par opposition aux liaisons dynamiques, sous

R3).

Ex. : relations élément-propriété (ou état), agent-action, action-objet, action- but, élément-symbole, etc.

Cette relation est nommée associative.

- R3 relations d'ordre dynamique entre deux entités, impliquant un développement dans le temps.

Ex. : relations agent-objet, variable indépendante-variable dépendante, facteur- produit, etc.

Cette relation est dite consécutive, en raison de cette référence néces- saire au temps qui la distingue des précédentes.

Le schéma ci-dessous est une manière d'indiquer les liens entre ces trois relations ; il serait facile de le développer (vers le bas) pour rendre compte de syntaxes plus riche (voir note 4), ou au contraire de le condenser (vers le haut) pour se ramener par exemple aux langages documentaires à une seule relation, R0.

(5) Ces changements de niveau ou changements d'états syntaxiques peuvent être opérés mécaniquement, des états les plus riches vers ceux qui le sont moins, voir par exemple R.C. CROS, J.C. GARDIN, F. LÉVY, L'automatisation des recherches documentaires, un modèle général : le SYNTOL, Paris, Gauthier-Villars, 1964, pp. 109-112.

(*) Pour des raisons qui tiennent à l'historique du projet, cette relation est désignée par le symbole R4 sur les états-machine, figurant en annexe, et l'on a conservé ce symbole dans les développements suivants.

procÉdures documentation scientifique

Documents