journée de l'innovation collaborative
DESCRIPTION
Journée de l'Innovation Collaborative. 28 mars 2013. Dominique LAURENT. SYNAPSE Développement. Analyse sémantique textuelle. Analyse sémantique textuelle. Plan Analyse sémantique profonde. Les noms communs Analyse sémantique profonde. Les noms propres Question-Réponse - PowerPoint PPT PresentationTRANSCRIPT
Journée de l'Innovation Collaborative28 mars 2013
Dominique LAURENT
SYNAPSE Développement
Analyse sémantique textuelle
Dominique LAURENT
Analyse sémantique textuelle
2
Plan1. Analyse sémantique profonde. Les noms communs
2. Analyse sémantique profonde. Les noms propres
3. Question-Réponse
4. Analyse d’opinion et de sentiments
5. Extraction de connaissances
Dominique LAURENT
Ressources
L’analyse s’appuie sur
Plus de 300 000 lemmes de noms communs
Plus de 800 000 lemmes de noms propres
Une base grammaticale et sémantique de plus de 1 460 000 informations
Une taxonomie sur 180 000 mots et expressions
Exemple d’analyse sur une phrase du Monde (article sur Chypre,19 mars 2013)
« Le plan de sauvetage de Chypre, conclu samedi à Bruxelles, est conditionné par l'instauration d'une taxe sur les dépôts bancaires. »
Analyse syntaxico-sémantique
3
Dominique LAURENT
Désambiguïsation sémantique
L’analyseur gère:
Plus de 25 000 sens pour environ 9000 mots polysémiques en français,
Près de 15 000 sens pour environ 6000 mots polysémiques en anglais
Plus de 120 000 expressions (nominales, verbales, adverbiales)
Anaphores
L’analyseur gère:
Les anaphores pronominales (personnels, possessifs, démonstratifs),
Les anaphores adjectivales (possessifs, démonstratifs),
En anglais et en français.
Une analyse sémantique en profondeur
4
Correction grammaticale Taux de bonne suggestion en unique proposition de plus
de 90% en correction orthographique,
Taux de correction grammaticale supérieur à 85% (60% à 70% en correction automatique)
Fréquences d’usage Pour l’ensemble des mots et expressions
Taxonomie Sur 4 niveaux
3387 feuilles au niveau 4
Plus de 200 000 mots et expressions classifiés en 4 langues : français, anglais, espagnol, portugais
Correspondance multilingue des traductions selon la classe de l’ontologie
Dominique LAURENT
Mots-clés et concepts-clés (textes du Figaro sur Chypre, 18-19 mars 2013)
5
Extraction de mots-clés : Extraction de concepts-clés :
Dominique LAURENT
Analyse sémantique textuelle
6
Plan1. Analyse sémantique profonde. Les noms communs
2. Analyse sémantique profonde. Les noms propres
3. Question-Réponse
4. Analyse d’opinion et de sentiments
5. Extraction de connaissances
Dominique LAURENT
Extraction d’entités nommées
7
Dominique LAURENT
Siglaison
Les sigles peuvent s’écrire :
En capitales (UE)
En capitales avec points abréviatifs (U.E.)
En capitales avec points abréviatifs et espaces (U. E.)
En toutes lettres (Union Européenne)
Équivalents dans d’autres langues (EU, etc.)
Anaphores « Le cas de Chypre et de son secteur bancaire est
unique » (Le Figaro, 18/3/2013)
« L’actuel premier ministre luxembourgeois, n'a quant à lui pas caché ses réserves vis-à-vis d'un plan qu'il juge lacunaire. » (Le Monde, 19/3/2013)
Normalisation des entités nommées
8
Appellations
Le président chypriote est :
Nicos Anastasiades,
Anastasiades
Nicos
Le président chypriote
Le président de la République chypriote…
Désambiguïsation et métaphores La France
Paris
L’Élysée
Le gouvernement français
François Hollande
Dominique LAURENT
Comparaison sur la crise de Chypre (textes des 18 et 19 mars 2013)
9
Le Figaro + Le Monde La Tribune de Genève
Chypre + gouvernement chypriote + Nicosie + Nicos Anastasiades + Anastasiades + Chypriotes
22227,1
%
Chypre + Nicosie + gouvernement chypriote + Nicos Anastasiades + Chypriotes
5531,3
%
Europe + Union européenne + Bruxelles 51 6,2% Banque centrale européenne + BCE 14 8,0%
Banque centrale européenne + BCE 42 5,1% Russie + Moscou + Kremlin + Vladimir Poutine 13 7,4%
Russie + Moscou + Kremlin + Vladimir Poutine + Dmitri Medvedev + Medvedev + Russes
34 4,2% Union européenne + Europe
12 6,8%
Berlin + Allemagne + Angela Merkel + Wolfgang Schäuble30 3,7%
FMI + Fonds monétaire International + Christine Lagarde
11 6,3%
FMI + Fonds monétaire International 22 2,7% Berlin + Allemagne 7 4,0%
Paris + France + Élysée + Pierre Moscovici + François Hollande
21 2,6% Suisse + Genève
4 2,3%
Eurogroupe 17 2,1% Christos Theodoulou + Theodoulou 4 2,3%
The Guardian New York Times
Cyprus + Nicosia + Cypriots + Cypriot government + Anastasiades + Nico Anastasiades + Nicos
14732,0
%
Cyprus + Cypriots + Nicosia + Cypriot government + Nicos Anastasiades + Anastasiades
12631,5
%
Russia + Russian + Moscow + Soviet + Vladimir Putin + Putin + Dmitry Medvedev
6113,3
%
Europe + European + European Union + European Commission + E.U. + EU + Bruxelles
7518,8
%
EU + European + European Union + European Commission38 8,3%
Russia + Russians + Kremlin + Moscow + Vladimir Putin
35 8,8%
British + UK + Britain + England + English + London 13 2,8% Germany + German + Berlin + Angela Merkel 18 4,5%
German + Berlin + Wolfgang Schaeuble12 2,6%
International Monetary Fund + I.M.F. + Christine Lagarde + Lagarde
14 3,5%
IMF + International Monetary Fund 10 2,2% Italy + Italian 13 3,3%
France + Paris + French + Pierre Moscovici 8 1,7% Spain + Spanish 10 2,5%
Spain + Spanish 5 1,1% United States + US + American + Washington 9 2,3%
Dominique LAURENT
Analyse sémantique textuelle
10
Plan1. Analyse sémantique profonde. Les noms
communs
2. Analyse sémantique profonde. Les noms propres
3. Question-Réponse
4. Analyse d’opinion et de sentiments
5. Extraction de connaissances
Dominique LAURENT
Le Question-Réponse utilise toutes les technologies décrites jusqu’ici.
Analyse syntaxico-sémantique,
Analyse conceptuelle,
Résolution des anaphores,
Extraction d’entités nommées,
Extraction du type de la question, donc de la réponse.
Le Question-Réponse utile sur corpus Web et sur corpus fermé.
Question-Réponse
11
Analyse sémantique profonde
Détection du type de la question
Recherche multi-index
Taxonomie
Bases de connaissances
Extraction des phrases réponses potentielles
Analyse des paragraphes
Extraction de la réponse
Pour rappel, Watson utilise 2880 cœurs et a nécessité 200 années/homme. Le temps de réponse avec un seul cœur est d’environ deux heures par question. Moins de 3 secondes pour le moteur Quaero.
SIRI (300 années-homme) est plutôt utilisé comme assistant personnel que comme système de question-réponse.
Dominique LAURENT
Exemple de question-réponse
12
Questions factuelles
Taux de bonne réponse entre 70 et 80 % sur des corpus Web bruités (français-anglais, évaluations Quaero).
Corpus bruités, fautes, spam.
Question de la redondance
Difficultés liées aux contradictions dans les textes
Identification du type de la question parfois délicat (« Qui est Jean-Marc Roberts ? », « Quelle est la taille du Taj Mahal ? », « Quel est le nombre de chômeurs en Europe ? »)
Questions factuelles
Taux de bonne réponse entre 70 et 80 % sur des corpus Web bruités (français-anglais, évaluations Quaero).
Corpus bruités, fautes, spam.
Question de la redondance
Difficultés liées aux contradictions dans les textes
Identification du type de la question parfois délicat (« Qui est Jean-Marc Roberts ? », « Quelle est la taille du Taj Mahal ? », « Quel est le nombre de chômeurs en Europe ? »)
Dominique LAURENT
Questions non factuelles
Taux de succès de 70% pour les définitions, de 40 à 50% pour les questions du type « comment » ou « pourquoi ».
Mêmes problèmes que pour les questions factuelles, avec un impact plus important car la réponse ne peut être identifiée qu’après une analyse fine du texte.
Contrairement aux questions factuelles, la réponse à une question non factuelle nécessite souvent plusieurs phrases, une liste issue de l’agrégation de plusieurs documents (par exemple « quels sont les documents nécessaires pour faire un passeport ?»).
Questions non factuelles
Taux de succès de 70% pour les définitions, de 40 à 50% pour les questions du type « comment » ou « pourquoi ».
Mêmes problèmes que pour les questions factuelles, avec un impact plus important car la réponse ne peut être identifiée qu’après une analyse fine du texte.
Contrairement aux questions factuelles, la réponse à une question non factuelle nécessite souvent plusieurs phrases, une liste issue de l’agrégation de plusieurs documents (par exemple « quels sont les documents nécessaires pour faire un passeport ?»).
Exemple de question-réponse
13
Dominique LAURENT
Analyse sémantique textuelle
14
Plan1. Analyse sémantique profonde. Les noms
communs
2. Analyse sémantique profonde. Les noms propres
3. Question-Réponse
4. Analyse d’opinion et de sentiments
5. Extraction de connaissances
Dominique LAURENT
Analyse d’opinion et analyse de sentiments
15
Analyse de sentiment et d’opinion
Segmentation du texte en Unités Élémentaires d’Opinions
Calcul de l’opinion globale
Analyse des relations entre segments contenant des opinions
Ressources
Analyse morpho-syntaxique
Lexique de termes et expressions
subjectifs
+
Relations de discours
Polarité de l'opinion au niveau élémentaire
négations, modaux, conditionnelles
Lexique client+
Applications
Etablir des graphes relationnels sur une personne, organisationEtablir des graphes relationnels sur une personne, organisation
Détecter des groupes d’influenceDétecter des groupes d’influence
Détecter des prises de positionDétecter des prises de position
Modéliser l’information en vue d’une aide à la décisionModéliser l’information en vue d’une aide à la décision
Générer des résumés, classifications d’avis consommateurs
Générer des résumés, classifications d’avis consommateurs
Dominique LAURENT
Analyse d’opinion et analyse de sentiments (avec Radio France)
16
Une technologie complexe Repose sur une analyse sémantique profonde
des phrases et du texte,
Intègre des lexiques spécifiques pour les opinions et pour les sentiments,
Extrait les opinions et les sentiments selon la polarité avec une échelle d’intensité (-3 à +3)
Extrait le type d’opinion (conseil, jugement, sentiment),
« pas mal » ne veut pas dire bien, il faut un traitement fin de la négation mais également des modaux et des conditionnelles.
Difficulté de repérage de marqueurs d’opinion comme « il faudrait que… » ou « il y a qu’à… »
Intérêt du niveau textuel au-delà de la phrase ou de la proposition.
Dominique LAURENT
Analyse d’opinion et analyse de sentiments (avec Technicolor)
17
Dominique LAURENT
Analyse d’opinion et analyse de sentiments (avec Technicolor)
18
Dominique LAURENT
Analyse sémantique textuelle
19
Plan1. Analyse sémantique profonde
2. Entités nommées
3. Question-Réponse
4. Analyse d’opinion et de sentiments
5. Extraction de connaissances
Dominique LAURENT
Machine reading
Analyse sémantique détaillée de gros corpus
Analyse profonde avec résolution des anaphores et désambiguïsation sémantique,
Extraction des relations syntaxico-sémantiques du type « sujet-verbe-objet » ou « sujet-verbe-attribut » avec contexte temporel et spatial,
Couplage du moteur à des bases de connaissances propriétaires ou externes (du type Dbpédia, OpenCyc, etc.),
Constitution de bases de connaissances à partir des triplets extraits,
But ultime : « comprendre » les textes.
Extraction de connaissances
20
Moteur d’inférence
Le moteur d’inférence enrichit les bases de connaissances en inférant de nouvelles connaissances
Bases de règles à partir de la taxonomie et à partir de bases de connaissances externes (du type catégories Wikipédia),
Bases d’événements et règles liées au déroulement et au contexte de ces événements,
Amélioration des réponses à des questions non factuelles,
Intérêt pédagogique à travers une pragmatique linguistique automatisée
Dominique LAURENT
Synapse Développement dans Quaero :
Très petit partenaire ! (moins de 1% du budget)
Avantages de Quaero pour une TPE :
Projet sur 5 ans
Visibilité à plus long terme
Développements plus stratégiques, moins tactiques
Croissance de 50% de l’effectif durant Quaero.
Développements collaboratifs avec des industriels de taille (Technicolor, Orange, Exalead, maintenant Dassault systèmes).
Intégration des entités nommées dans le CMSE (Exalead)
Intégration des entités nommées et de l’analyse d’opinions et de sentiments dans le PVAA (Technicolor)
www.synapse-fr.com/pro
Synapse Développement, une TPE dans un projet industriel d’importance.
21
Dominique LAURENT
Fin
22
Merci de votre attention,
Vos questions sont les bienvenues !
Merci de votre attention,
Vos questions sont les bienvenues !