facultatea de stiinte - click to edit master title styleinf.ucv.ro/documents/ghindeanu/curs...

48
Click to edit Master title style Click to edit Master title style Computational Linguistic. Introduction Mihaela Colhon, 2017

Upload: others

Post on 14-Feb-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Click to edit Master title styleClick to edit Master title style

Computational Linguistic.Introduction

Mihaela Colhon, 2017

Page 2: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

NLP (Computational Linguistic) & HCI

Mihaela Colhon, 2017

Page 3: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Motto …

Human language is the most exciting and demanding puzzle.

Mihaela Colhon, 2017

Page 4: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

The Scope

• Teach computers to communicate with people.Because …• Friendly programs should listen and speak.

Mihaela Colhon, 2017

Page 5: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Oamenii şi‐au dorit dintotdeauna să construiască maşini „inteligente” caresă le uşureze viaţa şi să comunice cu ele eventual prin limbaj natural.

În prezent calculatoarele (şi roboţii) sunt considerate cele mai „inteligente”maşini, dar ele sunt departe de a fi atât de inteligente precum şi‐audorit oamenii.

În încercarea de a crea inteligenţă artificială informaticienii au „programat”calculatoarele să imite oamenii: le‐au „dotat” cu cunoştinte dintr‐undomeniu anume şi cu un algoritm pentru o funcţie asociată, sperând carezultatele calculatorului să egaleze sau să depăşească rezultateleoamenilor în acel domeniu.

O tendinţă actuală în informatică este de a utiliza calculatorul pentru apermite realizarea dialogului dintre om şi calculator în maniera cea mainaturală ‐ limbajul. De această problemă se ocupă Lingvisticacomputaţională, ramură a Inteligenţei artificiale.

© 2015 Mihaela Colhon

Page 6: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Scop

Sistemele NLP au fost realizate pentru a extrageinformații din baze de date, pentru a controla roboții,pentru a interacționa într‐un mod cât mai natural cuutilizatorii, mai precis, pentru a interacționa într‐unmod cât mai “prietenos” cu utilizatorul in vederearezolvării anumitor sarcini sau probleme.

Limbajul natural asigură cea mai “imediată” metodă deinteracțiune om‐mașină, prezentând mai multeavantaje, unele dintre ele bazându‐se pe vocabularuldisponibil imediat, care nu implică o pregătireprealabilă.

© 2015 Mihaela Colhon

Page 7: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

The Scope

• Language is the fabric of the web.

Mihaela Colhon, 2017

Page 8: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Seven Core Areas of CL

• Machine Translation• Speech Recognition• Text‐to‐Speech• Natural Language Generation• Human‐Computer Dialogs• Information Retrieval• Computational Modeling

Mihaela Colhon, 2017

Page 9: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Machine Translation (MT)

To use computers to automate some or all oftranslating from one language to another.

Mihaela Colhon, 2017

Page 10: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Speech Recognition (SR)

Taking spoken language as input and outputting thecorresponding text.

Mihaela Colhon, 2017

Page 11: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Text‐to‐Speech (TTS)Taking text as input and outputting the correspondingspoken language.

Mihaela Colhon, 2017

Page 12: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Natural Language Generation (NLG)

Constructing linguistic outputs from non‐linguisticinputs; the NLG goal is to produce natural languagefrom internal data/representation.

Mihaela Colhon, 2017

Page 13: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Human‐Computer Dialogs (I)

Uses a mix of SR, TTS, and pre‐recorded prompts to achievesome goal.

Sistemele de dialog inteligent sunt programe care acceptaintrari in limbaj natural si produc in consecinta raspunsuriin limbaj natural. Pentru acesta, urmatoarele modulesunt necesare:

‐ Natural Language Understanding (reprezentarea sensuluipropozitiilor intr‐un anumit limbaj dereprezentare)

‐ Natural Language Generation‐ Dialogue Management

Mihaela Colhon, 2017

Page 14: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Human‐Computer Dialogs (II)

Mihaela Colhon, 2017

Page 15: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Dialogue System.Case Study

• What would you like toorder?a large pizza please

• What toppings would youlike?cheese

• What else would you like?a large beer

• What else would you like?nothing else thank you

• Thank you for ordering onelarge pizza with cheese andone large beer and nothingelse. Your order will beready in two minutes.

Mihaela Colhon, 2017

Page 16: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Information Retrieval

Storage, analysis, and retrieval of text documents.

Mihaela Colhon, 2017

Page 17: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Computational Modeling

Computationalapproaches to problemsolving, modeling, anddevelopment oftheories.

Mihaela Colhon, 2017

Page 18: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Prelucrarea limbajului natural

Prelucrarea limbajului natural cuprinde atât înţelegereacât şi generarea de mesaje în limbaj natural.Deoarece ințelegerea implică identificarea structuriisintactice a mesajelor, obținem că prelucrarealimbajului natural nu se poate face fără mecanismeputernice de reprezentare și procesare.

Page 19: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Cum computerele nu posedă mentalitatea umană, prindefiniţie nu pot înţelege. Bineînţeles, ProcesareaLimbajului Natural (Natural Language Processing –NLP) este o problemă generală şi pentru a fi maispecifici, o vom separa în categorii conform niveluluicrescut sau complexităţii acestei procesări:– Morfologie şi procesare morfologică– Sintaxă şi procesarea sintactică– Semantică şi procesarea semantica

© 2015 Mihaela Colhon

Page 20: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Nivele de analiză în NLP (I)

Fonetic: formarea cuvintelor din suneteMorfologic: formarea cuvintelor din morfeme (ceamai mică unitate din structura morfologică acuvântului cu un sens determinat (lexical saugramatical)

Sintactic: combinarea cuvintelor în fraze şi funcţiilepe care acestea le iau în cadrul combinaţiilor

Semantic: înțelesul frazelor din înțelesul cuvintelor Pragmatic: înțelesul frazelor în funcție de contextul încare apar

Mihaela Colhon, 2017

Page 21: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Nivele de analiză în NLP (II)

Mihaela Colhon, 2017

Page 22: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Problem with language (in general)

• Words are ambiguous (bank, round, take)• Sentences are ambiguous

The chicken is ready to eatThe man saw the girl with a telescope

Remove bulb, cover, and replace

Mihaela Colhon, 2017

Page 23: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Pragmatic problems

• We don’t always say what we meanCan you pass the salt?I’m sorry (= Say it again)

Do you want some more? You’re alright.

• We don’t always mean what we sayIt’s raining cats and dogs

Mihaela Colhon, 2017

Page 24: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

What is syntax?Context‐Free Grammars

O gramatica context‐free este un sistem:

G=(VN, VT, S, P)• VN este mulțimeasimbolurilor neterminale

• VT este mulțimeasimbolurilor terminale

• S  VN este simbolulinițial al gramaticii

• P  VN (VN VT)* estemulțimea producțiilor

Mihaela Colhon, 2017

Page 25: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Corpus. Utilizări

Probabil, cea mai importantă tendință în lingvistică este utilizareamasivă de corpusuri mari de texte în limbaj natural. În oricesistem NLP, corpusurile sunt adeseori utilizate pentru a furnizadate empirice si statistice.

În mod obișnuit, aplicațiile de NLP care utilizează corpusurile ca oresursă lingvistică de bază sunt programele pentrudezambiguizarea sensurilor (în engleza Word SenseDisambiguation ‐WSD) și toate tipurile de parsere.

© 2015 Mihaela Colhon

Page 26: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Corpus

În lingvistica computațională, un corpus este ocolecție structurată de texte, stocate electronicși reprezentate într‐un anumit formalismpentru a putea fi ușor “citite” de aplicațiilespecializate în extragerea de informații dinaceste colecții.

Un corpus poate contine texte într‐o singurălimba ‐ corpus monolingv, sau texte în maimulte limbi ‐ corpus multilingv. Corpusurilemultilingve în care textele sunt grupate în bazaexistenței unor echivalenți de traducere senumesc corpusuri paralele.

© 2015 Mihaela Colhon

Page 27: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Corpus

Corpusurile reprezintă baza de cunoștințe a oricărei aplicațiidin domeniul NLP. Analizarea si procesarea cat mai multortipuri de corpusuri este subiectul multor lucrări dinLingvistică Computațională, Recunoașterea Vorbirii (undecorpusurile sunt adesea folosite pentru a crea modeleMarkov ascunse).

În scopul de a face corpusurile utile pentru cercetarealingvistica, acestea sunt adeseori supuse unui proces numitadnotare. Un exemplu de adnotare a unui corpus esteidentificarea partii de vorbire pentru fiecare cuvant dincorpus, unde informatia despre partea de vorbire (verb,substantiv, adjectiv, etc.) este atașată fiecărui cuvânt subforma unei etichete corespunzătoare.

© 2015 Mihaela Colhon

Page 28: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Analiză sintactică.Parsing

Un program de parsing este o căutare în cadrul unuienunț a unor posibile caracteristici structurale aleacestuia, caracteristicile fiind constrânse de faptul căele trebuie să fie compatibile cu o anumită secvență decuvinte.Parsingul sintactic încearca convertirea expresiilor dinlimbaj natural în structuri de arbori sau legături dedependență ce prezintă structura sintactica a expresiei.Aceste structuri sintactice sunt expediate unuiinterpretator semantic pentru o procesare ulterioară.

Mihaela Colhon, 2017

Page 29: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Adnotarea morfo‐sintactică a textelor (I)

Adnotarea, sau etichetarea morfosintactică (în engleza, Part OfSpeech tagging – POS tagging), este procesul de alăturare ainformației ce decurge din analiza morfologică și sintactică a unuicorpus de texte. Una din sarcini atribuirea pentru fiecarecuvânt din corpus a unei etichete de parte de vorbire (POS tag).Procesul de adnotare morfo‐sintactică trebuie să acorde atențiecontextului în care apare cuvântul care se adnotează, deoarececategoria gramaticală a unui aceluiași cuvânt poate depinde deconstrucția în care acesta apare: gust interesant (substantiv), eugust (verb, persoana I sg).Un tagger trebuie să delimiteze un cuvânt, să determineposibilele lui interpretări și să o atribuie pe cea corectă,conform contextului. Adică să rezolve ambiguitatea.

Mihaela Colhon, 2017

Page 30: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Adnotarea morfo‐sintactică a textelor (II)

Mihaela Colhon, 2017

Parte de

vorbire

Atribute morfologice

Verb Timp, persoana, numar, gen

Substantinv Numar, gen, tip (comun sau propriu)

Adjectiv Numar, gen, grad (pozitiv, posesiv, interogativ, demonstrativ, nedefinit,

relativ)

Pronume Tip (personal, posesiv, interogativ, demonstrativ, nedefinit, relativ), gen,

numar, caz

Determinant Numar, gen, tip (articulat, posesiv, demonstrativ, interogativ)

Prepozitie Tip (loc, timp, mod)

Adverb Tip (loc, timp, modalitate)

Numeral Tip (cardinal, ordinal), numar

Conjunctie Tip (coordonatoare sau subordonatoare)

Page 31: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Adnotarea morfo‐sintactică a textelor. (III)

Proiectul MULTEXT‐EASTÎn cadrul proiectului european MULTEXT‐EAST au fostcreate coduri cu descrierile detaliate pentru POS tag‐uriaplicând formalismul atribut / valoare.Pentru limba engleza s‐au creat 83 de etichete, iarpentru limba româna inițial s‐au definit 614 taguri, darîn final numarul de taguri a fost redus la 262.

Mihaela Colhon, 2017

Page 32: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Adnotarea morfo‐sintactică a textelor. (IV)

Proiectul MULTEXT‐EAST

Mihaela Colhon, 2017

Page 33: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Exemplu de marcatori pentruinformații morfo‐sintactice

© 2015 Mihaela Colhon

Page 34: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

What is semantics?

The study of the linguistic meaning of morphemes, words, phrases, and sentences. 

One way to represent semantic properties is by means of semantic features.

Mihaela Colhon, 2017

Page 35: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Study CaseAntConc

Study CaseAntConc

http://www.laurenceanthony.net/antconc_index.html

Page 36: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

FileView

Page 37: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Concordance

Page 38: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Left Concordance

Page 39: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Right Concordance

Page 40: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Concordance Plot

Page 41: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Clusters

Page 42: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Clusters Preferences

Page 43: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Clusters

Page 44: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Collocates

Page 45: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Word List

Page 46: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Keyword List

Page 47: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Keyword Preferences

Page 48: Facultatea de Stiinte - Click to edit Master title styleinf.ucv.ro/documents/ghindeanu/Curs 14.pdf · Speech tagging – POS tagging), este procesul de alăturare a informației ce

Negative Keywords