rezumatul tezei syntactic and semantic aspects of natural...

Rezumatul tezei

„Syntactic and semantic aspects of natural language

processing” Anca Dinu

Domeniul general al acestei teze este lingvistica computationala si matematica (procesare de

limbaj natural), in particular semantica formala. Astfel, lucrarea are un profund caracter

interdisciplinar, intre informatica, lingvistica si matematica. Paradigma adoptata plaseaza

copmlexitatea limbajului natural la nivelul unitatilor lexicale, si nu la nivelul regulilor de formare.

Lucrarea este organizata in trei parti principale. Topica unificatoare a acestora este notiunea

de discurs, i.e. text format din mai multe propozitii in limbaj natural (si nu propozitii izolate). In

particular, teza se ocupa de fenomene de semantica a discusului ca anafora, (i.e. o expresie care se

refera la o alta expresie, localizata de obicei in texul precedent), cuantificarea, coerenta, etc. Prima

parte a tezei propune o analiza formala a semanticii discursului, plecand de la semantica la nivel

propozitional din Barker & Shan‟s (2008), care utilizeaza conceptul informatic de continuari. A

doua parte prezinta crearea si analizarea de resurse electronice pentru limba romana: un Lexicon

Generativ Roman si un corpus pentru studierea marcarii diferentiate a obiectului in limba romana.

In sfarsit, a treia parte a tezei cuprinde doua experimente de clasificare dupa criterii de

coerenta/incoerenta a unor texte scurte in engleza, respectiv in romana, utilizand tehnici de invatare

automata supervizata.

Prima parte a lucrarii propune o analiza formala explicita a semanticii discursului, utilizand

notiunea informatica de continuari. Punctul de plecare al acestei cercetari este semantica bazata pe

continuari (la nivel de propozitie) propusa in Barker & Shan‟s (2008). Aceasta analiza schimba

paradigma de la nivelul propozitiei considerate in izolatie la nivelul discursiv, in care propozitia

este considerata in context. Un discurs este interpretat in maniera secventiala de la stanga la

dreapta, interpretand pe rand, cate o propozitie. In fiecare moment al acestui proces, un anume

segment initial de text este deja procesat. Nici o propozitie nu este interpretata intr-un vid, ci este

interpretata intotdeauna in contextul la care au contribuit propozitiile precedente. Aceste sunt in

linii mari observatiile care au dus la dezvoltarea asa-numitelor semantici dimamice care

fomalizeaza modul in care cuantificatorii dintr-o formula leaga variabilele dintr-o alta formula

pentru a realiza legarea intra-propozitionala. Printre cele mai cunoscute exemple de semantici

dinamice se numara Dynamic Intensional Logic (DIL), Dynamic Montague Grammar (DMG),

Dynamic Predicate Logic (DPL) si Discourse Representation Theory (DRT).

Contributia originala a tezei in aceasta parte este formalizarea cu ajutorul continuarilor a

ideii intuitive ca operatorii propozitionali (ca, spre exemplu, punct sau punct si virgula), opereaza

din punct de vedere semantic in discurs ca functii care iau ca argument denotatia discursului din

dreapta (secventa de propozitii anterioare) si denotatia propozitiei curente si returneaza denotatia

discursului obtinut prin conjunctia acestora. Spre exemplu, formal, punctul primeste in semantica

propusa urmatoarea intrare lexicala (Dinu, 2011a):

Primul strat exprima categoria sintactica a punctului: punctul cere ca argument la stanga o

expresie de categorie S (de la sentence - propozitie), apoi o alta expresie de categorie S ca argument

la dreapta, pentru a intoarce o noua expresie de categorie S. Al doilea strat este expresia in sine,

adica punctul. Ultimul strat este interpretarea semantica a puncului: conjunctia denotatiei

discursului de pana acum (din stanga) cu denotatia propozitiei curente. Un discurs incepe cu o

propozitie initiala, apoi, printr-un proces recursiv, interpretarea punctului adauga denotatia

propozitiei curente la denotatia discursului precedent. Utilizam termenul de denotatie (sau extensie)

a unei expresii in sensul sau uzual model-teoretic, folosind notatia obisnuita bolduita: de exemplu, j

este denotatia (referinta) numelui propriu John; man este denotatia substantivului comun man – om

(i.e. functia care asigneaza valoarea de adevar unu tuturor entitarilor care au proprietatea de a fi man

si valoarea de adevar zero tuturor entitatilor care nu au aceasta proprietate); see este denotatia

verbului see – a vedea (i.e. o functie care asigneaza valoarea de adevar unu tuturor perechilor de

entitati care sunt in relatia see si valoarea de adevar zero tuturor perechilor de entitati care nu sunt in

aceasta relatie), etc.

Notiunea de continuari a fost deja utilizata pentru a analiza fenomene lingvistice inter-

propozitionale ca focus fronting, donkey anaphora, presupozitii, crossover sau superiority intr-o

serie de lucrari (Barker 2002, Barker 2004, Shan 2005, Shan and Barker 2006, Barker and Shan

2008). Pentru a analiza fenomene itra-propozitionale a fost utilizata in (de Groote 2006); iar pentru

a analiza structura discursului in (Asher and Pogodalla 2010). Meritul untilizarii continuarilor in

contextul semanticilor dinamice este ca acestea se dispenseaza de functiile de asignare, care sunt

esentiale pentru formularile DIL, DMG, DPL sau DRT si de aceea nu au probleme ca problema

asignarilor distructive din DPL sau problema suprapunerilor de variabile din DRT.

Ne vom referi la semantica unui fragment de limbaj natural care utilizeaza notiunea de

continuari prin termenul continuation semantics. In aceasta lucrare vom folosi varianta de

continuation semantics asa cum este ea prezentata in (Barker and Shan 2008). Aceasta versiune

utilizeaza ca formalism sintactic Gramaticile Categoriale, un formalism bine cunoscut cu larga

acoperire lingvistica. In general, termenul de Gramatica Categoriala (CG) denumeste un grup de

teorii sintactice si semantice in care complexitatea a fost mutata de la reguli la unitati lexicale.

Istoric, ideile CG au fost introduse in Ajdukiewicz (1935), in Bar-Hillel (1953) si in Lambek

(1958). Formal, o gramatica categoriala este un cvadruplu (∑, Cat, S, :=), unde ∑ este o multime

finita de simboluri, Cat este o multime finita de categorii primitive, si relatia := este

lexiconul, care asigneaza categorii simbolurilor . D(Cat) este cea mai mica

multime astfel incat si daca atunci . A/B si

B\A reprezinta functii de la in , unde directia slash-ului determina daca argumentul este

aplicat la dreapta (/) sau, respectiv, la stanga (\) functorului. Exista doua reguli: aplicare A/B + B =

A sau B + A\B = A si compozitie A/B + B/C = A/C. + inseama concatenare. Pentru o trecere in

revista recenta a CG, trimitem cititorul la Morrill (2010).

Continuarile sunt un instrument standard in informatica, utilizate pentru a controla efectele

secundare de calcul (ca ordinea de evaluare, printarea, sau pasarea valorilor). Sunt o notiune

recunosucta ca fiind greu de inteles, desi, de fapt nu sunt dificile in sine, ci mai degraba este dificil

de inteles cum functioneaza o gramatica continuizata. Idea de baza in continuizarea unei gramatici

oarecare este de a asigura subexpresiilor acces la propriile lor continuari (contexte viitoare); astfel,

subexpresiile sunt modificate pentru a lua o continuare ca argument. Despre o gramatica

continuizata se spune ca este scrisa in continuation passing style si este obtinuta dintr-o gramatica

oarecare, utilizand o multime de reguli formale generale. Continuation passing style este de fapt o

forma restrrictionata (typed) de lamdba-calculus. Istoric, primii operatori de continuare introdusi au

fost nedelimitati (de exemplu, call, cc sau J). O continuare nedelimitata a unei expresii reprezinta

“intregul viitor computational” al acelei expresii. Felleisen (1988) a introdus continuarile delimitate

(uneori denumite si continuari compozabile), cum ar fi control („C‟) sau prompt („%‟). Continuarile

delimitate reprezinta viitorul computational al expresiei pana la o anumita limita (granita). In mod

interesant, fenomenele de limbaj natural discutate in teza de fata, utilizeaza numai continuari

delimitate.

De exemplu, daca restrictionam contextul local la propozitie, atunci cand calculam intelesul

unei propozitii ca John saw Mary, viitorul implicit al denotatiei subiectului este ca va avea

proprietatea saw Mary. Simbolic, continuarea denotatiei subiectului j este functia . In

mod similar, viitorul implicit a denotatiei obiectului m este ca va avea proprietatea seen by John,

i.e. functia ; continuarea denotatiei verbului tranzitiv saw este functia R.R m j; iar

continuarea denotatiei constituentului verbal saw Mary este functia P.P j. Acest exemplu simplu

ilustreaza doua aspecte importante ale continuarilor: fiecare subexpresie bine formata are o

continuare si continuarea fiecarei expresii este relativa la o expresie mai mare care o contine.

Astfel, atunci cand John apare in propozitia John left yesterday, continuarea lui este

; cand apare in Mary thought John left, continuarea lui este proprietatea

, iar cand apare in propozitia Mary or John left, continuarea lui este

si asa mai departe.

Continuation semantics are urmatoarele proprietati dezirabile:

Este dinamica;

Este direct compositionala (in sensul lui Jacobson (1999));

Este extensionala (desi intentionalitatea poate fi in principiu exprimata in acest cadru);

Este libera de variabile (nu exista variabile libere, asa ca nu exista pericolul de a lega

accidental o variabila libera; este necesar doar sa redenumim variabila curenta legata cu

un nume nou, cf. conventiei lui Barendregt).

In cele ce urmeaza, vom comenta pe scurt aceste proprietati.

Informal, despre o semantica se spune ca este dinamica daca permite cuantificatorilor sa lege

in afara domeniului lor sintactic. Semanticile dinamice traditionale (Kamp 1993, Heim 1983,

Groenendijk and Stokhof 1991) trateaza intelesul propozitiilor ca functii care updateaza contextul.

Continuation semantics din Barker and Shan (2008) este dinamica intr-un sens usor diferit:

considera intelesul unei expresii ca avand o contributie dubla, e.g. contributia semantica principala

asupra structurii argumentale locale si contributia adusa de efectele secundare ale expresiei, de

exemplu relatiile semantice la distanta, incluzand domeniul quantificatorilor sau legarea.

O gramatica continuizata este compozitionala in sensul ca intelesul unei constituent sintactic

complex este functie doar de intelesul subconstituentilor lui directi si de modul in care ei sunt

combinati. A lua in serios principiul compozitionalitatii inseamna a prefera analize in care forma

logica ramane cat mai aprope posibil de forma sintactica de suprafata. A permite reprezentarilor

logice (din Logical Form - LF) sa difere in moduri neconstranse de forma sintactica de suprafata

inseamna renuntarea la intreaga forta empirica a compozitionalitatii. Acesta este sensul in care

teoriile bazate pe LF slabesc compozitionalitatea. Idealul este ceea ce Jacobson (1999) numeste

Compozitionalitate Directa, in care fiecare constituent sintactic de suprafata are o denotatie bine

definita, astfel neapelandu-se la o forma logica diferita de structura de suprafata. Continuarile sunt

compatibile cu compozitionalitatea directa.

Compozitionalitatea, cel putin asa cum a formulat-o Montague, impune ca analiza sintactica

sa dezambiguizeze complet expresia in chestiune. Vom admite, contra lui Montague, ca exista si o

ambiguitate semantica, i.e. o singura operatie de formare poate fi asociata cu mai multe interpretari

semantice. Notiunea de compozitionalitate care rezulta in urma acestei asumptii este: intelesul unei

expresii complexe din punct de vedere sintactic este functie doar de intelesul subconstituentilor ei

imediati, de modul sintactic in care acestia sunt combinati si de modul de compunere semantica.

Astfel, ambiguitatea domeniilor quantificatorilor, spre exemplu, este metacompozitionala, i.e. nu

este nici de natura exclusiv sintactica, nici de natura exclusiv semantica, ci la interfata dintre

sintaxa si semnantica.

In unele analize lingvistice elaborate, propozitiile denota functii de la entitati, momente si

lumi posibile la valori de adevar. In jargonul lingvistilor, o analiza in care se iau in considerare doar

valorile de adevar este extensionala, in timp ce o analiza ce considera si momentele si lumile

posibile este intensionala. Intensionalitatea nu este esentiala in analizele prezentate in aceasta teza,

iar tipurile sunt destul de complexe si fara a lua in calcul intentionalitatea; in consecinta, utilizam o

semantica extensionala, in care propozitiile denota numai valori de adevar. Folosim in mod curent

tipurile e (entity), t (truth value) si functii construite din aceste doua tipuri, ca, spre exemplu (e->t)-

>t, scris si <<e, t>t>. Pentru eventualitati utilizam un al treilea tip de baza, notat convenabil cu E

(pentru a-l deosebi de e). Expresiile nu vor manipula direct contextul lor pragmatic, fie ca acesta

este o multime de lumi posibile (desi perfect plauzibil, cum este prezentat in Shan and Barker

(2006)), fie ca este o multime de functii de asignare, fie orice alt fel de stare de informatie.

Merita mentionat ca unele rezultate din semanticile traditionale sunt cazuri particulare ale

rezultatelor din continuation semantics, spre exemplu:

Tipul quantificatorilor generalizati din gramaticile Montague, <<<e,t>,t>,t> este exact

tipul determinantilor cuantificationali din continuation semantics;

Tipul <<t,t>,t> al propozitiilor din semantica dinamica este exact tipul propozitiilor din

continuation semantics. De fapt, intepretarea dinamica este doar o continuizare partiala in

care doar categoria propozitiilor, S, a fost continuizata.

In mod evident, aceste fapte nu sunt simple coincidente: gramaticile Montague continuizeaza

numai denotatia constituentilor nominali si semanticile dinamice continuizeaza numai denotatia

propozitiei, in timp ce continuation semantics continuizeaza uniform toti constituentii din

gramatica.

Plecand de la continuation semantics pe care o introducem (prin formalizarea explicita a

semanticii semnelor de punctuatie dintre propozitii, ca punct sau punct si virgula), aratam cum

continuarile impreuna cu un mecanism de schimbare de tipuri sunt capabile sa analizeze un spectru

larg de fenomene lingvistice, printre care: legarea anaforei pronominale (singulare sau plurale),

domeniul cuantificatorilor, negatia, focusul, structura ierarhica de discurs, elipsa sau acomodarea.

Din punct de vedere formal, propunem denotatii pentru unele intrari lexicale respunzatoare pentru

fenomenele amintite. Spre exemplu, dam negatiei si, respectiv, operatorului de focus F urmatoarele

denotatii:

Discutam de asemenea unele aspecte problematice ale semanticii pluralului, ca, spre

exemplu, distributivitatea sau conditia de maximalitate, subliniind faptul ca anafora singulara si cea

plurala nu sunt fenomene paralele, asa cum ar putea parea la o prima vedere: pluralitatea introduce

complexitati care nu sun prezente in analiza singularului.

Trecem apoi de la cuantificarea asupra entitatilor si valorilor de adevar la cuantificare asupra

entitatilor, valorilor de adevar si eventualitatilor (Dinu, 2011b). Astfel, propunem o analiza a

cuantificarii asupra eventualitatilor si a anaforei la eventualitati, dand denotatii specifice

cuantificatorilor adverbiali always (intotdeauna) si never (niciodata) si unui cuantificator adverbial

neexprimat sau vid, pe care il consideram responsabil de sensul expresiilor in care lipsesc

cuantificatorii adverbiali exprimati (realizati la suprafata). Spre exemplu, always si never primesc

urmatoarea denotatie:

Sustinem ca Scope Domain Principle (adaptat din Landman (2000), cf. Parsons (1987)), care

spne ca intotdeauna un cuantificator asupra eventualitatilor ia domeniul cel mai restrans posibil fata

de alti cunatificatori, este prea puternic. In schimb, argumentam ca domeniul cuantificatorilor

asupra eventualtatilor este ambiguu, iar a decide care citire este preferata este o problema de

discurs. Furnizam aici detalii suficiente pentru a face plauzibila interpretarea eventualitatilor in

cadrul continuation semantic, lasand ca directii pentru cercetari viitoare aspecte imporatnte ca:

specificare completa a semaniticii eventualitatilor, care, in mod evident, nu este posibila fara a lua

in considerare rolurile tematice, aspectul gramatical, modalitatea si timpul; un mod de reprezentare

a impreciziei implicite continute in restrictia eventualitatii (RelevEvent din formulele pentru always

si never), etc.

O alta contributie originala din prima parte a tezei (Dinu, 2011.c) este propunerea unui

mecanism explicit (lasat nespecificat in abordarile precedente ale continuation semantics) care sa

asigure ca nici un element lexical cu domeniul restrictionat la propozitia minimala in care apare (ca,

spre exemplu, not, no, every, each, any, etc.) nu isi poate extinde domeniul in afara acesteia (nu

poate lega variabile aflate in afara propozitiei sale minimale). Pentru a realiza acest lucru,

introducem o noua categorie sintactica pentru propozitii minimale: C (clause), de acelasi tip

semantic t, ca al propozitiilor S. C este unitatea discursiva minimala care are ca denotatie o valoare

de adevar, pe cand S este compusa din cel putin o astfel de unitate. Constrangem prin definitie

elementele lexicale cu domeniul restrictionat la propozitia minimala in care se afla, astfel incat sa

isi poata extinde domeniul cel mult pana la granitele unei propozitii minimale. Spre exemplu,

propunem urmatoarele denotatii pentru not, no si repectiv pentru every:

Dupa interpretarea completa a propozitiei minimale in care apar aceste elemente lexicale,

categoria C trebuie convertita la categoria S. In particular, propunem utilizarea in acest scop a

urmatorului element lexical vid:

Acest pas garanteaza ca propozitiile minimale (de categorie C) pot fi procesate mai departe

ca bucati de discurs (de categorie S), pentru ca toati conectorii de discurs (ca punct, punct si virgula

sau if) iau ca argumente numai expresii de categorie S.

Pledam pentru utilizarea continuarilor in semantica formala, ca instrument puternic si

versatil, deosebit de potrivit pentru a manipula domeniul cuantificatorilor ori dependentele la

distanta lunga, fenomene ce abunda in semantica limbajului natural. Odata ce domeniul unui

cuantificator este stabilit corect, continuation semantics obtine automat si conditiile corecte de

adevar, si deci interpretarea discursului in care apare. Nici o alta teorie, din cate stim, nu permite

indefinitelor, cuantificatorilor si pronumelor sau altor anafore sa interactioneze intr-un sistem

uniform in care stabilirea domeniului de cuantificare si legarea intrebuinteaza acelasi mecanism.

La sfarsitul primei parti, propunem pentru continuarea cercetarii urmatoarele directii:

Realizarea unui algoritm care sa genereze toate interpretarile posibile penrtu un discurs

dat, in cadrul continuation semantics;

Posibilitatea de a formula teoria semantica a situatiilor in cadrul continuation semantics;

Compararea abordarii noastre asupra anaforei cu abordari paralele, ca, spre exemplu,

anafora in lingvistica algebrica.

Partea a doua a tezei prezinta realizarea si analizarea unor resurse electronice pentru limba

romana: un lexicon generativ pentru limba romana si un corpus pentru studiul marcarii diferentiate

a obiectului in limba romana.

Construirea si adnotarea lexiconului generativ roman (RoGL), in spiritul Teoriei Lexiconului

Generativ (GLT) (Pustejovsky 2006), reprezinta un proiect in curs de derulare (Dinu 2010.a, Dinu,

2010.b). GLT plaseaza complexitatea limbalului natural la nivel lexical, si nu la nivelul regulilor de

formare. Tipurile semantice constring intelesul altor cuvinte, spre exemplu verbul eat (a manca)

impune asupra obiectului sau direct interpretarea [[Food]] (mancare).

In momenul de fata, exista un numar de dictionare electronice statice pentru limba romana, ca

Romanian Lexical Data Bases of Inflected and Syllabic Forms (Barbu, 2008), G.E.R.L. (Gavrila &

Vertan, 2005), MULTEXT, etc. Astfel de abordari asupra sensului cuvintelor si expresiilor se

confrunta cu doua probleme, pentru ca presupun un numar fix de sensuri pentru un element lexical

dat:

In cazul selectarii automate a sensului, procesul de cautare si selectare automata a

sensului unei expresii devine neperfomant din punct de vedere computational, in mod

special atunci cand se analizeaza expresii lungi, formate din subexpresii ambigue;

Presupunererii ca exista o enumerare exhaustiva pentru utilizarile distincte ale unui

cuvant ii lipseste puterea explicativa necesara pentru a generaliza si prezice utilizarea

cuvintelor in moduri creative si noi.

GLT (Pustejovsky, 1995) este o teorie a tipurilor semantice cu mecanisme de selectie care

depaseste aceste neajunsuri (a se vedea, de exemplu, Proceedings of The first, second and third

International Workshop on Generative Approaches to the Lexicon 2001, 2003, 2005). Studiul

structurii elementelor lexicale din limbajul natural s-a orientat in ultimii zece ani spre dezvoltarea

de sisteme de tipuri semantice si de caracteristici ale acestora (Levin and Rappaport 2005,

Jackendoff 2002). GLT adauga acestui model general notiunea de descompunere a predicatului.

Lexicoanele construite astfel contin o cantitate considerabila de informatie si furnizeaza o

reprezentare lexicala care acopera toate aspectele sensurilor cuvintelor. Intr-un lexicon generativ,

un sens al unui cuvant este descris dupa patru niveluri de reprezentare semantica, care surprind

aspectul compozitional al sensului, definesc tipul evenimentului denotat, descriu contextul semantic

in care poate aparea cuvantul respectiv si il pozitioneaza fata de alte sensuri din lexicon. Aceste

patru niveluri ale interpretarii semantice in GLT sunt:

Strucutra tipurilor lexicale: fiecarui cuvant i se atribuie un anumit tip lexical din sistemul

de tipuri pentru limbajul vizat;

Structura argumentala: specificarea numarului si naturii argumentelor unui predicat;

Structura argumentala: definirea tipului de eveniment a unei expresii si a structurii sub-

evenimentiale pe care ar putea-o avea acea expresie;

Structura Qualia: diferentierea structurala a fortei predicative pentru un element lexical.

Teoria foloseste descompunerea predicativa totala, i.e. un mod elegant de a transforma

subpredicatele intr-o asignare de tipuri semantice argumentelor.

Asffel, GLT intrebuinteaza strategia de selectie “Fail Early” (esuare timpurie), in care

asignarea unui tip semantic unui argument este de fapt un pretest pentru predicat. Daca conditia

argumentului (adica tipul sau) nu este safisfacuta, predicatul: fie nu este intrepretat, fie isi

constrange argumentele sa isi shimbe tipul dupa un set de strategii. Modul de compozitie a doua

expresii este guvernata de reguli de compunere aplicate argumentelor care au atribuite un tip

semantic. Structura argumentala in GLT arata astfel:

, unde AS (Argument Structure) este structura argumentala, ES (Event Structure) este structura

evenimentiala, Qi (Qualia Structure) este structura qualia, iar C (Constraints) sunt constrangerile.

Structura qualia are patru niveluri :

Formal: categoria de baza care distinge expresia in cadrul unui domeniu mai larg;

Constitutiv: relatia intre un obiect si partile sale constitutive;

Telic: functia si scoupul expresiei, daca acestea exista;

Agentiv: factorii implicati in originea (sau fabricarea) obiectului pe care expresia il

reprezinta.

Sistemul de compunere a tipurilor se formeaza astfel:

e este tipul entitatilor; t este tipul valorilor de adevar. (σ si τ parcurg tipurile simple si

subtipurile ontologiei lui e)

Daca σ si τ sunt tipuri, atunci si σ -> τ este un tip;

Daca σ si τ sunt tipuri, atunci si σ • τ este un tip;

Daca σ si τ sunt tipuri, atunci si σ ʘQ τ, for Q = const(C), telic(T), or agentive(A).

Regulile de compozitie in GLT sunt:

Selectare de tip: atunci cand tipul cerut de predicat se potriveste exact cu tipul

argumentului;

Acomodare de tip: atunci cand tipul este mostenit;

Constrangere de tip: atunci cand tipul argumentului trebuie constrans sa se potriveasca cu

tipul cerut de predicat.

Domeniul indivizilor (tipul e) este impartit in trei subtipuri:

Tipul Natural: concepte atomice de tip formal, constitutiv si agentiv;

Tipul Artefactual:adauga conceptul de telic;

Tipul complex: produs cartezian de tipuri Naturale si Artefactuale.

Lexicoane generative au fost deja create pentru anumite limbi naturale. Brandeis Semantic

Ontology (BSO) este un lexicon generativ pentru engleza. PAROLE – SIMPLE – CLIPS este un

lexicon de mari dimensiuni pentru italiana cu trei niveluri distincte: fonologic, sintactic si semantic.

Sistemul de tipuri utilizat atat de BSO cat si de CLIPS este in mare parte acelasi cu cel propus in

specificatiile pentru proiectul SIMPLE (Busa et al., 2001), care a fost adoptat de catre proiectul

sponsorizat de catre Uniunea Europeana (Lenci et al., 2000).

Este interesant de mentionat ca Ruimy et al. (2005) a propus o metoda pentru construirea

semi-automata a unui lexicon generativ pentru franceza pe baza lexiconului CLIPS pentru italiana,

utilizand un dictionar bilingv si exploatand similaritatea lingvistica dintre franceza si italiana.

Crearea unui lexicon generativ de la zero pentru orce limba este o sarcina dificila, datorita

structurii semantice complexe, sistemului de tipuri semantice multi-dimensional, adnotarii

consumatoare de timp, etc. Din aceste motive, pentru realizarea lexiconului generativ pentru limba

romana, am utilizat experienta si structurile lexicoanelor generative existente pentru alte limbi, ca

BSO sau CLIPS.

RoGL contine un corpus, un sistem de tipuri, o interfata grafica de adnotare si o baza de date

din care se genereaza date in format XML. Interfata si baza de date unde sunt stocate si procesate

intrarile lexicale adnotate sunt gazduite de serverul Facultatii de Matematica si Informatica,

Universitatea din Bucuresti: http://ro-gl.fmi.unibuc.ro.

Pentru implementarea structurii generative si a regulilor de compozitie, am ales un limbaj de

programare functionala, si anume Haskell. Aceasta alegere a fost determinata de faptul ca

reducerea expresiilor lambda (in mod evident necesara in implementarea unui lexicon generativ),

evaluarea unui program (i. e. o functie) in Haskell, si compunerea de expresii intr-un limbaj natural

sunt, intr-un anumit sens, unul si acelasi lucru.

Cel mai important lucru care ramane de realizat pentru RoGL ramane adaugarea mai multor

elemente lexicale adontate. Procesul de adnotare manuala, desi standardizat si mediat de interfata

grafica este mare consumator de timp, in mod special pentru informatii complexe ca acelea cerute

de un lexicon generativ.

O alta resursa electronica pentru limba romana pe care am creat-o este un corpus pentru

studiul marcarii diferentiate a obiectului (Differential Object Marking - DOM). Motivatia pentru

aceasta intreprindere este faptul ca in romana marcarea obiectului direct in cazul acuzativ utilizand

prepozitia „pe” in combinatie sau nu cu dublare prin clitic implica mecanisme care nu sunt pe

deplin intelese si care, pentru vorbitorul ne-nativ par a nu se supune nici unei reguli. Parametrul

DOM diferentiaza limbi precum spaniola, romana, turca sau rusa care au o inclinatie spre a marca

obiectele ‚proeminente‟ (i.e. animate, definite sau specifice) si alete limbi precum germana,

olandeza sau engleza, in care nu se manifesta o astfel de distinctie intre tipurile obiectului direct

(aceste limbi se bazeaza in principal pe ordinea cuvintelor pentru marcarea obiectului direct).

Astfel, aceasta cercetare abordeaza o anumita diferenta lingvistica intre cele doua grupe de limbi.

De asemenea, cercetarea prezinta o descriere sistematica a DOM, bazata pe dovezi empirice

prezente in corpusul creat. Studiul realizat poate fi utilizat ulterior pentru cresterea eficientei

metodelor statistice in domeniu.

Pentru a extrage informatii empirice in legatura cu interpretarea marcarii diferentiate a

obiectului direct cu „pe” in limba romana, am construit semi-automat un corpus de fraze in limba

romana care contin prepozitia „pe”. Singura problema a fost detectarea manuala si stergerea din

copus a aparitiilor prepozitiei omonime „pe” care inseamna deasupra. Corpusul contine 960 de

exemple relevente din romana moderna (560 extrase automat din ziare disponibile public pe

Internet si restul de 400 de example create artificial din nevoia de a tesa comportamentul obiectului

direct in structuri si conditii diverse, greu de gasit in textele electronice). Am adnotat apoi manual

obiectele directe din acest corpus cu trasaturile interpretabile semantic pe care le suspectam, pe

baza unor studii anterioare, ca sunt relevante pentru DOM, trasaturi precum [±animat], [±definit],[

±uman].

Am asamblat de asemenea un corpus care contine 779 de exemple din texte in romana de

secole XVI si XVII (extrase din approximativ 1000 pagini de texte vechi), pentru a studia evolutia

temporala a DOM in Romana. Pe baza datelor prezente in acest corpus de romana veche am

remarcat ca prepozitia „pe” a fost cel mai mult utilizata pentru marcarea obiectului direct in textele

datand din secolul XVII, pana in secolul XVIII devenind deja norma sintactica. Se pare ca

acuzativul a fost sistematic asociat cu prepozitia p(r)e, indiferent de clasa semantica sau

morfologica a obiectului direct. Acest lucru corespunde cu cercetarile lui Heusinger & Onea (2008)

care au observat ca in secolul XIX s-a atins varful in ceea ce priveste utilizarea prepozitiei „pe”,

pentru ca in secolele XIX–XX aceasta evolutie sa aiba o panta descendenta pana in prezent, cand,

utilizarea lui „pe” este mai restrictionata decat era acum doua secole, dar mai relaxata decat in XVI.

In concluzie, putem prezenta urmatoarea analiza sistematica a acestui fenomen linvistic pe

baza dovezilor empirice prezente in corpus:

Pronumele (personale, de politete, reflexive, posesive si demonstrative) aflate in pozitie

de obiect direct sunt marcate obligatoriu prin utilizarea prepozitiei „pe”, indiferent daca

referentul este animat sau nu (l-am vazut pe el/*l-am vazut el).

Marcarea numelor proprii in pozitie de obiect direct prin „pe” este conditionata de scara

trasaturii [±animat]: este obligatorie cu nume proprii care se refera la obiecte cu trasatura

[+ human] (am vazut-o pe Maria/*am vazut-o Maria), optionala cu nume proprii care se

refera la obiecte cu trasatura [+ animate] , si negramaticala cu nume proprii care se refera

la obiecte cu trasatura [-animate] (am vazut cartea/*am vazut pe cartea).

Descriptiile definite sunt marcate optional cu prepozitia „pe”;

Descriptiile indefinite: numai descriptiile indefinite specifice pot fi marcate optional cu

prepozitia „pe”; Marcarea cu „pe” a descriptiilor indefinite nespecifice este

negramaticala.

A treia parte a tezei cuprinde doua experimente de clasificare dupa coerenta/incoerenta a

unor texte scurte in limbile engleza, si, respectiv, romana, utilizand tehnici de invatare automata.

Criteriile tipice de categorizare a textului cuprind categorizare dupa domeniu, dupa stil (clasificare

dupa gen, identificare de autor (Dinu et al., 2008)), dupa limba (Dinu and Dinu 2005, Dinu and

Dinu 2006), dupa opinia exprimata (opinion mining, sentiment classification), etc. Foarte putine

analize considera problema categorizarii de text dupa gradul de coerenta, ca in (Miller, 2003).

Primul experiment (Dinu 2010.c) are in vedere una dintre noile strategii adoptate de catre

spammers pentru a trimite mesaje e-mail nedorite in conturi personale, si anume codificarea

mesajului real ca imagine, imposibil de detectat si respins de catre filtrele clasice si acompanierea

acestei imagini cu un text special construit pentru a trece de aceste filtre. Pentru cititor, textul din

imagine este usor de inteles, spre deosebire de textul care il acompaniaza, care este incorect fie din

punct de vedere sintactic (o colectie de cuvinte), fie semantic, fie pragmatic (colectii de proverbe,

sau texte obtinute prin alaturarea de fraze sau paragrafe din texte diferite. Pentru filtrele clasice,

care se bazeaza de obicei pe algoritmi care utilizeaza ca trasaturi cuvinte cu incarcatura semantica,

imaginea nu furnizeaza nici un fel de informatie, in vreme ce textul care o acompaniaza poate trece

drept valid (deoarece contine cuvinte cu incarcatura semantica diferite de cele prezente in mod

obisnuit in mesaje spam).

Abordarea pe care o propunem pentru a trata aceasta problema este de natura cantitativa. Ea

se bazeaza pe utilizarea rapoartelor dintre categoriile morfologice prezente in text ca trasaturi

discriminante, presupunand ca aceste rapoarte nu sunt complet aleatoare intr-un text coerent.

Folosim cateva tehnici reprezentative de invatare automata pe un corpus de dimensiuni reduse

alcatuit din mesaje e-mail in engleza si lasam algoritmii sa extraga trasaturile importante dintre

toate rapoartele intre partile de vorbire. Datorita numarului relativ mic de exemple (pozitive si

negative) din experimentul nostru, am utilizat „leave one out cross validation”, un estimator al

erorii de generalizare considerat ca fiind aproape impartial. Tehnica „leave one out” (l.o.o.) consta

in scoaterea fiecarui exemplu din multimea de antrenare, antrenarea pe toate celelalte si testarea pe

toate exemplele.

Prima tehnica utilizata, si ce mai simpla, este regresia liniara (Duda et al., 2001), nu datorita

acuratetei sale de clasificare, ci pentru ca, fiind o metoda liniara, permite analizarea importantei

fiecarei trasaturi, si astfel, determinarea celor mai proeminente trasaturi discriminatoare pentru

experiment. Acuratetea l.o.o. obtinuta pentru regresia liniara este de 68.18%, procent pe care il

folosim ca referinta (baseline) pentru experimentele urmatoare. Dintre cele patru tehnici de

invatare automata (clasificator ν support vector cu nucleu liniar, discriminant Kernel Fisher cu

nucleu liniar, support vector machine cu nucleu polinomial, discriminant Kernel Fisher cu nucleu

polinomial), discriminantul Kernel Fisher cu nucleu polinomial a obtinut cea mai buna

performanta, cu o acuratete l.o.o. de 85.48%. Consideram ca acesta este un rezultat bun, pentru ca o

parte dintre erori sunt inerente (transmise de la etichetarea automata cu parti de vorbire sau de la

clasificarea umana subiectiva) si pentru ca, utilizand doar frecventele partilor de vorbire se ignora

multe alte trasaturi esentiale pentru determinarea coerentei, cum ar fi, spre exemplu, ordinea

propozitiilor, rezolvarea co-referentelor, relatiile retorice, etc.

Lasam pentru o cercetare ulterioara compararea acestei abordari cantitative cu unele tehnici

calitative referitoare la coerenta textului, cum ar fi „latent semantic analysis” (Dumais et al., 1988

), „lexical chains” (Hirst and St.-Onge, 1997), saua analiza coerentei si coeziunii textului (Marcus,

1980). De asemenea, ar fi de interes un experiment in care antrenarea masinii sa aiba ca scop

obtinerea unei erori minime pentru exemplele pozitive (texte coerente trimise in Spam), chiar daca

eroarea pentru exemplele negative devine astfel mai mare (texte incoerente trimise in Inbox).

Al doilea experiment (Dinu, 2008) aplica acelasi set de tehnici de invatare automata utilizate

in cadrul primului experiment, de aceasta data pentru a clasifica texte scurte in limba romana ca

fiind coerente sau incoerente. Experimentul a fost efectual pe un corpus de dimensiuni reduse

alcatuit din texte scurte in limba romana. Textele au fost selectate din 6 manuale alternative de

nivel liceal. In ultimele doua decenii, in Romania s-au produs si distribuit un numar impresionant

de manuale altenative. Datorita cantitatii mari de astfel de materiale si a timpului scurt in care au

fost produse, a aparut problema modului de evaluare a calitatii acestora; procesul de evaluare tine

in mod curent de opinii personale subiective, in lipsa instrumentelor de procesare automata pentru

limba romana. Dezbaterile despre pretinse manuale de slaba calitate au rezultat intr-un numar de

exemple de paragrafe incomprehensible / incoerente extrase din manuale romanesti. Scopul nostru

a fost de a crea un instrument automat care sa poata fi folosit ca un indicator de proasta calitate a

acestor texte.

Clasificarea manuala in doar doua categorii: texte coerente si texte incoerente este, asa cum

au observat si unii adnotatori, prea restrictiva; cu toate ca o decizie mai nuantata, spre exemplu cu

optiuni de clasificare ca foarte dificil de urmarit, sau usor de urmarit, etc. ar fi fost si mai utila, am

decis sa pastram problema de categorizare la numai doua clase, din motive de simplicitate. Lasam

petru o cercetare ulterioara crearea unui instrument care sa produca nu doar un raspuns de tipul da

sau nu, ci un scor sau o probabilitate ca textul sa apartina unei anumite categorii, astfel incat un

expert uman sa decida numai asupra textelor cu o probabilitate ridicata de a apartine clasei textelor

incoerente.

Utilizand aceleasi tehnici de invatare automata ca si in primul experiment (clasificator ν

support vector cu nucleu liniar, discriminant Kernel Fisher cu nucleu liniar, support vector machine

cu nucleu polinomial, discriminant Kernel Fisher cu nucleu polinomial) am obtinut rezultate

similare in ceea ce priveste acuratetea l.o.o. Cea mai buna performanta a fost obtinuta, ca si in cazul

mesajelor e-mail in limba engleza, de catre discriminantul Kernel Fisher cu nucleu polinomial, cu o

acuratete l.o.o. de 85.12%.

Toate experimentele de invatare automata au fost efectuate in Matlab, sau utilizand Matlab ca

interfata (Chang and Lin, 2001).

Sectiunea finala prezinta concluziile, principalele rezultate ale tezei si directiile principale

pentru o cercetare viitoare.

Conducator stiintific: Academician Prof.Dr. Solomon Marcus,

Referinte la articole relevante ale autoarei tezei:

1. Dinu, A. 2008. On classifying coherent/incoherent Romanian short texts. In Proceedings 6-th

international conference on Language Resources and Evaluation (LREC) 2008, Marakech,

Morocco, pp. 2871-2874.

2. Dinu, Anca. 2010.a. Annotating a Romanian lexicon in a generative framework. Bucharest

working papers in linguistics, Vol XII no. 2, pp. 83-93.

3. Dinu, Anca. 2010.b. Building a generative lexicon for Romanian. In Proceedings of The

seventh international conference on Language Resources and Evaluation (LREC), Valletta,

Malta, pp. 315-319.

4. Dinu, Anca. 2010.c. On classifying short texts. In Proceedings of International Conference

on Stochastic Modeling Techniques and Data Analysis, Chania, Crete, Greece, pp. 223-228.

5. Dinu, Anca. and Alina Tigau. 2010. Building and exploiting Romanian corpora for the study

of Differential Object Marking. In Proceedings of Exploitation of multilingual resources and

tools for Central and (South) Eastern European Languages (workshop at LREC 2010

conference), Valletta, Malta, pp.32-38.

6. Dinu, Anca and L.P. Dinu. 2005. On the syllabic similarities of Romance languages. Lecture

Notes in Computer Science, vol. 3406, pp. 785-788, Springer.

7. Dinu, Anca and Liviu P. Dinu. 2006. Total rank distance and scaled total rank distance: two

alternative metrics in computational linguistics In J. Nerbonne & E.Hinrichs (eds.)

Proceedings Linguistic Distances. Workshop at the joint conference of International

Committee on Computational Linguistics and the Association for Computational Linguistics

(ACL-COLING 2006), Sydney, pp109-117.

8. Dinu, Anca. 2011a. Versatility of ‟continuations‟ in discourse semantics. Fundamenta

Informaticae (to appear).

9. Dinu, Anca. 2011b. Quantifying over eventualities in continuation semantics. In Journal of

Multiple-Valued Logic and Soft Computing. (to appear).

10. Dinu, Anca. 2011.c. A mechanism to restrict the scope of clause-bounded quantifiers in

'continuation' semantics. In Proceedings of ACL Conference Recent Advances in Natural

Language Processing, RANLP 2011, September, 8 pp. (to appear).

11. Dinu Anca, Liviu P. Dinu, Marius Popescu. 2008. Authorship identification of Romanian

texts with controversial paternity. In Proceedings 6-th LREC 2008, Marrakech, Maroc, 3392-

3397.

http://bwpl.unibuc.ro/index.pl/annotating_a_romanian_lexicon_in_a_generative_framework

http://bwpl.unibuc.ro/index.pl/annotating_a_romanian_lexicon_in_a_generative_framework

http://bwpl.unibuc.ro/index.pl/vol_xii_nr_2_ro

http://www.c-phil.uni-hamburg.de/view/Main/LrecWorkshop2010

http://www.c-phil.uni-hamburg.de/view/Main/LrecWorkshop2010

rezumatul tezei syntactic and semantic aspects of natural...

Documents