rezumatul tezei syntactic and semantic aspects of natural...
TRANSCRIPT
Rezumatul tezei
„Syntactic and semantic aspects of natural language
processing” Anca Dinu
Domeniul general al acestei teze este lingvistica computationala si matematica (procesare de
limbaj natural), in particular semantica formala. Astfel, lucrarea are un profund caracter
interdisciplinar, intre informatica, lingvistica si matematica. Paradigma adoptata plaseaza
copmlexitatea limbajului natural la nivelul unitatilor lexicale, si nu la nivelul regulilor de formare.
Lucrarea este organizata in trei parti principale. Topica unificatoare a acestora este notiunea
de discurs, i.e. text format din mai multe propozitii in limbaj natural (si nu propozitii izolate). In
particular, teza se ocupa de fenomene de semantica a discusului ca anafora, (i.e. o expresie care se
refera la o alta expresie, localizata de obicei in texul precedent), cuantificarea, coerenta, etc. Prima
parte a tezei propune o analiza formala a semanticii discursului, plecand de la semantica la nivel
propozitional din Barker & Shan‟s (2008), care utilizeaza conceptul informatic de continuari. A
doua parte prezinta crearea si analizarea de resurse electronice pentru limba romana: un Lexicon
Generativ Roman si un corpus pentru studierea marcarii diferentiate a obiectului in limba romana.
In sfarsit, a treia parte a tezei cuprinde doua experimente de clasificare dupa criterii de
coerenta/incoerenta a unor texte scurte in engleza, respectiv in romana, utilizand tehnici de invatare
automata supervizata.
Prima parte a lucrarii propune o analiza formala explicita a semanticii discursului, utilizand
notiunea informatica de continuari. Punctul de plecare al acestei cercetari este semantica bazata pe
continuari (la nivel de propozitie) propusa in Barker & Shan‟s (2008). Aceasta analiza schimba
paradigma de la nivelul propozitiei considerate in izolatie la nivelul discursiv, in care propozitia
este considerata in context. Un discurs este interpretat in maniera secventiala de la stanga la
dreapta, interpretand pe rand, cate o propozitie. In fiecare moment al acestui proces, un anume
segment initial de text este deja procesat. Nici o propozitie nu este interpretata intr-un vid, ci este
interpretata intotdeauna in contextul la care au contribuit propozitiile precedente. Aceste sunt in
linii mari observatiile care au dus la dezvoltarea asa-numitelor semantici dimamice care
fomalizeaza modul in care cuantificatorii dintr-o formula leaga variabilele dintr-o alta formula
pentru a realiza legarea intra-propozitionala. Printre cele mai cunoscute exemple de semantici
dinamice se numara Dynamic Intensional Logic (DIL), Dynamic Montague Grammar (DMG),
Dynamic Predicate Logic (DPL) si Discourse Representation Theory (DRT).
Contributia originala a tezei in aceasta parte este formalizarea cu ajutorul continuarilor a
ideii intuitive ca operatorii propozitionali (ca, spre exemplu, punct sau punct si virgula), opereaza
din punct de vedere semantic in discurs ca functii care iau ca argument denotatia discursului din
dreapta (secventa de propozitii anterioare) si denotatia propozitiei curente si returneaza denotatia
discursului obtinut prin conjunctia acestora. Spre exemplu, formal, punctul primeste in semantica
propusa urmatoarea intrare lexicala (Dinu, 2011a):
Primul strat exprima categoria sintactica a punctului: punctul cere ca argument la stanga o
expresie de categorie S (de la sentence - propozitie), apoi o alta expresie de categorie S ca argument
la dreapta, pentru a intoarce o noua expresie de categorie S. Al doilea strat este expresia in sine,
adica punctul. Ultimul strat este interpretarea semantica a puncului: conjunctia denotatiei
discursului de pana acum (din stanga) cu denotatia propozitiei curente. Un discurs incepe cu o
propozitie initiala, apoi, printr-un proces recursiv, interpretarea punctului adauga denotatia
propozitiei curente la denotatia discursului precedent. Utilizam termenul de denotatie (sau extensie)
a unei expresii in sensul sau uzual model-teoretic, folosind notatia obisnuita bolduita: de exemplu, j
este denotatia (referinta) numelui propriu John; man este denotatia substantivului comun man – om
(i.e. functia care asigneaza valoarea de adevar unu tuturor entitarilor care au proprietatea de a fi man
si valoarea de adevar zero tuturor entitatilor care nu au aceasta proprietate); see este denotatia
verbului see – a vedea (i.e. o functie care asigneaza valoarea de adevar unu tuturor perechilor de
entitati care sunt in relatia see si valoarea de adevar zero tuturor perechilor de entitati care nu sunt in
aceasta relatie), etc.
Notiunea de continuari a fost deja utilizata pentru a analiza fenomene lingvistice inter-
propozitionale ca focus fronting, donkey anaphora, presupozitii, crossover sau superiority intr-o
serie de lucrari (Barker 2002, Barker 2004, Shan 2005, Shan and Barker 2006, Barker and Shan
2008). Pentru a analiza fenomene itra-propozitionale a fost utilizata in (de Groote 2006); iar pentru
a analiza structura discursului in (Asher and Pogodalla 2010). Meritul untilizarii continuarilor in
contextul semanticilor dinamice este ca acestea se dispenseaza de functiile de asignare, care sunt
esentiale pentru formularile DIL, DMG, DPL sau DRT si de aceea nu au probleme ca problema
asignarilor distructive din DPL sau problema suprapunerilor de variabile din DRT.
Ne vom referi la semantica unui fragment de limbaj natural care utilizeaza notiunea de
continuari prin termenul continuation semantics. In aceasta lucrare vom folosi varianta de
continuation semantics asa cum este ea prezentata in (Barker and Shan 2008). Aceasta versiune
utilizeaza ca formalism sintactic Gramaticile Categoriale, un formalism bine cunoscut cu larga
acoperire lingvistica. In general, termenul de Gramatica Categoriala (CG) denumeste un grup de
teorii sintactice si semantice in care complexitatea a fost mutata de la reguli la unitati lexicale.
Istoric, ideile CG au fost introduse in Ajdukiewicz (1935), in Bar-Hillel (1953) si in Lambek
(1958). Formal, o gramatica categoriala este un cvadruplu (∑, Cat, S, :=), unde ∑ este o multime
finita de simboluri, Cat este o multime finita de categorii primitive, si relatia := este
lexiconul, care asigneaza categorii simbolurilor . D(Cat) este cea mai mica
multime astfel incat si daca atunci . A/B si
B\A reprezinta functii de la in , unde directia slash-ului determina daca argumentul este
aplicat la dreapta (/) sau, respectiv, la stanga (\) functorului. Exista doua reguli: aplicare A/B + B =
A sau B + A\B = A si compozitie A/B + B/C = A/C. + inseama concatenare. Pentru o trecere in
revista recenta a CG, trimitem cititorul la Morrill (2010).
Continuarile sunt un instrument standard in informatica, utilizate pentru a controla efectele
secundare de calcul (ca ordinea de evaluare, printarea, sau pasarea valorilor). Sunt o notiune
recunosucta ca fiind greu de inteles, desi, de fapt nu sunt dificile in sine, ci mai degraba este dificil
de inteles cum functioneaza o gramatica continuizata. Idea de baza in continuizarea unei gramatici
oarecare este de a asigura subexpresiilor acces la propriile lor continuari (contexte viitoare); astfel,
subexpresiile sunt modificate pentru a lua o continuare ca argument. Despre o gramatica
continuizata se spune ca este scrisa in continuation passing style si este obtinuta dintr-o gramatica
oarecare, utilizand o multime de reguli formale generale. Continuation passing style este de fapt o
forma restrrictionata (typed) de lamdba-calculus. Istoric, primii operatori de continuare introdusi au
fost nedelimitati (de exemplu, call, cc sau J). O continuare nedelimitata a unei expresii reprezinta
“intregul viitor computational” al acelei expresii. Felleisen (1988) a introdus continuarile delimitate
(uneori denumite si continuari compozabile), cum ar fi control („C‟) sau prompt („%‟). Continuarile
delimitate reprezinta viitorul computational al expresiei pana la o anumita limita (granita). In mod
interesant, fenomenele de limbaj natural discutate in teza de fata, utilizeaza numai continuari
delimitate.
De exemplu, daca restrictionam contextul local la propozitie, atunci cand calculam intelesul
unei propozitii ca John saw Mary, viitorul implicit al denotatiei subiectului este ca va avea
proprietatea saw Mary. Simbolic, continuarea denotatiei subiectului j este functia . In
mod similar, viitorul implicit a denotatiei obiectului m este ca va avea proprietatea seen by John,
i.e. functia ; continuarea denotatiei verbului tranzitiv saw este functia R.R m j; iar
continuarea denotatiei constituentului verbal saw Mary este functia P.P j. Acest exemplu simplu
ilustreaza doua aspecte importante ale continuarilor: fiecare subexpresie bine formata are o
continuare si continuarea fiecarei expresii este relativa la o expresie mai mare care o contine.
Astfel, atunci cand John apare in propozitia John left yesterday, continuarea lui este
; cand apare in Mary thought John left, continuarea lui este proprietatea
, iar cand apare in propozitia Mary or John left, continuarea lui este
si asa mai departe.
Continuation semantics are urmatoarele proprietati dezirabile:
Este dinamica;
Este direct compositionala (in sensul lui Jacobson (1999));
Este extensionala (desi intentionalitatea poate fi in principiu exprimata in acest cadru);
Este libera de variabile (nu exista variabile libere, asa ca nu exista pericolul de a lega
accidental o variabila libera; este necesar doar sa redenumim variabila curenta legata cu
un nume nou, cf. conventiei lui Barendregt).
In cele ce urmeaza, vom comenta pe scurt aceste proprietati.
Informal, despre o semantica se spune ca este dinamica daca permite cuantificatorilor sa lege
in afara domeniului lor sintactic. Semanticile dinamice traditionale (Kamp 1993, Heim 1983,
Groenendijk and Stokhof 1991) trateaza intelesul propozitiilor ca functii care updateaza contextul.
Continuation semantics din Barker and Shan (2008) este dinamica intr-un sens usor diferit:
considera intelesul unei expresii ca avand o contributie dubla, e.g. contributia semantica principala
asupra structurii argumentale locale si contributia adusa de efectele secundare ale expresiei, de
exemplu relatiile semantice la distanta, incluzand domeniul quantificatorilor sau legarea.
O gramatica continuizata este compozitionala in sensul ca intelesul unei constituent sintactic
complex este functie doar de intelesul subconstituentilor lui directi si de modul in care ei sunt
combinati. A lua in serios principiul compozitionalitatii inseamna a prefera analize in care forma
logica ramane cat mai aprope posibil de forma sintactica de suprafata. A permite reprezentarilor
logice (din Logical Form - LF) sa difere in moduri neconstranse de forma sintactica de suprafata
inseamna renuntarea la intreaga forta empirica a compozitionalitatii. Acesta este sensul in care
teoriile bazate pe LF slabesc compozitionalitatea. Idealul este ceea ce Jacobson (1999) numeste
Compozitionalitate Directa, in care fiecare constituent sintactic de suprafata are o denotatie bine
definita, astfel neapelandu-se la o forma logica diferita de structura de suprafata. Continuarile sunt
compatibile cu compozitionalitatea directa.
Compozitionalitatea, cel putin asa cum a formulat-o Montague, impune ca analiza sintactica
sa dezambiguizeze complet expresia in chestiune. Vom admite, contra lui Montague, ca exista si o
ambiguitate semantica, i.e. o singura operatie de formare poate fi asociata cu mai multe interpretari
semantice. Notiunea de compozitionalitate care rezulta in urma acestei asumptii este: intelesul unei
expresii complexe din punct de vedere sintactic este functie doar de intelesul subconstituentilor ei
imediati, de modul sintactic in care acestia sunt combinati si de modul de compunere semantica.
Astfel, ambiguitatea domeniilor quantificatorilor, spre exemplu, este metacompozitionala, i.e. nu
este nici de natura exclusiv sintactica, nici de natura exclusiv semantica, ci la interfata dintre
sintaxa si semnantica.
In unele analize lingvistice elaborate, propozitiile denota functii de la entitati, momente si
lumi posibile la valori de adevar. In jargonul lingvistilor, o analiza in care se iau in considerare doar
valorile de adevar este extensionala, in timp ce o analiza ce considera si momentele si lumile
posibile este intensionala. Intensionalitatea nu este esentiala in analizele prezentate in aceasta teza,
iar tipurile sunt destul de complexe si fara a lua in calcul intentionalitatea; in consecinta, utilizam o
semantica extensionala, in care propozitiile denota numai valori de adevar. Folosim in mod curent
tipurile e (entity), t (truth value) si functii construite din aceste doua tipuri, ca, spre exemplu (e->t)-
>t, scris si <<e, t>t>. Pentru eventualitati utilizam un al treilea tip de baza, notat convenabil cu E
(pentru a-l deosebi de e). Expresiile nu vor manipula direct contextul lor pragmatic, fie ca acesta
este o multime de lumi posibile (desi perfect plauzibil, cum este prezentat in Shan and Barker
(2006)), fie ca este o multime de functii de asignare, fie orice alt fel de stare de informatie.
Merita mentionat ca unele rezultate din semanticile traditionale sunt cazuri particulare ale
rezultatelor din continuation semantics, spre exemplu:
Tipul quantificatorilor generalizati din gramaticile Montague, <<<e,t>,t>,t> este exact
tipul determinantilor cuantificationali din continuation semantics;
Tipul <<t,t>,t> al propozitiilor din semantica dinamica este exact tipul propozitiilor din
continuation semantics. De fapt, intepretarea dinamica este doar o continuizare partiala in
care doar categoria propozitiilor, S, a fost continuizata.
In mod evident, aceste fapte nu sunt simple coincidente: gramaticile Montague continuizeaza
numai denotatia constituentilor nominali si semanticile dinamice continuizeaza numai denotatia
propozitiei, in timp ce continuation semantics continuizeaza uniform toti constituentii din
gramatica.
Plecand de la continuation semantics pe care o introducem (prin formalizarea explicita a
semanticii semnelor de punctuatie dintre propozitii, ca punct sau punct si virgula), aratam cum
continuarile impreuna cu un mecanism de schimbare de tipuri sunt capabile sa analizeze un spectru
larg de fenomene lingvistice, printre care: legarea anaforei pronominale (singulare sau plurale),
domeniul cuantificatorilor, negatia, focusul, structura ierarhica de discurs, elipsa sau acomodarea.
Din punct de vedere formal, propunem denotatii pentru unele intrari lexicale respunzatoare pentru
fenomenele amintite. Spre exemplu, dam negatiei si, respectiv, operatorului de focus F urmatoarele
denotatii:
Discutam de asemenea unele aspecte problematice ale semanticii pluralului, ca, spre
exemplu, distributivitatea sau conditia de maximalitate, subliniind faptul ca anafora singulara si cea
plurala nu sunt fenomene paralele, asa cum ar putea parea la o prima vedere: pluralitatea introduce
complexitati care nu sun prezente in analiza singularului.
Trecem apoi de la cuantificarea asupra entitatilor si valorilor de adevar la cuantificare asupra
entitatilor, valorilor de adevar si eventualitatilor (Dinu, 2011b). Astfel, propunem o analiza a
cuantificarii asupra eventualitatilor si a anaforei la eventualitati, dand denotatii specifice
cuantificatorilor adverbiali always (intotdeauna) si never (niciodata) si unui cuantificator adverbial
neexprimat sau vid, pe care il consideram responsabil de sensul expresiilor in care lipsesc
cuantificatorii adverbiali exprimati (realizati la suprafata). Spre exemplu, always si never primesc
urmatoarea denotatie:
Sustinem ca Scope Domain Principle (adaptat din Landman (2000), cf. Parsons (1987)), care
spne ca intotdeauna un cuantificator asupra eventualitatilor ia domeniul cel mai restrans posibil fata
de alti cunatificatori, este prea puternic. In schimb, argumentam ca domeniul cuantificatorilor
asupra eventualtatilor este ambiguu, iar a decide care citire este preferata este o problema de
discurs. Furnizam aici detalii suficiente pentru a face plauzibila interpretarea eventualitatilor in
cadrul continuation semantic, lasand ca directii pentru cercetari viitoare aspecte imporatnte ca:
specificare completa a semaniticii eventualitatilor, care, in mod evident, nu este posibila fara a lua
in considerare rolurile tematice, aspectul gramatical, modalitatea si timpul; un mod de reprezentare
a impreciziei implicite continute in restrictia eventualitatii (RelevEvent din formulele pentru always
si never), etc.
O alta contributie originala din prima parte a tezei (Dinu, 2011.c) este propunerea unui
mecanism explicit (lasat nespecificat in abordarile precedente ale continuation semantics) care sa
asigure ca nici un element lexical cu domeniul restrictionat la propozitia minimala in care apare (ca,
spre exemplu, not, no, every, each, any, etc.) nu isi poate extinde domeniul in afara acesteia (nu
poate lega variabile aflate in afara propozitiei sale minimale). Pentru a realiza acest lucru,
introducem o noua categorie sintactica pentru propozitii minimale: C (clause), de acelasi tip
semantic t, ca al propozitiilor S. C este unitatea discursiva minimala care are ca denotatie o valoare
de adevar, pe cand S este compusa din cel putin o astfel de unitate. Constrangem prin definitie
elementele lexicale cu domeniul restrictionat la propozitia minimala in care se afla, astfel incat sa
isi poata extinde domeniul cel mult pana la granitele unei propozitii minimale. Spre exemplu,
propunem urmatoarele denotatii pentru not, no si repectiv pentru every:
Dupa interpretarea completa a propozitiei minimale in care apar aceste elemente lexicale,
categoria C trebuie convertita la categoria S. In particular, propunem utilizarea in acest scop a
urmatorului element lexical vid:
Acest pas garanteaza ca propozitiile minimale (de categorie C) pot fi procesate mai departe
ca bucati de discurs (de categorie S), pentru ca toati conectorii de discurs (ca punct, punct si virgula
sau if) iau ca argumente numai expresii de categorie S.
Pledam pentru utilizarea continuarilor in semantica formala, ca instrument puternic si
versatil, deosebit de potrivit pentru a manipula domeniul cuantificatorilor ori dependentele la
distanta lunga, fenomene ce abunda in semantica limbajului natural. Odata ce domeniul unui
cuantificator este stabilit corect, continuation semantics obtine automat si conditiile corecte de
adevar, si deci interpretarea discursului in care apare. Nici o alta teorie, din cate stim, nu permite
indefinitelor, cuantificatorilor si pronumelor sau altor anafore sa interactioneze intr-un sistem
uniform in care stabilirea domeniului de cuantificare si legarea intrebuinteaza acelasi mecanism.
La sfarsitul primei parti, propunem pentru continuarea cercetarii urmatoarele directii:
Realizarea unui algoritm care sa genereze toate interpretarile posibile penrtu un discurs
dat, in cadrul continuation semantics;
Posibilitatea de a formula teoria semantica a situatiilor in cadrul continuation semantics;
Compararea abordarii noastre asupra anaforei cu abordari paralele, ca, spre exemplu,
anafora in lingvistica algebrica.
Partea a doua a tezei prezinta realizarea si analizarea unor resurse electronice pentru limba
romana: un lexicon generativ pentru limba romana si un corpus pentru studiul marcarii diferentiate
a obiectului in limba romana.
Construirea si adnotarea lexiconului generativ roman (RoGL), in spiritul Teoriei Lexiconului
Generativ (GLT) (Pustejovsky 2006), reprezinta un proiect in curs de derulare (Dinu 2010.a, Dinu,
2010.b). GLT plaseaza complexitatea limbalului natural la nivel lexical, si nu la nivelul regulilor de
formare. Tipurile semantice constring intelesul altor cuvinte, spre exemplu verbul eat (a manca)
impune asupra obiectului sau direct interpretarea [[Food]] (mancare).
In momenul de fata, exista un numar de dictionare electronice statice pentru limba romana, ca
Romanian Lexical Data Bases of Inflected and Syllabic Forms (Barbu, 2008), G.E.R.L. (Gavrila &
Vertan, 2005), MULTEXT, etc. Astfel de abordari asupra sensului cuvintelor si expresiilor se
confrunta cu doua probleme, pentru ca presupun un numar fix de sensuri pentru un element lexical
dat:
In cazul selectarii automate a sensului, procesul de cautare si selectare automata a
sensului unei expresii devine neperfomant din punct de vedere computational, in mod
special atunci cand se analizeaza expresii lungi, formate din subexpresii ambigue;
Presupunererii ca exista o enumerare exhaustiva pentru utilizarile distincte ale unui
cuvant ii lipseste puterea explicativa necesara pentru a generaliza si prezice utilizarea
cuvintelor in moduri creative si noi.
GLT (Pustejovsky, 1995) este o teorie a tipurilor semantice cu mecanisme de selectie care
depaseste aceste neajunsuri (a se vedea, de exemplu, Proceedings of The first, second and third
International Workshop on Generative Approaches to the Lexicon 2001, 2003, 2005). Studiul
structurii elementelor lexicale din limbajul natural s-a orientat in ultimii zece ani spre dezvoltarea
de sisteme de tipuri semantice si de caracteristici ale acestora (Levin and Rappaport 2005,
Jackendoff 2002). GLT adauga acestui model general notiunea de descompunere a predicatului.
Lexicoanele construite astfel contin o cantitate considerabila de informatie si furnizeaza o
reprezentare lexicala care acopera toate aspectele sensurilor cuvintelor. Intr-un lexicon generativ,
un sens al unui cuvant este descris dupa patru niveluri de reprezentare semantica, care surprind
aspectul compozitional al sensului, definesc tipul evenimentului denotat, descriu contextul semantic
in care poate aparea cuvantul respectiv si il pozitioneaza fata de alte sensuri din lexicon. Aceste
patru niveluri ale interpretarii semantice in GLT sunt:
Strucutra tipurilor lexicale: fiecarui cuvant i se atribuie un anumit tip lexical din sistemul
de tipuri pentru limbajul vizat;
Structura argumentala: specificarea numarului si naturii argumentelor unui predicat;
Structura argumentala: definirea tipului de eveniment a unei expresii si a structurii sub-
evenimentiale pe care ar putea-o avea acea expresie;
Structura Qualia: diferentierea structurala a fortei predicative pentru un element lexical.
Teoria foloseste descompunerea predicativa totala, i.e. un mod elegant de a transforma
subpredicatele intr-o asignare de tipuri semantice argumentelor.
Asffel, GLT intrebuinteaza strategia de selectie “Fail Early” (esuare timpurie), in care
asignarea unui tip semantic unui argument este de fapt un pretest pentru predicat. Daca conditia
argumentului (adica tipul sau) nu este safisfacuta, predicatul: fie nu este intrepretat, fie isi
constrange argumentele sa isi shimbe tipul dupa un set de strategii. Modul de compozitie a doua
expresii este guvernata de reguli de compunere aplicate argumentelor care au atribuite un tip
semantic. Structura argumentala in GLT arata astfel:
, unde AS (Argument Structure) este structura argumentala, ES (Event Structure) este structura
evenimentiala, Qi (Qualia Structure) este structura qualia, iar C (Constraints) sunt constrangerile.
Structura qualia are patru niveluri :
Formal: categoria de baza care distinge expresia in cadrul unui domeniu mai larg;
Constitutiv: relatia intre un obiect si partile sale constitutive;
Telic: functia si scoupul expresiei, daca acestea exista;
Agentiv: factorii implicati in originea (sau fabricarea) obiectului pe care expresia il
reprezinta.
Sistemul de compunere a tipurilor se formeaza astfel:
e este tipul entitatilor; t este tipul valorilor de adevar. (σ si τ parcurg tipurile simple si
subtipurile ontologiei lui e)
Daca σ si τ sunt tipuri, atunci si σ -> τ este un tip;
Daca σ si τ sunt tipuri, atunci si σ • τ este un tip;
Daca σ si τ sunt tipuri, atunci si σ ʘQ τ, for Q = const(C), telic(T), or agentive(A).
Regulile de compozitie in GLT sunt:
Selectare de tip: atunci cand tipul cerut de predicat se potriveste exact cu tipul
argumentului;
Acomodare de tip: atunci cand tipul este mostenit;
Constrangere de tip: atunci cand tipul argumentului trebuie constrans sa se potriveasca cu
tipul cerut de predicat.
Domeniul indivizilor (tipul e) este impartit in trei subtipuri:
Tipul Natural: concepte atomice de tip formal, constitutiv si agentiv;
Tipul Artefactual:adauga conceptul de telic;
Tipul complex: produs cartezian de tipuri Naturale si Artefactuale.
Lexicoane generative au fost deja create pentru anumite limbi naturale. Brandeis Semantic
Ontology (BSO) este un lexicon generativ pentru engleza. PAROLE – SIMPLE – CLIPS este un
lexicon de mari dimensiuni pentru italiana cu trei niveluri distincte: fonologic, sintactic si semantic.
Sistemul de tipuri utilizat atat de BSO cat si de CLIPS este in mare parte acelasi cu cel propus in
specificatiile pentru proiectul SIMPLE (Busa et al., 2001), care a fost adoptat de catre proiectul
sponsorizat de catre Uniunea Europeana (Lenci et al., 2000).
Este interesant de mentionat ca Ruimy et al. (2005) a propus o metoda pentru construirea
semi-automata a unui lexicon generativ pentru franceza pe baza lexiconului CLIPS pentru italiana,
utilizand un dictionar bilingv si exploatand similaritatea lingvistica dintre franceza si italiana.
Crearea unui lexicon generativ de la zero pentru orce limba este o sarcina dificila, datorita
structurii semantice complexe, sistemului de tipuri semantice multi-dimensional, adnotarii
consumatoare de timp, etc. Din aceste motive, pentru realizarea lexiconului generativ pentru limba
romana, am utilizat experienta si structurile lexicoanelor generative existente pentru alte limbi, ca
BSO sau CLIPS.
RoGL contine un corpus, un sistem de tipuri, o interfata grafica de adnotare si o baza de date
din care se genereaza date in format XML. Interfata si baza de date unde sunt stocate si procesate
intrarile lexicale adnotate sunt gazduite de serverul Facultatii de Matematica si Informatica,
Universitatea din Bucuresti: http://ro-gl.fmi.unibuc.ro.
Pentru implementarea structurii generative si a regulilor de compozitie, am ales un limbaj de
programare functionala, si anume Haskell. Aceasta alegere a fost determinata de faptul ca
reducerea expresiilor lambda (in mod evident necesara in implementarea unui lexicon generativ),
evaluarea unui program (i. e. o functie) in Haskell, si compunerea de expresii intr-un limbaj natural
sunt, intr-un anumit sens, unul si acelasi lucru.
Cel mai important lucru care ramane de realizat pentru RoGL ramane adaugarea mai multor
elemente lexicale adontate. Procesul de adnotare manuala, desi standardizat si mediat de interfata
grafica este mare consumator de timp, in mod special pentru informatii complexe ca acelea cerute
de un lexicon generativ.
O alta resursa electronica pentru limba romana pe care am creat-o este un corpus pentru
studiul marcarii diferentiate a obiectului (Differential Object Marking - DOM). Motivatia pentru
aceasta intreprindere este faptul ca in romana marcarea obiectului direct in cazul acuzativ utilizand
prepozitia „pe” in combinatie sau nu cu dublare prin clitic implica mecanisme care nu sunt pe
deplin intelese si care, pentru vorbitorul ne-nativ par a nu se supune nici unei reguli. Parametrul
DOM diferentiaza limbi precum spaniola, romana, turca sau rusa care au o inclinatie spre a marca
obiectele ‚proeminente‟ (i.e. animate, definite sau specifice) si alete limbi precum germana,
olandeza sau engleza, in care nu se manifesta o astfel de distinctie intre tipurile obiectului direct
(aceste limbi se bazeaza in principal pe ordinea cuvintelor pentru marcarea obiectului direct).
Astfel, aceasta cercetare abordeaza o anumita diferenta lingvistica intre cele doua grupe de limbi.
De asemenea, cercetarea prezinta o descriere sistematica a DOM, bazata pe dovezi empirice
prezente in corpusul creat. Studiul realizat poate fi utilizat ulterior pentru cresterea eficientei
metodelor statistice in domeniu.
Pentru a extrage informatii empirice in legatura cu interpretarea marcarii diferentiate a
obiectului direct cu „pe” in limba romana, am construit semi-automat un corpus de fraze in limba
romana care contin prepozitia „pe”. Singura problema a fost detectarea manuala si stergerea din
copus a aparitiilor prepozitiei omonime „pe” care inseamna deasupra. Corpusul contine 960 de
exemple relevente din romana moderna (560 extrase automat din ziare disponibile public pe
Internet si restul de 400 de example create artificial din nevoia de a tesa comportamentul obiectului
direct in structuri si conditii diverse, greu de gasit in textele electronice). Am adnotat apoi manual
obiectele directe din acest corpus cu trasaturile interpretabile semantic pe care le suspectam, pe
baza unor studii anterioare, ca sunt relevante pentru DOM, trasaturi precum [±animat], [±definit],[
±uman].
Am asamblat de asemenea un corpus care contine 779 de exemple din texte in romana de
secole XVI si XVII (extrase din approximativ 1000 pagini de texte vechi), pentru a studia evolutia
temporala a DOM in Romana. Pe baza datelor prezente in acest corpus de romana veche am
remarcat ca prepozitia „pe” a fost cel mai mult utilizata pentru marcarea obiectului direct in textele
datand din secolul XVII, pana in secolul XVIII devenind deja norma sintactica. Se pare ca
acuzativul a fost sistematic asociat cu prepozitia p(r)e, indiferent de clasa semantica sau
morfologica a obiectului direct. Acest lucru corespunde cu cercetarile lui Heusinger & Onea (2008)
care au observat ca in secolul XIX s-a atins varful in ceea ce priveste utilizarea prepozitiei „pe”,
pentru ca in secolele XIX–XX aceasta evolutie sa aiba o panta descendenta pana in prezent, cand,
utilizarea lui „pe” este mai restrictionata decat era acum doua secole, dar mai relaxata decat in XVI.
In concluzie, putem prezenta urmatoarea analiza sistematica a acestui fenomen linvistic pe
baza dovezilor empirice prezente in corpus:
Pronumele (personale, de politete, reflexive, posesive si demonstrative) aflate in pozitie
de obiect direct sunt marcate obligatoriu prin utilizarea prepozitiei „pe”, indiferent daca
referentul este animat sau nu (l-am vazut pe el/*l-am vazut el).
Marcarea numelor proprii in pozitie de obiect direct prin „pe” este conditionata de scara
trasaturii [±animat]: este obligatorie cu nume proprii care se refera la obiecte cu trasatura
[+ human] (am vazut-o pe Maria/*am vazut-o Maria), optionala cu nume proprii care se
refera la obiecte cu trasatura [+ animate] , si negramaticala cu nume proprii care se refera
la obiecte cu trasatura [-animate] (am vazut cartea/*am vazut pe cartea).
Descriptiile definite sunt marcate optional cu prepozitia „pe”;
Descriptiile indefinite: numai descriptiile indefinite specifice pot fi marcate optional cu
prepozitia „pe”; Marcarea cu „pe” a descriptiilor indefinite nespecifice este
negramaticala.
A treia parte a tezei cuprinde doua experimente de clasificare dupa coerenta/incoerenta a
unor texte scurte in limbile engleza, si, respectiv, romana, utilizand tehnici de invatare automata.
Criteriile tipice de categorizare a textului cuprind categorizare dupa domeniu, dupa stil (clasificare
dupa gen, identificare de autor (Dinu et al., 2008)), dupa limba (Dinu and Dinu 2005, Dinu and
Dinu 2006), dupa opinia exprimata (opinion mining, sentiment classification), etc. Foarte putine
analize considera problema categorizarii de text dupa gradul de coerenta, ca in (Miller, 2003).
Primul experiment (Dinu 2010.c) are in vedere una dintre noile strategii adoptate de catre
spammers pentru a trimite mesaje e-mail nedorite in conturi personale, si anume codificarea
mesajului real ca imagine, imposibil de detectat si respins de catre filtrele clasice si acompanierea
acestei imagini cu un text special construit pentru a trece de aceste filtre. Pentru cititor, textul din
imagine este usor de inteles, spre deosebire de textul care il acompaniaza, care este incorect fie din
punct de vedere sintactic (o colectie de cuvinte), fie semantic, fie pragmatic (colectii de proverbe,
sau texte obtinute prin alaturarea de fraze sau paragrafe din texte diferite. Pentru filtrele clasice,
care se bazeaza de obicei pe algoritmi care utilizeaza ca trasaturi cuvinte cu incarcatura semantica,
imaginea nu furnizeaza nici un fel de informatie, in vreme ce textul care o acompaniaza poate trece
drept valid (deoarece contine cuvinte cu incarcatura semantica diferite de cele prezente in mod
obisnuit in mesaje spam).
Abordarea pe care o propunem pentru a trata aceasta problema este de natura cantitativa. Ea
se bazeaza pe utilizarea rapoartelor dintre categoriile morfologice prezente in text ca trasaturi
discriminante, presupunand ca aceste rapoarte nu sunt complet aleatoare intr-un text coerent.
Folosim cateva tehnici reprezentative de invatare automata pe un corpus de dimensiuni reduse
alcatuit din mesaje e-mail in engleza si lasam algoritmii sa extraga trasaturile importante dintre
toate rapoartele intre partile de vorbire. Datorita numarului relativ mic de exemple (pozitive si
negative) din experimentul nostru, am utilizat „leave one out cross validation”, un estimator al
erorii de generalizare considerat ca fiind aproape impartial. Tehnica „leave one out” (l.o.o.) consta
in scoaterea fiecarui exemplu din multimea de antrenare, antrenarea pe toate celelalte si testarea pe
toate exemplele.
Prima tehnica utilizata, si ce mai simpla, este regresia liniara (Duda et al., 2001), nu datorita
acuratetei sale de clasificare, ci pentru ca, fiind o metoda liniara, permite analizarea importantei
fiecarei trasaturi, si astfel, determinarea celor mai proeminente trasaturi discriminatoare pentru
experiment. Acuratetea l.o.o. obtinuta pentru regresia liniara este de 68.18%, procent pe care il
folosim ca referinta (baseline) pentru experimentele urmatoare. Dintre cele patru tehnici de
invatare automata (clasificator ν support vector cu nucleu liniar, discriminant Kernel Fisher cu
nucleu liniar, support vector machine cu nucleu polinomial, discriminant Kernel Fisher cu nucleu
polinomial), discriminantul Kernel Fisher cu nucleu polinomial a obtinut cea mai buna
performanta, cu o acuratete l.o.o. de 85.48%. Consideram ca acesta este un rezultat bun, pentru ca o
parte dintre erori sunt inerente (transmise de la etichetarea automata cu parti de vorbire sau de la
clasificarea umana subiectiva) si pentru ca, utilizand doar frecventele partilor de vorbire se ignora
multe alte trasaturi esentiale pentru determinarea coerentei, cum ar fi, spre exemplu, ordinea
propozitiilor, rezolvarea co-referentelor, relatiile retorice, etc.
Lasam pentru o cercetare ulterioara compararea acestei abordari cantitative cu unele tehnici
calitative referitoare la coerenta textului, cum ar fi „latent semantic analysis” (Dumais et al., 1988
), „lexical chains” (Hirst and St.-Onge, 1997), saua analiza coerentei si coeziunii textului (Marcus,
1980). De asemenea, ar fi de interes un experiment in care antrenarea masinii sa aiba ca scop
obtinerea unei erori minime pentru exemplele pozitive (texte coerente trimise in Spam), chiar daca
eroarea pentru exemplele negative devine astfel mai mare (texte incoerente trimise in Inbox).
Al doilea experiment (Dinu, 2008) aplica acelasi set de tehnici de invatare automata utilizate
in cadrul primului experiment, de aceasta data pentru a clasifica texte scurte in limba romana ca
fiind coerente sau incoerente. Experimentul a fost efectual pe un corpus de dimensiuni reduse
alcatuit din texte scurte in limba romana. Textele au fost selectate din 6 manuale alternative de
nivel liceal. In ultimele doua decenii, in Romania s-au produs si distribuit un numar impresionant
de manuale altenative. Datorita cantitatii mari de astfel de materiale si a timpului scurt in care au
fost produse, a aparut problema modului de evaluare a calitatii acestora; procesul de evaluare tine
in mod curent de opinii personale subiective, in lipsa instrumentelor de procesare automata pentru
limba romana. Dezbaterile despre pretinse manuale de slaba calitate au rezultat intr-un numar de
exemple de paragrafe incomprehensible / incoerente extrase din manuale romanesti. Scopul nostru
a fost de a crea un instrument automat care sa poata fi folosit ca un indicator de proasta calitate a
acestor texte.
Clasificarea manuala in doar doua categorii: texte coerente si texte incoerente este, asa cum
au observat si unii adnotatori, prea restrictiva; cu toate ca o decizie mai nuantata, spre exemplu cu
optiuni de clasificare ca foarte dificil de urmarit, sau usor de urmarit, etc. ar fi fost si mai utila, am
decis sa pastram problema de categorizare la numai doua clase, din motive de simplicitate. Lasam
petru o cercetare ulterioara crearea unui instrument care sa produca nu doar un raspuns de tipul da
sau nu, ci un scor sau o probabilitate ca textul sa apartina unei anumite categorii, astfel incat un
expert uman sa decida numai asupra textelor cu o probabilitate ridicata de a apartine clasei textelor
incoerente.
Utilizand aceleasi tehnici de invatare automata ca si in primul experiment (clasificator ν
support vector cu nucleu liniar, discriminant Kernel Fisher cu nucleu liniar, support vector machine
cu nucleu polinomial, discriminant Kernel Fisher cu nucleu polinomial) am obtinut rezultate
similare in ceea ce priveste acuratetea l.o.o. Cea mai buna performanta a fost obtinuta, ca si in cazul
mesajelor e-mail in limba engleza, de catre discriminantul Kernel Fisher cu nucleu polinomial, cu o
acuratete l.o.o. de 85.12%.
Toate experimentele de invatare automata au fost efectuate in Matlab, sau utilizand Matlab ca
interfata (Chang and Lin, 2001).
Sectiunea finala prezinta concluziile, principalele rezultate ale tezei si directiile principale
pentru o cercetare viitoare.
Conducator stiintific: Academician Prof.Dr. Solomon Marcus,
Referinte la articole relevante ale autoarei tezei:
1. Dinu, A. 2008. On classifying coherent/incoherent Romanian short texts. In Proceedings 6-th
international conference on Language Resources and Evaluation (LREC) 2008, Marakech,
Morocco, pp. 2871-2874.
2. Dinu, Anca. 2010.a. Annotating a Romanian lexicon in a generative framework. Bucharest
working papers in linguistics, Vol XII no. 2, pp. 83-93.
3. Dinu, Anca. 2010.b. Building a generative lexicon for Romanian. In Proceedings of The
seventh international conference on Language Resources and Evaluation (LREC), Valletta,
Malta, pp. 315-319.
4. Dinu, Anca. 2010.c. On classifying short texts. In Proceedings of International Conference
on Stochastic Modeling Techniques and Data Analysis, Chania, Crete, Greece, pp. 223-228.
5. Dinu, Anca. and Alina Tigau. 2010. Building and exploiting Romanian corpora for the study
of Differential Object Marking. In Proceedings of Exploitation of multilingual resources and
tools for Central and (South) Eastern European Languages (workshop at LREC 2010
conference), Valletta, Malta, pp.32-38.
6. Dinu, Anca and L.P. Dinu. 2005. On the syllabic similarities of Romance languages. Lecture
Notes in Computer Science, vol. 3406, pp. 785-788, Springer.
7. Dinu, Anca and Liviu P. Dinu. 2006. Total rank distance and scaled total rank distance: two
alternative metrics in computational linguistics In J. Nerbonne & E.Hinrichs (eds.)
Proceedings Linguistic Distances. Workshop at the joint conference of International
Committee on Computational Linguistics and the Association for Computational Linguistics
(ACL-COLING 2006), Sydney, pp109-117.
8. Dinu, Anca. 2011a. Versatility of ‟continuations‟ in discourse semantics. Fundamenta
Informaticae (to appear).
9. Dinu, Anca. 2011b. Quantifying over eventualities in continuation semantics. In Journal of
Multiple-Valued Logic and Soft Computing. (to appear).
10. Dinu, Anca. 2011.c. A mechanism to restrict the scope of clause-bounded quantifiers in
'continuation' semantics. In Proceedings of ACL Conference Recent Advances in Natural
Language Processing, RANLP 2011, September, 8 pp. (to appear).
11. Dinu Anca, Liviu P. Dinu, Marius Popescu. 2008. Authorship identification of Romanian
texts with controversial paternity. In Proceedings 6-th LREC 2008, Marrakech, Maroc, 3392-
3397.