informatica umanistica d: lessicografia e computer
DESCRIPTION
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER. Corpora e contesti Concordanze Collocazioni. CITAZIONI. You taught me language, and my profit on’t Is, I know not how to curse: the red plague rid you For LEARNING me your language - PowerPoint PPT PresentationTRANSCRIPT
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER
Corpora e contesti
Concordanze
Collocazioni
CITAZIONI
You taught me language, and my profit on’t
Is, I know not how to curse: the red plague rid you
For LEARNING me your language
Citazione da The Tempest in Johnson’s Dictionary
Due usi di contesti nella lessicografia
Per determinare conoscenze lessicali nel senso discusso nelle due lezioni precedenti Classe grammaticale, accezioni CONCORDANZE
Per identificare aspetti ‘collocazionali’ COLLOCAZIONI
CONCORDANZE
In Pinocchio, la forma BUONO occorre 11 volte.
Domande che si pone un lessicografo: Quali parti del discorso? Quali sensi? Usati in quali contesti?
Soluzione: le CONCORDANZE
CONCORDANZE
1 1, 1 | uomini, sono stati e sono o repubbliche o principati. È principati 2 2, 1 | indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3 5, 2 | assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4 8, 1 | dove si trattassi delle repubbliche. Questi sono quando, o per 5 12, 3 | vede a' principi soli e repubbliche armate fare progressi grandissimi, 6 13, 6 | Alessandro Magno, e come molte repubbliche e principi si sono armati 7 15, 1 | molti si sono immaginati repubbliche e principati che non si
CONCORDANZA = forma + contesto
STRUMENTI INFORMATICI PER LA RICERCA DICONCORDANZE
Esistono oggi moltissimi strumenti che permettono di eseguire il tipo di analisi appena visto automaticamente
Esempi: WORDSMITH distribuito da ICAME (a
pagamento) TextSTAT (gratis) WORDSKETCH (a pagamento)
TextSTAT
Sviluppato dal Dipartimento di Linguistica Olandese della Freie Universitaet Berlin
Permette di estrarre FREQUENZE e CONCORDANZE da ‘CORPORA’ che includono testi in ASCII, HTML, e WORD
Si puo’ scaricare da: http://www.niederlandistik.fu-berlin.de/textstat/software-en.html
TextSTAT
CONCORDANZE: FORME DIVERSE DI CONTESTO
e le colonne e i simulacri e l’ERMEch’abbella agli occhi tuoi quest’ERMO lido,Bruto per l’atra notte in ERMA sede, ERMA terrena sede! Oh quanto affannoSempre caro mi fu quest’ERMO colle,l’ERMA terra contemplo, e di fanciullade’ tuoi steli abbellir l’ERME contrade
ERME Torri, I 2ERMO lido, IV 4ERMA sede, VI 11 ERMA terrena sede, VIII 36ERMO colle, XII 1L’ERMA terra contemplo, XVI 63ERME contrade, XXXIV 8
COMBINAZIONI DI PAROLE E COLLOCAZIONI
“You can tell a word from the company it keeps” (Firth, 1957)
La competenza lessicale non consiste solo di conoscenza sintattica, morfologica, e semantica
Ma anche di conoscenza in parte arbitraria su quali parole si combinano di preferenza
Restrizioni sulle combinazioni di parole
Ordine *Il maglione che righe a indossi, *dormire il letto
Restrizioni concettuali ?? Il letto e’ corso a casa
Restrizioni lessicali Francese: crescere = grandir (persone), pousser
(piante) Tedesco: mangiare = essen (persone), fressen
(animali)
Restrizioni lessicali
The tall boy (*the high boy) Mantenere un segreto (? Conservare
un segreto)
COLLOCAZIONI
In lessicografia si distingue tradizionalmente tra `normali’ restrizioni lessicali e COLLOCAZIONI
Collocazioni
Pioggia battente (?? Pioggia intensa) Stendere un documento (? Scrivere un
documento) Lanciare un messaggio
Intuizione:
In queste combinazioni di parole, stendere, battente, lanciare (i COLLOCATI) sono ‘scelti’ dalle BASI (documento, pioggia, messaggio) per esprimere un significato che non hanno quando usati con altre parole ‘Meaning by collocation’, Firth 1957
Definizione di collocazione
Una collocazione e’una combinazione di parole soggetta ad una restrizione lessicale per la scelta di una parola (il COLLOCATO) e’ condizionata da una seconda parola (la BASE)
Importanza delle collocazioni
A livello avanzato di conoscenza della lingua straniera, le collocazioni fanno la differenza Italiano lavarsi i denti =
Inglese brush one’s teeth (spazzolare) = Tedesco sich Die Zaehne putzen (pulirsi)
VERBI SUPPORTO (= WEAK VERBS)
Un caso particolare di collocazioni della forma VERBO + NOME in cui la base (il nome) determina il significato del collocato (il verbo) Prendere una decisione,
dare spiegazioni, fare una telefonata, essere in dubbio, avere paura
Il verbo ha un significato generico e spesso contribuisce solo il tempo
LOCUZIONI od ESPRESSIONI IDIOMATICHE
Differenza fondamentale dalle costruzioni precedenti: il significato non e’ costruito dai costituenti
alzare il gomitotagliare la cordavuotare il saccomosca bianca
RICERCA AUTOMATICA DI COLLOCAZIONI
Il termine ‘collocazione’ e’ usato in linguistica computazionale in senso piu’ lato per indicare tanto le restrizioni lessicali quanto le collocazioni vere e proprie quanto gli idiomi
Dalla definizione alla ricerca
Non e’ facile definire il termine ‘collocazione’ in modo da poterne automatizzare la ricerca. Si trovano definizioni Frequentista Fraseologica
Criteri: Definizione dev’essere UTILE dal punto di vista
lessicografico Dev’essere FACILE da OPERAZIONALIZZARE
(e possibilmente, automatizzare)
Definizione frequentista
Una collocazione e’ ogni combinazione di parole che occorre molto di frequente Piu’ precisamente: ogni combinazione
che occorre piu’ frequentemente di quanto non ci si aspettasse per caso
Problema: pura frequenza non implica interesse lessicografico Ho mangiato, va’ a casa, cosa dire
COLLOCATI PIU’ FREQUENTI DI ATTENZIONE
Definizioni fraseologiche
Una collocazione e’ una co-occorrenza di parole soggetta ad una regola di restrizione (Melcuk & Wanner) Troppo generale: esistono molti tipi di
restrizioni
ALLA RICERCA DI COLLOCAZIONI NEI CORPORA
I metodi per la ricerca automatica di collocazioni sfruttano una combinazione di informazioni: FREQUENZA
Da sola pero’ non e’ sufficiente INFORMAZIONI FRASEOLOGICHE INDICAZIONI DI ‘DISTINZIONE’
INFORMAZIONI FRASEOLOGICHE
Si utilizzano corpora in cui i token sono stati classificati grammaticalmente
Ci si concentra su alcune combinazioni sintattiche: VERBO NOME NOME AGGETTIVO AGGETTIVO NOME
Potenziali collocati di documento
INDICAZIONI DI ‘IMPORTANZA’
Una volta identificate le costruzioni piu’ frequenti, si cerca di stimare quali siano le costruzioni piu’ INTERESSANTI
Le costruzioni interessanti sono quelle che sembrano occorrere con una frequenza maggiore di quella che ci si aspetterebbe
UN ESEMPIO DI INDICAZIONE DI IMPORTANZA
La MUTUAL INFORMATION e’ una misura che calcola il rapporto tra la PROBABILITA’ di incontrare due parole assieme con la probabilita’ di incontrarle individualmente Intuizione: se la frequenza di occorrenza
di due parole e’ piu’ alta di quel che ci si aspetterebbe, e’ possibile che costituiscano una collocazione
MUTUAL INFORMATION
ESEMPIO
LE PAROLE CON MI PIU’ ALTA NEL WEBBIT
Scelta tra potenziali candidati
Il passo successivo sarebbe identificare i candidati che Esprimono restrizioni lessicali interessanti Esprimono vere e proprie collocazioni (= in cui il
collocato ha un significato inusuale) Esprimono delle locuzioni (il significato non puo’
essere derivato dai componenti) Questo passo dev’essere fatto a mano!
Collocazioni e lessicografia
Che differenza c’e’ tra morbido e soffice?
Collocati di morbido: panno, pelle, gomma, burro
Collocati di soffice: erba, sabbia, treccia, superficie
Letture
Jezek, capitolo 6 Lenci Montemagni e Pirrelli, capitolo 7
Per saperne di piu’
Linguistica Applicata, Modulo B (Da cui arrivano alcuni dei lucidi)