informatica umanistica d: lessicografia & computer lessici e corpora
TRANSCRIPT
![Page 1: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/1.jpg)
INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER
LESSICI E CORPORA
![Page 2: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/2.jpg)
USO DEI CORPORA NELLA LESSICOGRAFIA
Where did the Encarta Concise English Dictionary’s editors find the information on which to base their definitions? The Bloomsbury Corpus of World English, which now has over 150 million words, provided the main evidence. We amplified this with a tailored reading programme in science, technology, business, and other key areas in order to find evidence of word use in varied fields. Lastly we used the Internet as a research source.
Introduzione a ECED (citata da Jackson, p. 167)
![Page 3: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/3.jpg)
ALTRI DIZIONARI BASATI SU CORPORA
Collins COBUILD BANK OF ENGLISH (Birmingham)
(400M) Oxford, Longman
BRITISH NATIONAL CORPUS (150M) Cambridge
CAMBRIDGE LANGUAGE SURVEY
![Page 4: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/4.jpg)
ITALIANO
Non esiste ancora un dizionario come CoBUILD
Vocabolario Elettronico della Lingua Italiana, VELI (De Mauro / IBM, 1989)
Lessico di Frequenza dell’Italiano Parlato (LIP) (De Mauro et al, 1993)
![Page 5: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/5.jpg)
CORPORA
CORPUS: una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri.
Lenci, Montemagni & Pirrelli, p. 26
![Page 6: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/6.jpg)
CORPORA & COMPUTERS
I corpora esistevano prima dell’avvento dei calcolatori elettronici, ma le loro funzionalita’ e dimensioni erano limitate
![Page 7: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/7.jpg)
TIPI DI CORPORA
GENERALI (Brown, BNC) o SPECIFICI (Childes, ICONOCLAST, EuroParl)
SCRITTO (BNC) o PARLATO (LIP) od ambedue
SINCRONICO (Brown) o DIACRONICO (Italnet, Repubblica)
MONOLINGUA, MULTILINGUE (Parole), o PARALLELI (Hansard, EuroParl)
![Page 8: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/8.jpg)
ALCUNI CORPORA PER L’INGLESE
Corpus # Tokens Comments
Brown 1 000 000 Tagged, balanced
British National Corpus (BNC)
100 000 000 POS tagged
Penn Treebank 2 000 000 Parsed
MapTask 150 000 Spoken dialogue, parsed, dialogue acts
Bank Of English 450 000 000 Aperto
![Page 9: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/9.jpg)
IL BROWN CORPUS
Il primo corpus in formato elettronico moderno (Francis and Kucera, 1961)
500 testi, ognuno 2 000 parole Analisi SINCRONICA dell’Inglese
Americano: testi di 15 generi (fantascienza, romanzi, articoli scientifici, reportage a stampa)
Annotata la parte del discorso di tutte le parole (87 classi)
![Page 10: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/10.jpg)
CORPORA MODERNI
Includono scritto, parlato, & nuove forme (web, email, blogs)
Tipicamente testi interi Sopra i 100 milioni di parole Marcatura standardizzata (tipicamente
XML)
![Page 11: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/11.jpg)
IL British National Corpus (BNC)
Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press
Circa 100 milioni di parole Classificazione grammaticale automatica
usando il classificatore CLAWS (parti corrette a mano successivamente)
http://www.hcu.ox.ac.uk/BNC
![Page 12: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/12.jpg)
FORMATO (SGML)
<div1 complete=y org=seq> <head> <s n=00040> <w NN2>TROUSERS <w VVB>SUIT </head> <caption> <s n=00041> <w EX0>There <w VBZ>is <w PNI>nothing <w AJ0>masculine <w PRP>about <w DT0>these <w AJ0>new <w NN1>trouser <w NN2-VVZ>suits <w PRP>in <w NN1>summer<w POS>'s <w AJ0>soft <w NN2>pastels<c PUN>. <s n=00042> <w NP0>Smart <w CJC>and <w AJ0>acceptable <w PRP>for <w NN1>city <w NN1-VVB>wear <w CJC>but <w AJ0>soft <w AV0>enough <w PRP>for <w AJ0>relaxed <w NN2>days </caption>
![Page 13: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/13.jpg)
REINTERPRETAZIONE XML
<head> <s id=“n00040”> <w C=“NN2”>TROUSERS </w><w C=“VVB”>SUIT </w></head> <caption> <s id=“n00041”> <w C=“EX0”>There </w><w C=“VBZ”>is </w><w C=“PNI”>nothing </w><w C=“AJ0”>masculine </w> ….</s> <s n=00042> … </s>…….</caption>
![Page 14: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/14.jpg)
BNC: INTERFACCIA
Query tool: SARA Interfaccia WEB: http://
sara.natcorp.ox.ac.uk/lookup.html
![Page 15: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/15.jpg)
CORPORA PER L’ITALIANO
Il termine ‘corpus’ usato perche’ il primo corpus elettronico e’ la raccolta dei testi di S. Tommaso d’Aquino creata da padre Busa negli anni ’50
Alcuni corpora: ITALNET (1849 testi anteriori a Boccaccio) LIP (de Mauro et al, 1993) REPUBBLICA
![Page 16: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/16.jpg)
UN ESEMPIO: IL CORPUS DI REPUBBLICA
Creato da SSMIT all’Universita’ di Bologna (Forli’) Annate di Repubblica dal 1985 al 2000 380 milioni di parole tokenizzate, classificate
grammaticalmente, e lemmatizzate Codifica XML secondo lo standard TEI Disponibile a:
http://sslmitdev-online.sslmit.unibo.it/corpora/corpus.php?path=&name=Repubblica (Occorre registrarsi)
![Page 17: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/17.jpg)
CORPORA PER LA LESSICOGRAFIA
Esempio del tipo di scelte che si devono fare
Tipicamente includono sia parlato che scritto
Diacronici
![Page 18: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/18.jpg)
ANALISI LESSICOGRAFICA DI TESTI
Identificazione dei LEMMI (e delle loro parti del discorso)
Calcolo delle loro frequenze Costruzione di CONCORDANZE
liste ordinate di parole che si trovano in un testo con il contesto
Identificazione di COLLOCAZIONI “broken twig”
![Page 19: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/19.jpg)
L’IDENTIFICAZIONE DEI LEMMI IN UN TESTO
TOKENIZZAZIONE LEMMATIZZAZIONE CLASSIFICAZIONE GRAMMATICALE
![Page 20: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/20.jpg)
TOKENIZZAZIONE
C’ERA UNA VOLTA UN PEZZO DI LEGNO.
C’ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO. |
C’ | ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO | . |
![Page 21: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/21.jpg)
ALCUNI PROBLEMI CON IL PUNTO
C’ERA UNA VOLTA UN PEZZO DI LEGNO.
IL SIG. ROSSI TELEFONÓ A CASA.
U.S.A.
9.45
WWW.GOOGLE.IT
![Page 22: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/22.jpg)
MAIUSCOLE E MINUSCOLE
Rossi / rossi
Ciliegia / ciliegia
![Page 23: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/23.jpg)
TOKEN COMPLESSI
Los Angeles, La Spezia Di rado, fuori servizio Ad hoc Tagliare la corda GU L 161 del 26.6.1999
![Page 24: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/24.jpg)
LEMMATIZZAZIONE
DARGLIELO
![Page 25: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/25.jpg)
LEMMATIZZAZIONE NEL LIP
In Italiano, una volta nota la categoria grammaticale di una forma il lemma e’ solitamente univocamente determinato Eccezioni: 1.4% (CONTI: pl. di
CONTO o CONTE) Processo in tre passi
![Page 26: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/26.jpg)
LEMMATIZZAZIONE
ANCORA LA DERIVA:1. ANCORA (N, V, CON) LA (ART, PRO)
DERIVA N, V)
2. ANCORA (V) LA (ART) DERIVA (N)
3. ANCORA (V ANCORARE) LA (ART IL) DERIVA (N DERIVA)
![Page 27: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/27.jpg)
LEMMATIZZAZIONE CON XELDA
![Page 28: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/28.jpg)
XELDA: DEMO ONLINE
Analisi morfologica in 14 lingue
![Page 29: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/29.jpg)
CLASSIFICAZIONE GRAMMATICALE
In molti dei corpora piu’ recenti (a partire dal Brown corpus), e particolarmente in quelli usati per la lessicografia, i lemmi vengono classificati con la loro parte di discorso
Brown corpus: fatto a mano BNC, LIP: fatto automaticamente
![Page 30: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/30.jpg)
CLASSIFICAZIONE GRAMMATICALE
Molte forme di parola possono essere associate con parti del discorso diverse: STATO sia sostantivo (LO STATO
ITALIANO) che verbo (NON SONO STATO IO)
![Page 31: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/31.jpg)
CLASSIFICAZIONE GRAMMATICALE: BROWN CORPUS
Television/NN has/HVZ yet/RB to/TO work/VB out/RP a/AT living/RBG arrangement/NN with/IN jazz/NN ,/, which/VDT comes/VBZ to/IN the/AT medium/NN more/QL as/CS an/AT uneasy/JJ guest/NN than/CS as/CS a/AT relaxed/VBN member/NN of/IN the/AT family/NN ./.
![Page 32: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/32.jpg)
AMBIGUITA’ NELLA CLASSIFICAZIONE GRAMMATICALE
The ATman NN VBstill NN VB RBsaw NN VBDher PPO PP$
![Page 33: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/33.jpg)
STATISTICHE SULL’AMBIGUITA’ NEL B.C.
Unambiguous (1tag) 35,340Ambiguous (2-7 tags) 4,100
2 tags 3,7603 tags 2644 tags 615 tags 126 tags 27 tags 1 (“still”)
![Page 34: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/34.jpg)
METODI PER LA CLASSIFICAZIONE GRAMMATICALE
Prevalentemente STATISTICI Combinano:
Informazioni sulla FREQUENZA di una parola
Con informazioni sul CONTESTO (specialmente parole precedenti)
E sulla sua MORFOLOGIA (specialmente per parole sconosciute) POBILARE
![Page 35: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/35.jpg)
CONCORDANZE
In Pinocchio, la forma BUONO occorre 11 volte.
Domande che si pone un lessicografo: Quali parti del discorso? Quali sensi? Usati in quali contesti?
Soluzione: le CONCORDANZE
![Page 36: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/36.jpg)
CONCORDANZE
1 1, 1 | uomini, sono stati e sono o repubbliche o principati. È principati 2 2, 1 | indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3 5, 2 | assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4 8, 1 | dove si trattassi delle repubbliche. Questi sono quando, o per 5 12, 3 | vede a' principi soli e repubbliche armate fare progressi grandissimi, 6 13, 6 | Alessandro Magno, e come molte repubbliche e principi si sono armati 7 15, 1 | molti si sono immaginati repubbliche e principati che non si
CONCORDANZA = forma + contesto
![Page 37: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/37.jpg)
RICERCHE E CONCORDANZE NEL CORPUS DI REPUBBLICA
L’interfaccia Web al corpus puo’ essere usata per Query di vario tipo (ritrovano
concordanze) Calcolare frequenze di parole
![Page 38: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/38.jpg)
TOOLS PER L’ANALISI LESSICOGRAFICA
Esistono oggi moltissimi tools che permettono di eseguire il tipo di analisi appena visto automaticamente
Esempi: WORDSMITH distribuito da ICAME (a
pagamento) TextSTAT (gratis) WORDSKETCH (a pagamento)
![Page 39: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/39.jpg)
TextSTAT
Sviluppato dal Dipartimento di Linguistica Olandese della Freie Universitaet Berlin
Permette di estrarre FREQUENZE e CONCORDANZE da ‘CORPORA’ che includono testi in ASCII, HTML, e WORD
Si puo’ scaricare da: http://www.niederlandistik.fu-berlin.de/textstat/software-en.html
![Page 40: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/40.jpg)
TextSTAT
![Page 41: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/41.jpg)
CONCORDANZE: FORME DIVERSE DI CONTESTO
e le colonne e i simulacri e l’ERMEch’abbella agli occhi tuoi quest’ERMO lido,Bruto per l’atra notte in ERMA sede, ERMA terrena sede! Oh quanto affannoSempre caro mi fu quest’ERMO colle,l’ERMA terra contemplo, e di fanciullade’ tuoi steli abbellir l’ERME contrade
ERME Torri, I 2ERMO lido, IV 4ERMA sede, VI 11 ERMA terrena sede, VIII 36ERMO colle, XII 1L’ERMA terra contemplo, XVI 63ERME contrade, XXXIV 8
![Page 42: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/42.jpg)
COLLOCAZIONI
NOTTE FONDA, LUNA PIENA, ALTA STAGIONE
COLLOCAZIONE: sequenza di due o piu’ parole caratterizzate da un forte legame di associazione
![Page 43: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/43.jpg)
TIPI DI COLLOCAZIONI
TERMINI TECNICI: sistema operativo, corte d’Assise
VERBO SUPPORTO: fare attenzione, prendersi un caffe’, dar manforte
COSTRUZIONI IDIOMATICHE: tagliar la corda, tirare le cuoia
![Page 44: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/44.jpg)
RICERCA DI COLLOCAZIONI
Usando metodi statistici Intuizione: cercare di scoprire coppie
la cui probabilita’ di occorrere in sequenza e’ molto maggiore di quel che ci si aspetterebbe date le relative probabilita’ di occorrenza
![Page 45: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/45.jpg)
DAI LEMMI IN UN CORPUS AI LEMMI IN UN DIZIONARIO
Durante la progettazione di un dizionario, si determinano Le DIMENSIONI del dizionario (numero di
lemmi) Il bilanciamento tra le lettere dell’alfabeto La lunghezza delle definizioni
L’uso dei dati estratti automaticamente per la compilazione richiede un passo non-automatico
![Page 46: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/46.jpg)
CORPORA E LESSICOGRAFIA (AGAIN)
De Mauro, 1980: VOCABOLARIO DI BASE (VDB) 2000 vocaboli fondamentali (“se usiamo solo …
possiamo sperare di essere capiti dal 66% della popolazione Italiana che ha almeno la licenza elementare”)
2937 di alto uso, 1753 di ‘alta disponibilita’’ LIP e VDB:
AMICO, CRITICO, ESPRESSO: VDB solo sostantivi, LIP anche verbi
Non nel LIP: UNGHIA, BUGIA, PUGNO
![Page 47: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/47.jpg)
CORPORA ALLINEATI E APPRENDIMENTO DELLE LINGUE
I corpora allineati (Hansard, EUROPARL) sono una risorsa importante sia per la traduzione che per l’apprendimento
Interfaccia a EuroParl (Portoghese / Francese): http://eremita.di.uminho.pt/albin/nat-searc
h.cgi
![Page 48: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/48.jpg)
CREAZIONE DI CORPORA
Un impegno significativo Essenziale chiarire sin dall’inizio usi che si
vogliono fare: Che linguaggio si vuol campionare Che tipi di analisi
Decisioni tecniche: Codifica dei testi (ASCII, XML) (modulo C) Tokens, lemmi, etc.
![Page 49: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/49.jpg)
IL LESSICO DI FREQUENZA DELL’ITALIANO PARLATO
De Mauro, Mancini, Vedovelli e Voghera: LESSICO DI FREQUENZA DELL’ITALIANO PARLATO, ETAS libri, 1993
500 000 lemmi in totale (57 h di registrazione)
Raccolti in ugual numero a Milano, Firenze, Roma e Napoli
100 000 occorrenze per ognuno di cinque ‘tipi di parlato’ (da conversazione a ‘scambio unidirezionale’ = discorsi politici)
![Page 50: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/50.jpg)
CREAZIONE DEL CORPUS
Raccolta dei materiali Trascrizione Trattamento automatico
![Page 51: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/51.jpg)
RACCOLTA DEI MATERIALI
Gruppo A: conversazioni bidirezionali faccia a faccia in casa / sul lavoro / a scuola / etc
Gruppo B: conversazioni bidirezionali NON faccia a faccia (al telefono)
Gruppo C: conversazioni bidirezionali faccia a faccia ma “con presa di parola non libera” (esami universitari / assemblee legislative / interviste)
Gruppo D: scambio unidirezionale in presenza del destinatario (lezioni, relazioni, comizi, omelie)
Gruppo E: scambio unidirezionale a distanza (trasmissioni televisive / radiofoniche)
![Page 52: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/52.jpg)
CREAZIONE DEL CORPUS
Raccolta dei materiali Trascrizione
A mano Non IPA Vari simboli per pause, tenute vocaliche
(ciao_), etc. Trattamento automatico
![Page 53: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/53.jpg)
CREAZIONE DEL CORPUS
Raccolta dei materiali Trascrizione Trattamento automatico:
Tokenizzazione Lemmatizzazione Classificazione grammaticale Correttezza: tra il 91% ed il 94%
![Page 54: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/54.jpg)
ALCUNE STATISTICHE
il (Art) 37076 non (Av) 7752
di (Prep) 16721 in (Prep) 6879
essere (V) 15220 che (Pro) 6705
uno (Art) 12204 io (Pro) 5872
a (Prep) 11671 che (Cong) 5501
e (Cong.) 9858 avere 5396
egli (Pro) 8360 per (Prep) 4956
![Page 55: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/55.jpg)
LA CURVA DI ZIPF
![Page 56: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/56.jpg)
LIP e LIF
Non emergono chiare regole Spostamenti di RANGO
Mo’: 326 nel LIP, 3296 nel LIF Praticamente: 221 LIP, 3513 LIF Generalmente pero’ bilanciato (fare: 15
LIP, 16 LIF) Dimensioni troppo ridotte
![Page 57: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/57.jpg)
LETTURE
Jackson, cap. 13 Lenci et al: cap. 1, cap 4.1, cap. 7 Marello, cap. 5.3, 6.6 De Mauro et al 1993
![Page 58: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA](https://reader035.vdocument.in/reader035/viewer/2022062701/5542eb58497959361e8c2d0c/html5/thumbnails/58.jpg)
ACKNOWLEDGMENTS
Ringraziamenti a Marco Baroni (UniBo)