informatica umanistica d: lessicografia e computer
DESCRIPTION
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER. La compilazione di un dizionario. La compilazione di un dizionario. Tre fasi: Progettazione (30%) Scrittura (60%) Produzione (10%). Tempistica / costi. - PowerPoint PPT PresentationTRANSCRIPT
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER
La compilazione di un dizionario
La compilazione di un dizionario
Tre fasi: Progettazione (30%) Scrittura (60%) Produzione (10%)
Tempistica / costi
Zgusta: “of the lexicographic projects I know, not a single one was finished in the time and for the money originally planned” Oxford English Dictionary: 7 anni 90
Problemi: Tempo richiesto per scrivere le voci Cambiamenti di staff Tempo per scrivere il software
Misura di tempo: “editor week”
Uso di corpora e strumenti informatici
Corpora per la scelta di parole Conto numero di caratteri Database per la redattura delle voci Controllo stilistico Produzione
Progettazione
A chi si rivolge il dizionario? Quante parole? Macro & micro structure Progettazione del database che verra’
usato per mantenere i dati
SAMUEL JOHNSON’s PLAN FOR A DICTIONARY OF THE ENGLISH LANGUAGE (1747)
Il Dizionario dev’essere UTILE Macro structure: criteri di SELEZIONE Micro structure:
ORTOGRAFIA e PRONUNCIA ETIMOLOGIA ANALOGY (inflessione) e SYNTAX INTERPRETATION (= definizione) CITAZIONI con AUTORE
Tipi di pubblico
Bambini Studenti Apprendimento lingua straniera Esperti di un’area
Dimensioni
Concise 60,000-90,000 lemmi
Desk-size Due volte tanto
College dictionary: quante piu’ possibile
Dizionari tecnici: piu’ aggiornamento che numero
CRITERI DI SELEZIONE: Dr JOHNSON
“The peculiar words of every profession”
“Words still considered to be foreign”
CRITERI DI SELEZIONE
Tecnico: tutte le parole del dominio Apprendimento lingua straniera: solo
parole fondamentali Generale: anche parole tecniche Altre scelte:
Espressioni dialettali? Nomi di persona e localita’?
CED4: 18000
Macro structure
Ordine alfabetico Nomi? Parole derivate?
Micro structure
Che informazioni? Pronuncia?
Che sistema di trascrizione? Accenti?
Uso? Etimologia?
Fonti di dati
Dizionari esistenti Per esempio, Bailey per Johnson,
Johnson per Webster Citazioni
In-house Compilate da volontari
Corpora
CRITERI DI SCELTA DI CITAZIONI NELL’OED
Make a quotation for EVERY word that strikes you as rare, obsolete, old-fashioned, new, peculiar, or used in a peculiar way. Take a special note of passages which show or imply that a word is either new or tentative, or needing explanation as obsolete or archaic, and which thus help fix the date of its introduction or disuse.
Make AS MANY quotations as convenient to you for ordinary words, when these are used significantly, and help by the context to explain their meaning, or show their use.
James Murray
Corpora
Using a computer is even more humbling than working from citations, because one is constantly confronted with abundant evidence of usages that are common but one would never have thought of
Landau, p. 355
Inizi della linguistica dei corpus
Primi corpora: anni ’30 (The Teacher Word’s Book, 5M; A Basic Writing Vocabulary)
Fino agli anni ’60 costi memoria troppo alti Anni ’60: Brown Corpus (Francis & Kucera),
Lancaster / Oslo / Bergen (Leech), Survey of English Usage (Quirk)
Primi usi di corpora in lessicografia
Anni ’70: concordanza elettronica di Old English a Toronto Ma: costi ancora elevati Resistenza da parte delle tipografie
’80: COBUILD (Collins / Birmingham University, Sinclair) Primo dizionario: ESL, Collins Cobuild ELD (all’epoca: 20
millioni di parole) Longman Lancaster English Language Corpus
(Leech) Primo dizionario: LDOCE (all’epoca: 80 M parole)
IL British National Corpus (BNC)
Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press
Circa 100 milioni di parole Classificazione grammaticale automatica
usando il classificatore CLAWS (parti corrette a mano successivamente)
http://www.hcu.ox.ac.uk/BNC
FORMATO (SGML)
<div1 complete=y org=seq> <head> <s n=00040> <w NN2>TROUSERS <w VVB>SUIT </head> <caption> <s n=00041> <w EX0>There <w VBZ>is <w PNI>nothing <w AJ0>masculine <w PRP>about <w DT0>these <w AJ0>new <w NN1>trouser <w NN2-VVZ>suits <w PRP>in <w NN1>summer<w POS>'s <w AJ0>soft <w NN2>pastels<c PUN>. <s n=00042> <w NP0>Smart <w CJC>and <w AJ0>acceptable <w PRP>for <w NN1>city <w NN1-VVB>wear <w CJC>but <w AJ0>soft <w AV0>enough <w PRP>for <w AJ0>relaxed <w NN2>days </caption>
Uso di corpora in lessicografia
Frequenze (per milione di parole) aiutano la scelta delle parole da includere Ma: “kick the bucket” non appare mai
Problema: troppi esempi (di solito 200-500, migliaia per parole comuni) Usare solo esempi da corpora
(COBUILD?) od anche esempi inventati?
Esempio: SURGERY
Sia British che American English: chirurgia
Solo British: clinica Prima dell’uso di corpora: dovrebbe
apparire al plurale solo in BE Non vero
Esempio: SIGNIFICANTLY
Definizione tradizionale: “importantly” Corpus evidence: “by a large amount”
Our prison population has significantly increased in the last ten years
Esempio: CRAZY
Nel corpus usato da Landau: solo plurale The crazies are out in force
Scelta delle parole
Da fare PRIMA di cominciare a compilare il dizionario
Problema del bilanciamento Assicurarsi che tutte le parole usate
nella definizione siano nel dizionario Puo’ richiedere fino a 20% del tempo
per un nuovo dizionario Da corpora
Bilanciamento
In Inglese: il numero di parole che cominciano con ‘c’ e’ piu’ di due volte il numero di parole che cominciano con ‘g’
Thorndyke: 105 ‘blocchi’ di dimensioni uguali C: 10 blocchi G: 4 blocchi
Blocchi di Thorndyke
c-caq car-cel cem-chim chin-cled clee-col com-conf cong-coo cop-cq cra-culs cult-cz
g-geq ger-gord gore-grouo group-gz
Parole e lemmi
La decisione di quali parole trattare come lemmi e quali some voci subordinate sempre difficile “listed building” (CED) “Riemannian geometry” In dizionario medico, tutti i tipi di
“agenesis” (= assenza di organo alla nascita)?
Uso di strumenti informatici per la scelta di parole
Dr Johnson, OED: lista di parole = una scheda per ogni voce
Oggi: formato elettronico Ordinamento alfabetico Bilanciare il dizionario contando il numero
di caratteri di ogni sezione
Definizioni
“first of all, a good definer must be able to write well and easily”
(Landau, p. 354)
Tipi di definizioni
Definizioni per dizionari di lingua straniera: Molti esempi Usi idiomatici
Manuale di stile
Ogni dizionario ha un manuale di regole da seguire per compilare le definizioni: Stile Tipi di definizioni Abbreviazioni Uso delle maiuscole Che tipo di informazioni grammaticali fornire Uso delle parentesi
Check automatico dello stile
Molti tentativi di scrivere del software che permetta di fare controlli automatici dello stile (aldila’ dei controlli grammaticali tipo Word)
Metodo principale: “controlled language”
Obiettivo ancora molto lontano
Database delle definizioni
Progettato inizialmente Una delle decisioni chiave (Landau) Funzioni base:
Ricerca di voci Cross indexing (= controllare che le parole della
definizione siano tutte nel dizionario) Generazione automatica delle pagine
(PRODUZIONE)
Tipi di database
Tradizionalmente: relazionali Oggigiorno: XML
Facilita l’aspetto produzione
ODE IN XML<se> <cn>815750</cn> - <hg> <hw>stock</hw> </hg> <s1> <ps>noun</ps> - <s2 num="1">- <df>the goods or merchandise kept on the premises of a shop or warehouse and available for sale or distribution:</df> <ex>the store has a very low turnover of stock</ex> | </S2> <S2 num=“2”> …… </S2> </S1> <s1> <ps>adjective</ps> …..
ELDIT EDITING TOOL (EURAC)
TALES (IRST)
Uso dei computer in fase di produzione
Uno dei contributi piu’ importanti dell’informatica alla lessicografia
Generazione automatica di impaginazioni diverse Calcolo automatico del numero di
colonne richieste dato il numero di voci e la larghezza delle colonne
Produzione
150 000 voci, 2 linee x voce = 300 000 linee = 1875 pagine (= 80 linee per colonna, 2 colonne per pagina)
1.7 linee x voce: 1600 pagine
Gli strumenti informatici non risolvono tutti i problemi
Le definizioni devono sempre essere scritte
Landau: ora che e’ diventato cosi’ facile creare un nuovo dizionario, si presta sempre meno attenzione alla qualita’
Letture
Jackson, cap. 13 Landau – Dictionaries: The Art and
Craft of Lexicography – ch. 7