la codifica digitale dei testi - wordpress.com...un corpus è una collezione di testi selezionati ed...
TRANSCRIPT
La codifica digitale dei testi
Daniela [email protected]
“The lexicographic data that are
available in computer form as of
today are the following: published
dictionaries […], electronic
dictionaries […], corpora
2
GROSS, Maurice. A bootstrap method for constructing local grammars. In: Proceedings of the Symposium on
Contemporary Mathematics. University of Belgrad, 1999. p. 229-250.
Che cos’è un corpus
Un corpus è una collezione di testi
selezionati ed organizzati in maniera
tale da soddisfare specifici criteri
che li rendono funzionali per le analisi
linguistiche.
3
Chomsky VS
corpora
4
AARTS, Bas. Corpus linguistics, Chomsky and fuzzy tree fragments. Language and
Computers, 2000, 33: 5-14.
Criteri di classificazione
dei corpora
5
✓ generalità
✓ modalità
✓ cronologia
✓ lingua
✓ integrità dei testi
✓ codifica digitale dei testi
✓ + estensione
Che cos’è la codifica?
“Rappresentazione di un testo su un supporto digitale in un
formato comprensibile da un elaboratore elettronico”
CIOTTI, Fabio. Testo rappresentazione e computer. Contributi per una teoria della codifica testuale. Internet e le
Muse, 1997.
6
Teoria della comunicazione
di Jakobson(1966)
7
Il problema
8
Le avventure di Pinocchio
Capitolo I
Come andò che Maestro Ciliegia, falegname,
trovò un pezzo di legno, che piangeva e
rideva come un bambino.
C'era una volta...
- Un re! - diranno subito i miei piccoli
lettori.
- No, ragazzi, avete sbagliato. C'era una
volta un pezzo di legno.
Non era un legno di lusso, ma un semplice
pezzo da catasta, di quelli che d'inverno
si mettono nelle stufe e nei caminetti per
accendere il fuoco e per riscaldare le
stanze.
Non so come andasse, ma il fatto gli è che
un bel giorno questo pezzo di legno capitò
nella bottega di un vecchio falegname, il
quale aveva nome mastr'Antonio, se non che
tutti lo chiamavano maestro Ciliegia, per
via della punta del suo naso, che era
sempre lustra e paonazza, come una
ciliegia matura.
La codifica
si articola
su due
livelli Zero (o basso)
01010101
.
9
Alto
▪ selezione di aspetti
strutturali e funzionali
▪ scelta di un linguaggio di
rappresentazione
10
E quindi?
La codifica trasforma il dato
testuale in fonte esplicita di
informazione linguistica →
struttura del testo, struttura del
contesto, struttura linguistica
11
12
Definizioneschema di
codifica o annotazione
repertorio di categorie per
la codifica
regole di compatibilità
specifica criteri di applicazione delle categorie selezionate
“L’annotazione del testo è dunque un processo
delicato, aperto e incrementale, che investe
direttamente il linguista in più fasi successive
e che può avere ripercussioni non banali sulla
sua comprensione dei fenomeni da annotare
13
LENCI, Alessandro; MONTEMAGNI, Simonetta; PIRRELLI, Vito. Testo e computer. Introduzione alla linguistica
computazionale. Carocci editore, 2005.
Tipologie
14
Morfo-sintattica
Sintattica
Semantica Pragmatica
annotazione
“
15
“
16
17
Linguaggi di mark-up→ XML
eXtensible Mark-up Language
Vantaggi
• portabilità e interscambiabilità
• massimo grado di espressività
Tratti caratterizzanti
l’xml
18
marcatura strutturata
marcatura gerarchica
marcatura dichiarativa
Componenti della
marcatura
19
✓ elemento: ogni componente della strutturalinguistico-testuale, identificato da un nome definitocome con un indicatore generico (generic identifier,GI)
<titolo>Le avventure di Pinocchio</titolo>
✓ attributo: informazioni aggiuntive che specificanoalcune caratteristiche dell’elemento che non fannoparte del contenuto del testo
nome_attributo=valore
<capoverso num=«2»>C’era una volta…</capoverso>
Componenti della
marcaturaII
20
✓ riferimenti a caratteri e entità: caratteriappartenenti al codice Unicode attraverso il lorovalore numerico in notazione decimale o esadecimale+ sequenze di byte associate a nomi mnemonici
<testo>l'amico</testo>
✓ commenti: note dell’annotatore ignoratedall’elaboratore
< ! --- rivedere questo tag --- >
DTD
Document Type
Definition
In essa vengono dichiarati – una e una
sola volta – tutti gli oggetti necessari alla
costruzione del linguaggio di marcatura.
Cosa si dichiara?
21
▪ elementi
▪ attributi
▪ entità
22
Dichiarazione di un
elemento
Si articola in due parti: a) etichetta o tag (GI) b)descrizione del contenuto in termini strutturali (contentmodel)
<!ELEMENT tag_elemento (modello di contenuto)>
23
Dichiarazione di un attributo
<!ATTLIST
tag_elemento
tag_attributo
tipo_valore
modificatore … >
24
Dichiarazione di un attributo
I
<!ATTLIST tag_elementotag_attributotipo_valoremodificatore … >
Specifica obbligatorietà/opzionalità e/o eventuale valore di default:
# REQUIRED → specificazione valore per
attributo obbligatoria
# IMPLIED → specificazione attributo
opzionale
# FIXED → valore fisso per attributo
25
“La proliferazione degli schemi di codifica ha reso
evidenti gli svantaggi derivanti da una babele
informatica che ostacola lo scambio di risorse e
strumenti scientifici, stimo fondamentale per far
avanzare la ricerca
26
PIERAZZO, Elena. La codifica dei testi: un'introduzione. Carocci editore, 2005.
La nascita delle
Guidelines
1994: pubblicazione della prima versione completa e stabile
della Guidelines fot Text Encoding and Interchange (Sperberg-
Mc Queen, Burnard, 1995a)→ https://tei-c.org/
Le Guidelines in apertura definiscono gli scopi della codifica
TEI:
• fornire un formato standard per l’interscambio di
informazioni
• fornire una guida per la codifica in questo formato
• supportare la codifica di tutti i tipi di caratteristiche di ogni
genere di testo
• essere indipendente dalle applicazioni27
Conseguenze
- scelta di SGML, XML e ISO 646 17
- preparazione di un ampio set di tag predefiniti
- distinzione fra codifica richiesta,
raccomandata e opzionale
- codifica per diverse interpretazioni del testo
- presenza di codifiche alternative per la stessa
caratteristica testuale
- creazione di un sistema di estensioni dello
schema definite dall’utente
28
Place your screenshot here
29
Domande?