spanish language 111005
DESCRIPTION
Presentation introducing Universidad de Alicante’s work regarding Spanish language presented by Isabel Martínez during demo session held at the BNE 5th of October 2011.TRANSCRIPT
![Page 1: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/1.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Madrid, BNE, 5 de octubre de 2011
UA – Spanish LanguagePresentación del trabajo lingüístico
![Page 2: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/2.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
2 Madrid, BNE, 5 de octubre de 2011
Índice
Universidad de Alicante Descripción del corpus Producción del GT Trabajo lingüístico Herramientas utilizadas Resultados preliminares
![Page 3: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/3.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
3 Madrid, BNE, 5 de octubre de 2011
Universidad de Alicante
![Page 4: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/4.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
4 Madrid, BNE, 5 de octubre de 2011
Universidad de Alicante
UA: Sede científica de la BVMC (partner de IMPACT)
DLSI: Departamento de lenguajes y sistemas informáticos. Grupo de investigación Transducens creadores de Apertium.
![Page 5: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/5.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
5 Madrid, BNE, 5 de octubre de 2011
Descripción del corpus
![Page 6: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/6.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
6 Madrid, BNE, 5 de octubre de 2011
Descripción del corpus
Obras clave de los siglos XVI y XVII aportadas por la Biblioteca Nacional de España:
– Principales autores del Siglo de Oro español (Cervantes, Quevedo, Góngora, Garcilaso, Calderón, Lope de Vega)
– Obras de América (Inca Garcilaso de la Vega, Sor Juana Inés de la Cruz)
Diccionario de Autoridades de la Real Academia Española (Seis volúmenes publicados entre 1726 y 1739), también de la BNE.
Textos entre finales del siglo XV y el siglo XVII de la Biblioteca Virtual Miguel de Cervantes
Selección de textos
![Page 7: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/7.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
7 Madrid, BNE, 5 de octubre de 2011
División del corpus
Descripción del corpus
Development
Creación de un diccionario
histórico para mejorar el
reconocimiento del OCR en textos
antiguos.
Demonstration
Demostración de los resultados obtenidos y las herramientas desarrolladas.
Evaluation
Test de herramientas y
lexicones.
División del corpus en tres bloques:
![Page 8: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/8.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
8 Madrid, BNE, 5 de octubre de 2011
“Defectos” de las imágenes
Impresión defectuosa y degradación
Descripción del corpus
![Page 9: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/9.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
9 Madrid, BNE, 5 de octubre de 2011
Descripción del corpus
Bordes estrechos, partes de la página opuesta.
“Defectos” de las imágenes
![Page 10: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/10.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
10 Madrid, BNE, 5 de octubre de 2011
Descripción del corpus
Páginas inclinadas, papel doblado, bordes visibles
“Defectos” de las imágenes
![Page 11: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/11.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11 Madrid, BNE, 5 de octubre de 2011
Descripción del corpus
Transparencias
“Defectos” de las imágenes
![Page 12: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/12.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
12 Madrid, BNE, 5 de octubre de 2011
Descripción del corpus
Manchas, sellos, notas manuscritas...
“Defectos” de las imágenes
![Page 13: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/13.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
13 Madrid, BNE, 5 de octubre de 2011
Producción del GT
![Page 14: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/14.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
14 Madrid, BNE, 5 de octubre de 2011
Producción del GT
OCR imágenes Creación del GTEnvío a empresa externa Control de calidadDevolución a
cliente
¿GT OK?
Envío a empresa externa
No
Publicación en PrIMA
Sí
Flujo de trabajo
![Page 15: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/15.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
15 Madrid, BNE, 5 de octubre de 2011
Producción del GT
Curiosidades del GT
Reglas de acentuación en Diccionario de Autoridades
Uso del punctus elevatus
Abreviaturas y ligaduras
Ideogramas
![Page 16: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/16.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
16 Madrid, BNE, 5 de octubre de 2011
![Page 17: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/17.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
17 Madrid, BNE, 5 de octubre de 2011
Producción del GT
Punctus elevatus
![Page 18: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/18.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
18 Madrid, BNE, 5 de octubre de 2011
Producción del GT
Abreviaturas y ligaduras
![Page 19: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/19.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
19 Madrid, BNE, 5 de octubre de 2011
Producción del GT
Ideogramas
♃ ♌
♎♉
![Page 20: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/20.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
20 Madrid, BNE, 5 de octubre de 2011
Trabajo lingüístico
![Page 21: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/21.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
21 Madrid, BNE, 5 de octubre de 2011
Trabajo lingüístico
Tareas de la UA
Construcción de los lexicones
Reglas de variación
Lematización del corpus
Apertium usado como base del lexicón
OCR (Optical Character Recognition)
IR (Information Retrieval)
Épocas estudiadas: Siglos XVI y XVII (Siglo de Oro español)
![Page 22: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/22.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
22 Madrid, BNE, 5 de octubre de 2011
Trabajo lingüístico
Dificultades a resolver Palabras que han desaparecido: arcaz (arca)
Palabras cortadas: to-do, conven-to, in-genio, cla-ra, humani-dád
Palabras en latín: quid, haec, aliquid, sum
Nombres propios: Quixote, Garcilasso, Rosimunda, Lope
Errores de impresión
Uso de apóstrofes: d'aver, a'scala
Dos formas antiguas, una moderna: al rededor – alrededor
Una forma antigua, dos modernas: dél – de él
Uso de 's' larga: 'ſ'
Abreviaturas
Ligaduras
Espacios
Cambios en la flexión verbalſ f
![Page 23: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/23.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
23 Madrid, BNE, 5 de octubre de 2011
Trabajo lingüístico
Dificultades a resolverFlexión verbal. Ejemplo: Verbo 'haber'
a, à, abemos, abia, abrá, abrás, abré, abrè, abréis, Abrète, abreys, abria, abría, As, auedes, auerla, auerlas, auerle, auerles, auerlo, auerlos, auerme, auernos, aueros, auerse, auersela, auerte, aués, Aueys, auia, auiamos, auías, Auiase, Auiendo, auiendola, auiendole, auiendome, auiendose, auiendosele, auiendote, Aura, aurá, aurà, auran, auras, aurás, aure, aureis, auremos, aureys, aurian, avéis, avemos, averla, averle, averlo, averme, averse, avéys, avia, avido, aviendo, avrà, avrán, avré, avréis, avremos, avría, Aya, ayais, ayan, ayays, d'aver, d'haver, eis, emos, Habéis, habemos, haberlo, haberme, haberse, haberte, habés, habíades, habían, habías, habido, habiendo, habiéndole, habiendome, habiéndome, habiéndote, habrá, habrán, habrás, habré, habréis, habremos, habría, hai, hala, hale, halo, hame, han, han, hanlo, hanme, hanse, hante, has, hase, Hasle, hasme, haste, hate, hauemos, hauerla, hauerme, hauernos, hauerte, haués, haueys, hauía, hauiamos, hauían, hauido, hauiendo, hauiendose, haurá, haurás, havella, havelle, havello, havemos, haverme, haverse, haverte, havéys, havíamos, havían, havías, haviendo, havrá, havré, hayáis, hayan, hayas, he, hela,
hele, helo, heme, Hemos, hete, houe, houo, hoviera, hube, hubiera, hubiere, hubiese, hubo, huue, huuierades, huuieras, huuieredes, huuieren, huuieron, huuiesle, huuiessen, huve, huvieran,
huvieras, huviere, huviessen, huvo, ouiesse, ovieron, ovo, uuo, uve, uviera, uviere, uviese,
uviesse, uvo, vuiera, vuiesse, vuo...
![Page 24: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/24.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
24 Madrid, BNE, 5 de octubre de 2011
Dificultades a resolver
Trabajo lingüístico
![Page 25: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/25.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
25 Madrid, BNE, 5 de octubre de 2011
Dificultades a resolver
Trabajo lingüístico
![Page 26: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/26.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
26 Madrid, BNE, 5 de octubre de 2011
Dificultades a resolver
Trabajo lingüístico
![Page 27: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/27.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
27 Madrid, BNE, 5 de octubre de 2011
Trabajo lingüístico
Variación ortográfica
Grupos consonánticos: subjeto – sujeto, subtil – sutil, presumpcion – presunción
Ruptura de diptongo con 'h' en lugar de acento: ohir – oír
'u' 'v': nueuo – nuevo, Otauio – Octavio, vno – uno, anduuieron – anduvieron
Caída de la 'd' final del imperativo: volvé – volved
Variación en la conjugación: aurà – habrá, fuerades – fuerais, ocupavan – ocupaban
Uso de 'ç': feroçe – feroz, çapatos – zapatos, çielo – cielo
Variación vocálica: malencolico – melancólico, mesmo – mismo, escuro – oscuro
Consonantes duplicadas: offender – ofender, assi – así, rromano – romano
Variación en los acentos: secréto – secreto, segúro – seguro, abalançò – abalanzó
![Page 28: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/28.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
28 Madrid, BNE, 5 de octubre de 2011
Herramientas utilizadas
![Page 29: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/29.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
29 Madrid, BNE, 5 de octubre de 2011
Herramientas utilizadas
Aletheia
![Page 30: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/30.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
30 Madrid, BNE, 5 de octubre de 2011
Herramientas utilizadas
Lexicon Tool
![Page 31: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/31.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
31 Madrid, BNE, 5 de octubre de 2011
Herramientas utilizadas
Taverna
![Page 32: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/32.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
32 Madrid, BNE, 5 de octubre de 2011
Resultados preliminares
![Page 33: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/33.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
33 Madrid, BNE, 5 de octubre de 2011
Resultados preliminares
Datos del lexicón
Dividido en diferentes corpus:– Corpus BVMC
– GT – Development
– Diccionario Autoridades
– IR Evaluation
Cifras del lexicón:– Lexicón OCR:
• 5,617,815 palabras.
• 334,157 palabras distintas.
– Lexicón IR:• 582,386 palabras analizadas.
• 34,296 palabras distintas analizadas.
• 12,360 lemas analizados.
![Page 34: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/34.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
34 Madrid, BNE, 5 de octubre de 2011
Resultados preliminares
Métricas
Precisión (p) y Cobertura (c):– Precisión: Porcentaje de palabras que ha acertado de las que ha
reconocido.– Cobertura: Porcentaje de palabras que ha acertado de las que
debería haber reconocido– Ejemplo con precisión 0.25 y cobertura 0.5
• Estaba en hora buena (resultado OCR)• Estaba enhorabuena (texto original)
False friend: Error del OCR cuyo resultado coincide con una palabra del diccionario.
![Page 35: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/35.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
35 Madrid, BNE, 5 de octubre de 2011
Resultados preliminares
ResultadosCon el diccionario interno “OldSpanish” de Finereader
Precisión: 0.76 , Cobertura: 0.72
Con el lexicón histórico de español
Precisión: 0.79 , Cobertura: 0.76
Sor Juana Inca Quevedo Boscán Lope Lazarillo0
10
20
30
40
50
60
70
80
90
100
75,03 75,9779,68
65,1
77,4881,66
71,65 70,4775,78
59,95
73,3878,1
Cobertura Lexicón HistóricoCobertura Diccionario Interno
![Page 36: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/36.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
36 Madrid, BNE, 5 de octubre de 2011
Resultados preliminares
Resultados
Imagen: 00438810
Fuente: Obras de Garcilasso de la Vega
Diccionario interno:(p= 76% , c= 69% ) Añadiendo diccionario externo:(p= 85% , c= 78% )
![Page 37: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/37.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
37 Madrid, BNE, 5 de octubre de 2011
Resultados preliminares
GARCILASSO; 3««jue hara el enemigo? Salid sin duelo lagrimal corriendo. Porti el silencio déla selua vmbrosa, por ti la esquiuidad,y apartamiento del solitario monte me agradaua: porti la verdeyerua,y fresco viento,1 elhlanco lirio,y colorada rosa, y dulce Priipauera desteaua. Ayquantomeengañaua, ay quan diferente era, y quan de otra manera, lo que en tu falso pecho se escondía? bien claro qcn su voz me lo dczia la siniestra corneja, repitiendo 8$ ladefuentura mia, Salid sin duelo lagrimas corriendo. Quantas vezes durmiendo en la floresta (reputando yo por desuario) vi mi mal entre sueños desdic hados Soñaua que en el tiempo del Estío lleuaua,por pastar aiii la siesta, a beuer en el Tajo mi ganado: y despucs de llegado, fin saber de quai arte,
Garcilasso; que hara el enemigo? Salid sin duelo lagrimal corriendo. Porti el silencio dela selua vmbrosa, por ti la esquiuidad,y apartamiento del solitario monte me agradaua: porti la verde yerua,y fresco viento, elblanco lirio,y colorada rosa, y dulce Primauera Desseaua. Ay quanto me engañaua, ay quan diferente era, y quan de otra manera, lo que en tu falso pecho se escondía? bien claro qcn su voz me lo dezia la siniestra corneja, repitiendo 8$ la desuentura mia, Salid sin duelo lagrimas corriendo. Quantas vezes durmiendo enla floresta (reputando yo por desuario) vi mi mal entre sueños desdic hados Soñaua que en el tiempo del Estip lleuaua,por passar alli la siesta, a beuer en el Tajo mi ganado: y despues de llegado, jón saber de qual arte,
Negrita: errorSubrayado: False friend
![Page 38: Spanish language 111005](https://reader036.vdocument.in/reader036/viewer/2022081506/558d22c5d8b42a3f0a8b46dc/html5/thumbnails/38.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
38 Madrid, BNE, 5 de octubre de 2011
UA – Spanish Language