procesamiento previo de la imagen. isabel bordes cabrera
TRANSCRIPT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
PROCESAMIENTO PREVIO DE LA IMAGENSESIÓN DE DEMOSTRACIÓN IMPACT, Biblioteca Nacional de España, 5 de octubre de 2011
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
2Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
Reconocimiento Óptico de Caracteres (OCR)
Motores disponibles:
ABBYY FineReader EngineIBM Adaptative OCRTesseract …
Segmentar el texto en las divisiones más sencillas (letras, caracteres)
Facilitar el análisis por la máquina.
Se identifica el carácter y se comprueban sus características o propiedades con una BD interna hasta que encuentra con la que mejor “encaja”
texto editable a partir de una imagen.
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
3Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
Retos OCR: páginas dañadas, alabeadas, tintas traspasadas, maquetación compleja, fuentes históricas…etc.
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
4Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
Características comunes de las imágenes digitales …
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
5Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
… y sus efectos en el OCR
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
6Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
Reconocimientos erróneos: ¿internet inventado en el XVIII?
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
7Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
Esquema del proceso OCR
CONVERSIÓN
DE FICHEROS
CORRECCIONES
GEOMÉTRICAS/ELIM.
MÁRGENES
“BINARIZACIÓN” OCRPOST-PROCESO
+EVALUACIÓN
DEMO TOOLWF TAVERNA WEB IMPACT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
8Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
Datos en el formato adecuado para cada aplicación
Módulos disponibles:
GIMP , ImageMagickimpact_gimp_tif_to_png_conversion_202058.t2flow
OpenJPEGXML
Basic IMPACT Abbyy FRE 9 PAGE Exporterbasic_impact_abbyy_fre_9_page_xml_creator_392392.t2flow
Conversión
Ir
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
9Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
Correcciones geométricas/Elim. márgenes¿Porqué?
rotadas, márgenes no deseados, ‘curvas’, páginas alabeadas …
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
10Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
A.-Correcciones geométricas
Basic IMPACT NCSR Geometric Correction Page Curl V3
Módulos disponibles:
ABBYY FineReader Engine
NCSR Geometric Correction “Page Curl”
TAVERNA: basic_impact_ncsr_geometric_correction_page_curl_550389.t2flow
OCRopus Deskewing
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
12Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
13Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
14Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
Basic IMPACT NCSR BorderRemoval
B.- Eliminación de márgenes
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
15Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
16Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
17Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
‘Binarización’ de imágenes¿Porqué?
Tinta de una cara ha traspasado a la otra caraSombras de la otra cara de la hoja
Módulos disponibles:
ABBYY FineReader EngineTAVERNA: basic_abbyy_fre_10_binarisation_936808.t2flow
OCRopus
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
18Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
19Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
20Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
21Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
WFs en TAVERNA
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
22Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
WFs en TAVERNA
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
23Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
WFs en TAVERNA
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
24Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
PÁGINA WEB IMPACT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
25Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
NCRS Image Enhancement Toolkit(H-DocPro v.1)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
26Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
Componentes para el procesamiento de imágenesBinarización
NCSR: Basado en "B. Gatos, I. Pratikakis and S. J. Perantonis, Adaptive Degraded Document Image Binarization, Pattern Recognition, Vol. 39, pp. 317-327, 2006"
FR8.1: FineReader Engine v. 8.1. IMPORTANTE: (a) Motor previamente instalado. (b) Añadir código de licencia de FineReader
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
27Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
Componentes para el procesamiento de imágenesEliminación de bordes
Auto: Basado en perfiles de proyección y análisis de componentes.
Auto_Edit: Ajuste manual mediante el arrastrede puntos activos de un rectángulodelimitador.
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
28Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
22.383 imágenes de prueba
BL: 7% BNE: 34%BNF: 34% BSB: 11%JSI: 6% NLB: 2%ONB: 6%
Sólo imágenes con bordes
38.718 imágenes de
prueba
BL: 9% BNE: 29%BNF: 32% BSB: 12%JSI: 11% NLB: 2%ONB: 5%
Componentes para el procesamiento de imágenesEliminación de bordes
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
29Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
Auto: Basado en "N. Stamatopoulos, B. Gatos, T. Georgiou, Page frame detection for double page document images, 9th IAPR International Workshop on Document Analysis Systems (DAS 2010), pp. 401-408, Cambridge, MA, USA, June 2010"
Auto_Edit: Ajuste manual mediante el arrastre de puntos activos de un rectángulo delimitador.
Componentes para el procesamiento de imágenesIndividualización de páginas
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
30Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
458 imágenes de la BNF
3.009 imágenes
BL: 72% BSB: 10%JSI: 18%
Componentes para el procesamiento de imágenesIndividualización de páginas
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
31Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
Auto: Basado en "N. Stamatopoulos, B. Gatos, I. Pratikakis and S.J. Perantonis, Goal-oriented Rectification of Camera-Based Document Images, IEEE Transactions on Image Processing, vol. 20, no. 4, pp. 910-920, 2011." IMPORTANT NOTICES: (a) It needs the MATLAB Component Runtime Installer, (b) it can be applied only to single column documents.
Auto_Edit: Corrección manual de líneas/curvas que delimitan el texto arrastrando los puntos activos de un rectángulo delimitador
Componentes para el procesamiento de imágenesCorrección de curvatura
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
32Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
87,78% Corrección curvatura IMPACT v.4(81,98% sólo corrección en bruto)
BookRestorer
80,87%
Componentes para el procesamiento de imágenesCorrección de curvatura
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
33Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
REFERENCIAS
VALOR DWN. Stamatopoulos, B. Gatos and I. Pratikakis, “A Methodology for Document Image
Dewarping Techniques Performance Evaluation”, 10th International Conference onDocument Analysis and Recognition (ICDAR’09), pp. 956-960, Barcelona, Spain, July, 2009.
METODOLOGÍA DE CORRECCIÓN DE CURVATURA (2 PASOS)N. Stamatopoulos, B. Gatos, I. Pratikakis and S.J. Perantonis, “Goal-oriented
Rectification of Camera-Based Document Images”, IEEE Transactions on ImageProcessing, Vol. 20, Nº4, pp. 910-920, 2011.
Componentes para el procesamiento de imágenesCorrección de curvatura
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
34Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)
GRACIAS POR SU ATENCIÓN
Isabel Bordes CabreraJefe de Servicio de Biblioteca Digital, BNE