colloque international francophone sur l’ecrit et le document jeudi 21 septembre 2006, fribourg un...

22
Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine Mathieu Delalandre et Jean-Marc Ogier L3i, Université de La Rochelle, France mathieu.delalandre @ univ-lr.fr

Upload: francoise-lebreton

Post on 04-Apr-2015

104 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Un système pour l’indexation rapide d’image de lettrine

Mathieu Delalandre et Jean-Marc Ogier

L3i, Université de La Rochelle, France

[email protected]

Page 2: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Introduction

- Documents patrimoniaux

- Indexation de lettrine

- Notre problématique

Page 3: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

IntroductionDocuments patrimoniaux (1/2)

Documents patrimoniaux manuscrits, cartes, registres, … livres anciens imprimés (XV° et XVI° siècle)

Bibliothèques numériques, en bref

Alciati (1551)

Bartolomeo (1534)

Alciati (1511)

Laurens (1621)

- Documents patrimoniaux- Indexation de lettrine- Notre problématique

1980

1990

2000

2006

Premiers états de l’art [Lesk’97]Prototypes opérationnels « stockage, restauration » [Kalldremxhiu’00]

Numérisation de masse (Google print, Million Book, ..) Indexation au coeur [Baird’03] [Nagy ’06]

Emergence des bibliothèques numériques [Cleveland’98]

Page 4: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

IntroductionDocuments patrimoniaux (2/2)

Quelle proportion ? 46 livres/1385 pages/4755 illustrations

3.4 illustrations/page

Pixels formes [Jounet’05]

63% (texte) 37% (illustrations)

Qte illustration/Livre

0100200300400500600700

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46

Livres

Qte

Illu

stra

tio

n

mais aussi des bandeaux, portraits, armoiries, fleurons, marques …

figure

lettrine

encadrementencadrement

Les illustrations

- Documents patrimoniaux- Indexation de lettrine- Notre problématique

Des lettrines … 4755 illustrations

dont 41% de lettrine

Page 5: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

IntroductionIndexation de lettrine (1/2)

- Documents patrimoniaux- Indexation de lettrine- Notre problématique

lettre (c) thème (végétal) motif (croix)critère de recherche

Base d’images

Image requête

Extraction Comparaison

Index

IndexationRecherche

Indexmanuelexpression

des requêtes

interprétationet complexité

Texte (#69) Image (??)

9000 ko6 koTaille page A4

Image

(300 pp)

Texte

(police 11)

Problématiques de l’indexation de lettrine

Page 6: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

IntroductionIndexation de lettrine (2/2)

- Documents patrimoniaux- Indexation de lettrine- Notre problématique

1 [99-107]2 [108-141]

125 139 102

99 107 141

133 133 125

2

1 1 2

2

Rang des pattern

Fréquenc

e

Pareti’05

Uttama’05

Baudrier’05

Bigun’96

Quelques systèmes

Page 7: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

IntroductionNotre problématique (1/3)

Contexte Projet MAsse de DOnnées issues de la Numérisation du

patrimoiNE (MADONNE) Bibliothèques Virtuelles Humanistes (BVH)

du Centre d’Etudes Supérieures de la Renaissance (CESR)

Classe 1 Classe2 Classe 3

empreinte (ou estampe)tampon(bois gravé)

« taille d'épargne »

Vascosan 1555 Marnef 1576

- Documents patrimoniaux- Indexation de lettrine- Notre problématique

Application « suivi du bois »

imprimerie

tampon

échange

copie

1531-1548

1511-1542

1555-1578

1497-1507

Page 8: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

IntroductionNotre problématique (2/3)

Problématiques d’indexation Propres aux lettrines

(+) pas de variation à l’orientation et à la taille (-) bruit « impression, vieillissement, numérisation »

(-) segmentation (offset)

(-) richesse graphique

- Documents patrimoniaux- Indexation des lettrines- Notre problématique

tâche contraste

(-) précision

Propres à l’indexation (-) variation nombre de classe

« scalability » (-) complexité (taille base)

A 1

Page 9: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

IntroductionNotre problématique (3/3)

Choix de l’approche

Vers l’image [Gesu’99] Template matching, distance de Hausdorff non invariantes à l’échelle et l’orientation complexes globales (scène)

image scalaire

approches

optimale locale

complexe globale

Image requête

CompressionRecalage

etComparaison

R1 R2 R3

Sélection

Base d’imageAdaptée pour bruit, richesse graphique, précision et scalability

Non adaptée pour l’offset et la complexité

- Documents patrimoniaux- Indexation des lettrines- Notre problématique

Vers le scalaire [Loncaric’98] Hough, Radon, Zernike, Hu, Fourrier, … invariantes à l’échelle et l’orientation optimales locales (caractère ou symbole)

Page 10: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Notre approche

CompressionRecalage

etComparaison

Sélection

Page 11: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Notre approchesélection (1/2)

Problèmes de numérisation [Lawrence’00] [Minerva’04] Origines des problèmes

Diversité des prestataires Evolution des matériels et modes de numérisation Erreurs de numérisation Diversité des outils de post-traitement …

Types de problème Technique format, modèle, mode compression Sémantique résolution, qualité compression

QUEID « QUery Engine on Image Database »

Fichier Image

Fichier Image

Fichier Image

Fichier Image

Fichier Image

Fichier Image

Fichier Image

Fichier Image

Fichier Image

Fichier Image

Fichiers image hétérogènes

Fichiers image

homogènes

Graphique Paramètre (P)

Analyse -Modèle -Format -Résolution -Compression -Taille

Sélection -Modèle [C1, C2, … ] -Format [F1, F2, …] -Résolution [C1, C2, … ] -Compression [C1, C2, … ] -Taille [T1-T2] -Noms

QUEID SystèmeBaseP

Sélection

Diagnostic

Diagnostic

Base

Expertise

QUEID

requête

graphique

analyse

correction

CompressionRecalage

etComparaison

Sélection

Page 12: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Notre approche sélection (2/2)

Expérimentations OLDB (Ornamental Letters Database) diagnostic

sans, packbits, Jpeg sans perteCompression

?; de 72 à 450 ppRésolutions

Jpeg et TiffFormats

gris et couleurModèles

377.7 MpTaille

2803Fichiers

échange d’images,

évolution matériel 200 +/- pp et 400 +/- pp post-traitement NG vers RGB outil visualisation 300 pp vers 72 pp images retaillées 300 pp vers ? erreur numérisation sans compression évolution protocole Tiff vers Jpeg

sélection

Fichiers 2038

Taille 279.7 Mp

Modèles gris

Formats Jpeg

Compression Jpeg sans perte

Résolutions 250 à 350

CompressionRecalage

etComparaison

Sélection

Page 13: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Notre approchecompression (1/2)

Etat de l’art Compression (fichier vs algorithme)

niveau fichier gain de mémoire niveau algorithme gain de temps

Travaux antérieurs

plage détection contours[Kim’88]

code contour morphologie[Vliet’98]

composante connexe parcours[Biancardi’96]

Représentation TraitementTravaux

Définition plage (run)

Application des plages introduite par [Pavlidis’78] reconnaissance et extraction

[Wenyin’98]

Encodage en longueur de plage

CompressionRecalage

etComparaison

Sélection

Page 14: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Notre approchecompression (2/2)

Compression à base de plages Taux de compression et compacité

Taux de compression

pixel

runc n

nt 1

]1,[ pixelrun nn

[1,0[ct Compacité en plage

Types d’encodage

image simple simple mixte

Expérimentations OLDB Binarisation seuil fixe (128) Encodage mixte horizontal

Taux de compression/Lettrine

0,7

0,8

0,9

1

1 201 401 601 801 1001 1201 1401 1601 1801 2001

Lettrines

Ta

ux

de

co

mp

res

sio

n (

tc)

0.75

0.950.88

CompressionRecalage

etComparaison

Sélection

Page 15: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Recalage Segmentation (offset)

Histogrammes de projection

des pixels formes

Notre approchecomparaison (1/4)

CompressionRecalage

etComparaison

Sélection

Comparaison d’histogrammes distance pondérée [Brunelli’99]

kg ,...2,1

lh ,...2,1lk

k

i i

jiikl

jyx h

ghd

10, min

Indexation

Encodage Histogrammes

Base de lettrine

Image requête

Recherche

Recalage Comparaison

Fichier IndexFichier

IndexFichier IndexFichier

Index

Fichier Index

Page 16: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Notre approchecomparaison (2/4)

Comparaison Distance

pixel à pixel « à partir des plages » Algorithme

CompressionRecalage

etComparaison

Sélection

x2 x2x2

x1x1 x1

x2 x2

x1

ligne (y) de l’image

1

ligne (y+dy) de l’image 2

xaccumulateur

pointeur

tant que x2 x1 parcourir image 2tant que x1 x2 parcourir image 1

Temps de comparaison

r

n

ii tntt

1

images de la base

image requête

Expérimentations OLDB Comparaison par plage et pixel

Taille des rasters

0

200

400

600

1 201 401 601 801 1001 1201 1401 1601 1801 2001

Lettrines

Taill

e (k

.pix

el)

903.62600.8Max

337.06137.7Moy

176.677.74Min

Temps

s

Taille

k.pixel

requêtes

Taille des encodages

0

200

400

600

1 201 401 601 801 1001 1201 1401 1601 1801 2001

Lettrines

Taill

e (K

.pla

ge)

137.0687.8Max

41.6815.5Moy

22.321.1Min

Temps

s

Taille

k.plage

requêtes

Page 17: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Notre approchecomparaison (3/4)

CompressionRecalage

etComparaison

Sélection

En cours … Bilan

Accélération de 7 à 8 Requête ordre de la minute Insuffisant pour le web

Indexation deux niveaux

image requête

1er Niveau

2e Niveau

0

5

10

15

20

25

30

35

40

0

5

10

15

20

25

30

35

40

0

5

10

15

20

25

30

35

40

Signature à base de plages distribution spatiale des plages formes interpolation et comparaison

Page 18: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Notre approchecomparaison (4/4)

CompressionRecalage

etComparaison

Sélection

Exemple de résultat requête

0.1947 0.2517 0.3485 0.3616 0.3819 0.4064

Même tampon

Tampon suivant

Requête

0.4109 0.4209

En cours Evaluation de performances

Problèmes d’étiquetage manuel des bases

- Distribution des images

biaise les résultats

- Proportion des tampons dupliqués

Noie l’évaluation de la précision

- Etude de la « scalability »

impossible

- Tailles des bases

difficultés de l’étiquetage Production supervisée de benchmark

- choix des classes, du nombre d’échantillon

BaseIHM

Moteur

contrôle

visualisation

recherche

Etiquettes

étiquetage supervisé

Bench1 Bench2 Bench2production

Page 19: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Conclusions et perspectives

Page 20: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Conclusions et perspectives

Conclusions Indexation de lettrines, application « suivi du bois » Solution pour les problèmes de numérisation (QUEID) Méthode rapide de comparaison d’image

Accélération de 7 à 8 Illustration de résultats de requête

Encourageant

Perspectives Trop complexe pour un moteur web

Indexation deux niveaux, signature à base de plages Evaluation des résultats de recherche

Production de benchmark, évaluation de la « scalability » et précision

Page 21: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Bibliographie

Page 22: Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg

Bibliographie

1. H. Baird. Digital libraries and document image analysis. In International Conference on Document Analysis and Recognition (ICDAR), volume 1, pages 2-14, 2003. WEB. E. Baudrier. Comparaison d'images binaires reposant sur une mesure locale des dissimilarités Application à la classification. PhD thesis, Université de Reims, 2005.

2. A. Biancardi and A. Mérigot. Connected component support for image analysis programs. In International Conference on Pattern Recognition (ICPR), volume 4, pages 620-624, 1996.

3. J. Bigun, S. Bhattacharjee, and S. Michel. Orientation radiograms for image retrieval: An alternative to segmentation. In International Conference on Pattern Recognition (ICPR), volume 3, pages 346-350, 1996.

4. R. Brunelli and O. Mich. On the use of histograms for image retrieval. In International Conference on Multimedia Computing and Systems (ICMC), pages 143-147, 1999.

5. G. Cleveland. Digital libraries: Definitions, issues, and challenges. International Federation of Library Associations and Institutions (IFLA), Universal Dataflow and Telecommunications Core Program (UDT), Occasional Paper 8, 1998.

6. V. D. Gesu and V. Starovoitov. Distance based function for image comparison. Pattern Recognition Letters (PRL), 20(2):207-214, 1999.7. N. Journet, R. Mullot, J. Ramel, and V. Eglin. Ancient printed documents indexation: a new approach. In International Conference on

Advances in Pattern Recognition (ICAPR), volume 3686 of Lectures Notes in Computer Science (LNCS), pages 513-522, 2005.8. E. Kalldrëmxhiu. Les logiciels de numerisation des livres anciens. Technical report, Ecole Nationale Supérieure des Sciences de l'Information

et des Bibliothèques (ENSSIB), Villeurbanne, France, 2000. 9. S. Kim, J. Lee, and J. Kim. A new chain-coding algorithm for binary images using run-length codes. Computer Graphics and Image

Processing (CGIP), 41:114-128, 1988.10. M. Lesk. Practical Digital Libraries: Books, Bytes, Bucks. Morgan Kaufmann Editor, 1997.11. S. Loncaric. A survey of shape analysis techniques. Pattern Recognition (PR), 31(8):983-1001, 1998.12. G. Nagy and D. Lopresti. Interactive document processing and digital libraries. In Worshop on Document Image Analysis for Libraries

(DIAL), pages 2-11, 2006.13. R. Pareti and N. Vincent. Global discrimination of graphics styles. In Workshop on Graphics Recognition (GREC), pages 120-128, 2005.14. S. Uttama, M. Hammoud, C. Garrido, P. Franco, and J. Ogier. Ancient graphic documents characterization. In Workshop on Graphics

Recognition (GREC), pages 97-105, 2005.15. L. van Vliet and B. Verwer. A contour processing method for fast binary neighbourhood operations. Pattern Recognition Letters (PRL),

7(1):27-36, 1998.