web archiving : Πρακτικές Ψηφιακής Αρχειοθέτησης

22
WEB ARCHIVING: Πρακτικές Ψηφιακής Αρχειοθέτησης Γρηγορίου Παρασκευή ΚΕΡΚΥΡΑ 2004

Upload: landry

Post on 11-Jan-2016

42 views

Category:

Documents


10 download

DESCRIPTION

WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης. Γρηγορίου Παρασκευή ΚΕΡΚΥΡΑ 2004. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

WEB ARCHIVING:Πρακτικές Ψηφιακής

Αρχειοθέτησης

Γρηγορίου Παρασκευή

ΚΕΡΚΥΡΑ 2004

Page 2: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

As we move into the electronic era of digital objects it is important to know that there are new barbarians at the gate and that we are moving into an era where much of what we know today, much of what is coded and written electronically, will be lost forever. We are, to my mind, living in the midst of digital Dark Ages; consequently, much as monks of times past, it falls to librarians and archivists to hold to the tradition which reveres history and the published heritage of our times. –

Terry Kuny, XIST/Consultant, National Library of Canada [Kuny 1998]

Page 3: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Εισαγωγή…

WEB – πυρήνας πολιτισμού & γνώσης

αλλάπαρατηρείται άγνοια όσον αφορά τη σπουδαιότητα αρχειοθέτησης και διατήρησης του περιεχομένου του

Page 4: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Εισαγωγή…

ταχεία ανάπτυξη της δημιουργίας και της διάδοσης των ψηφιακών αντικειμένων βραχυπρόθεσμα

όμωςαδιαφορία για τη μακροπρόθεσμη

συντήρηση των ψηφιακών πληροφοριών

γιατίψηφιακές πληροφορίες είναι

ιδιαίτερα εύθραυστες

Page 5: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Εισαγωγή…

σύγχρονα μέσα ψηφιακής απομνημόνευσης -> πιο μικρή διάρκεια ζωής

τεχνολογίες πρόσβασης > αλλάζουν συνεχώς

ο χρόνος μεταξύ της κατασκευής μιας ψηφιακής πληροφορίας και της συντήρησης της στενεύει

Page 6: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Πρώτες Προσπάθειες (1)

1996 Εθνικές Βιβλιοθήκες:

–Αυστραλίας (NLA)->PANDORA project-Καναδά (NLC)-Σουηδίας

Internet Archive (ένα μη κερδοσκοπικό οργανισμό

που αναπτύχθηκε στις Η.Π.Α.)

Page 7: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Πρώτες Προσπάθειες (2)

Χρησιμοποιήθηκαν 2 διαφορετικές προσεγγίσεις αρχειοθέτησης του Web:1. Αυστραλία & Καναδάς: πολιτική

επιλεκτικής αρχειοθέτησης που βασίστηκε στην προεπιλογή, συγκέντρωση και καταλογογράφηση μεμονωμένων ιστοσελίδων

Page 8: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Πρώτες Προσπάθειες (3)

2. Σουηδία & Internet Archive: χρησιμοποίησαν crawlers (εργαλεία αυτόματης επιλογής υλικού) για την αρχειοθέτηση –> δίνουν μεγαλύτερο εύρος σε θέματα επιλογής και συλλογής υλικού αλλά δεν επιτρέπουν τον έλεγχο μεμονωμένων περιοχών ή την προσαρμογή της συχνότητας αρχειοθέτησης των συγκεκριμένων περιοχών

Page 9: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Πρώτες Προσπάθειες (4)

Οι 2 παραπάνω προσπάθειες δεν επέφεραν αξιόλογα αποτελέσματα αλλά υπογράμμισαν την αναγκαιότητα κ τη σπουδαιότητα της διαδικασίας αρχειοθέτησης του web.

Ολοένα και αυξανόμενος αριθμός Εθνικών Βιβλιοθηκών, Πανεπιστημίων & συναφών ιδρυμάτων συνειδητοποιεί τη σπουδαιότητα του εγχειρήματος και στοχεύει στη βέλτιστη πραγματοποίησή του με συγκεκριμένα projects.

Page 10: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Πρώτες Προσπάθειες (5)

Παράδειγμα: NEDLIB European Project ->

δημιουργία ενός open source crawler που θα παρέχει συγκεκριμένες λειτουργικές απαιτήσεις σε θέματα επιλογής των ιστοτόπων προς αρχειοθέτηση

Page 11: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Εθνική Βιβλιοθήκη της Γαλλίας (BnF) - 1999 Ερευνητικό Project Αρχειοθέτησης

του Web 2 στόχοι:1. βελτίωση των crawlers για συνεχή

και προσαρμοσμένη αρχειοθέτηση 2. εξέταση κάθε βήματος της

διαδικασίας ώστε να επιτευχθεί η σωστή και πλήρης αποθήκευση του υλικού του Διαδικτύου

Page 12: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Προβλήματα…

Μεγάλο τμήμα του πολυποίκιλου υλικού

του web δεν είναι προσβάσιμο από τους crawlers -> ”deep web” : αποθετήρια εγγράφων προσβάσιμα μόνο μέσω των περιγραφικών πληροφοριών που αποθηκεύονται στις σχεσιακές βάσεις δεδομένων (βλ. τις 30 εκ. ψηφιοποιημένες σελίδες από τη συλλογή Gallica <http://gallica.bnf.fr>).

Page 13: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Προτεραιότητες…

πρέπει να εκμεταλλευτούμε την δυνατότητα του Διαδικτύου να συλλέγει αυτόματα περιεχόμενο χρησιμοποιώντας τους crawlers

τα εργαλεία συλλογής πρέπει να είναι αυτόματα, όσο το δυνατόν περισσότερο, προκειμένου να εξεταστεί το τεράστιο σε μεγέθη περιεχόμενο που διατίθεται στο Διαδίκτυο

Page 14: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Προτεραιότητες…

για υψηλής ποιότητας περιεχόμενο στον Ιστό, το οποίο δεν είναι εντοπίσιμο και συλλέξιμο από τους crawlers (άρα δεν υπάρχει κανένας αυτοματοποιημένος τρόπος να αποκτηθεί αυτό) αλλά είναι όμως αξιόλογο, απαιτούνται επιπρόσθετες προσπάθειες «χειρωνακτικής συγκομιδής»

Page 15: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Προτεραιότητες…

ακόμη κι αν οι crawlers δεν μπορούν να έχουν πρόσβαση στο «βαθύ περιεχόμενο» του Ιστού, μπορούν τουλάχιστον να παρέχουν την τεχνική ανάλυση χαρακτηριστικών γνωρισμάτων για την ανίχνευση του

ο συνδυασμός αυτόματης & χειρωνακτικής συλλογής περιεχομένου είναι ο μόνος τρόπος για να εξασφαλίσουμε τον εντοπισμό και την διατήρηση του πολύτιμου υλικού του Web

Page 16: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Εντοπισμός & Αρχειοθέτηση Υλικού του Web

Page 17: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Στιγμιαία Συλλογή Υλικού

Διαρκεί μήνες λόγω της μεγάλης ποσότητας των δεδομένων

Κάθε site αρχειοθετείται κάθε 2-6 μήνες ανεξαρτήτως περιεχομένου

Ανεπαρκές διάστημα για την πλειοψηφία των sites (π.χ. site εφημερίδας)

Αύξηση συχνότητας συλλογής -> μεγάλο κόστος

Λύση: βελτίωση της διαδικασίας συλλογής προσαρμόζοντας τη συχνότητα αποθήκευσης με τa χαρακτηριστικά του site

Page 18: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Αξιολόγηση Ιστοσελίδων (1)

Μελέτη και εκτίμηση των ποσοστών ανανέωσης των σελίδων με τη βοήθεια του πρωτοκόλλου http

Αξιολόγηση χρησιμότητας μιας ιστοσελίδας

Παράμετροι και πολιτικές επιλογής υλικού ανάλογα με τη βιβλιοθήκη/ίδρυμα που κάνει την διαδικασία αρχειοθέτησηςπ.χ. Εθνική Βιβλιοθήκη – διατηρούμε και πάλι οτιδήποτε δημοσιεύεται στο Διαδίκτυο;- ποια τα κριτήρια επιλογής ;

Page 19: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Αξιολόγηση Ιστοσελίδων (2)

Ένα εξίσου σημαντικό κριτήριο μπορεί να είναι τα link που μπορεί να περιέχει ένα site

κάποιες ιδιαιτερότητες όσον αφορά γλώσσα, δομή κ.λ.π.

ή ακόμη και το ποσοστό «επισκεψιμότητας» του π.χ. Google

Όμως όλα τα παραπάνω μπορεί να παραπλανήσουν και να οδηγήσουν σε λανθασμένα συμπεράσματα

Page 20: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Συμπεράσματα…

Είναι δύσκολο να δημιουργήσουμε μεγάλες συλλογές υλικού προερχόμενο από το Διαδίκτυο με «χειρωνακτικά μέσα» επιλογής, αλλά ούτε μπορούμε να εμπιστευτούμε μια τέτοια διαδικασία άβουλες μηχανές όπως είναι οι crawlers.

Κρίνεται λοιπόν απαραίτητη η δημιουργία νέων εκσυγχρονισμένων εργαλείων συλλογής υλικού προσαρμοσμένων στις απαιτήσεις της εποχής.

Page 21: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

Βιβλιογραφία/Δικτυογραφία http://www.dlib.org/dlib/january00/

01hodge.html http://www.dlib.org/dlib/december0

2/masanes/12masanes.html http://www.dlib.org/dlib/january02/

kenney/01kenney.html http://www.dlib.org/dlib/january01/

warnick/01warnick.html

Page 22: WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

ΕΡΩΤΗΣΕΙΣ - ΑΠΟΡΙΕΣ