estado da arte e boas práticas em repositórios...

206
1.1.1.1 DEPARTAMENTO DE CIÊNCIAS E TECNOLOGIAS DA INFORMAÇÃO PRESERVAÇÃO DIGITAL DE LONGO PRAZO Estado da arte e boas práticas em repositórios digitais Maria de Lurdes Tainha Saramago Rodrigues (Licenciada em Línguas e Literaturas Modernas Variante Estudos Portugueses) Dissertação para a obtenção do Grau de Mestre em Estudos de Informação e Bibliotecas Digitais Orientador: Drª Fernanda Maria Guedes de Campos Co-Orientador: Prof. Doutor Pedro Faria Lopes Lisboa, 20 de Julho de 2003

Upload: dangxuyen

Post on 27-Mar-2018

216 views

Category:

Documents


2 download

TRANSCRIPT

1.1.1.1 DEPARTAMENTO DE CIÊNCIAS E TECNOLOGIAS DA INFORMAÇÃO

PRESERVAÇÃO DIGITAL DE LONGO PRAZO

Estado da arte e boas práticas em repositórios digitais

Maria de Lurdes Tainha Saramago Rodrigues

(Licenciada em Línguas e Literaturas Modernas

Variante Estudos Portugueses)

Dissertação para a obtenção do Grau de Mestre em

Estudos de Informação e Bibliotecas Digitais

Orientador: Drª Fernanda Maria Guedes de Campos

Co-Orientador: Prof. Doutor Pedro Faria Lopes

Lisboa, 20 de Julho de 2003

i

AGRADECIMENTOS

O meu primeiro e mais sentido agradecimento vai para a minha orientadora Sra. Dra. Fer-

nanda Maria Guedes de Campos que de forma sábia me acompanhou ao longo da elabora-

ção desta dissertação.

Agradeço ainda ao Sr. Prof. Doutor Pedro Faria Lopes por ter aceite ser co-orientador da

dissertação, pelos seus bons conselhos e orientações finais.

Agradeço à minha família pela paz de espírito que me proporcionou durante estes dois

anos de trabalho intenso e em especial ao meu marido pela sua presença e apoio, muitas

vezes técnico.

Agradeço às minhas colegas Dra. Isabel Goulão e Dra. Margarida Meira pela companhia e

amizade constantes.

Agradeço também ao meu colega Dr. Paulo Leitão pela paciência de me ter ouvido e pelas

boas sugestões que me apresentou.

ii

“… much as monks of times past, it falls to librarians

and archivists to hold to the tradition which reveres his-

tory and the published heritage of our times”

Terry Kuny, 1998

iii

RESUMO

Aborda-se o estado da arte da preservação de recursos digitais na perspectiva da sua pre-

servação de longo prazo. São enunciadas as práticas e as diversas metodologias tidas ac-

tualmente como as mais adequadas para se obviar à fragilidade física dos suportes e à

vulnerabilidade do meio digital, assim como a perdas inerentes à preservação de recursos

nos mais diversos meios e formatos.

A recolha e selecção de recursos a preservar são também pontos que desenvolvemos. Co-

ligimos exemplos reais que espelham as abordagens das comunidades que consideramos

mais avançadas nesta matéria.

São focados os aspectos tecnicamente mais inovadores do ponto de vista da utilização de

metadados e a sua relação com as diversas estratégias implementáveis, nomeadamente a

emulação, a migração, a encapsulação, a aplicação do UVC (Universal Virtual Computer) e

o XML. São ainda referidas as boas práticas quanto a metadados de preservação e são

integrados alguns esquemas que confirmam o acompanhamento das respectivas comuni-

dades em que se inserem, as quais partem de um esquema padrão que elegem, e evoluem

numa perspectiva de adaptação ao próprio ambiente.

A metodologia de implementação de repositórios digitais à qual nos dedicámos é baseada

no modelo de referência OAIS desenvolvido no âmbito da NASA. Este modelo encontra-se

em vias de ser implementado pelos repositórios digitais mais relevantes à escala global.

Verificámos que a comunidade CEDARS é aquela que, dadas as suas características pode

servir de modelo.

No seguimento desta investigação simulámos um conjunto de metadados preparado para

ajustar ao OAIS na forma de um pacote de informação para depósito passível de ser adap-

tado a uma comunidade com características similares às da comunidade nacional.

Acrescentámos de forma sistematizada as boas práticas que devem ser mantidas pelas ins-

tituições que pretendem implementar repositórios ou bibliotecas digitais.

Palavras chave : Preservação digital; Boas práticas; Metadados; Estratégias de preserva-

ção; Migração; Emulação; OAIS

iv

v

ABSTRACT

The long-term digital preservation is focused paying special attention to the state of the art

of the practices and methodologies that can tackle the physical fragility of supports and the

vulnerability of the digital environment. The minimization of information loss during the

preservation process through the various formats and platforms is addressed.

The selection of resources to preserve is pointed out, as well as real life cases depicted

from the most up-to-date approaches of several communities.

We have stressed the most promising techniques of metadata usage and their relationship

with the various strategies available, e.g. emulation, migration, encapsulation, “Universal

Virtual Computer” and XML.

The good practices of preservation metadata are stressed alongside some metadata

schema.

The digital repositories methodology that we have adopted is based upon the OAIS refer-

ence model developed within NASA. This model is about to be implemented by the world

most relevant digital repositories.

We have studied with care the most important digital preservation communities in the

world and we have considered the CEDARS community as it is one that can be looked as a

standard.

On the aftermath of our investigation we have simulated a subset of metadata to be im-

plemented within the OAIS model in the form of a deposit information package. The area

of application should be the national community.

We have included, in a systematic way, the good practices that must be object of mainte-

nance by the various institutions that want to implement digital repositories and digital li-

braries.

Keywords :

Digital preservation; Good practices; Metadata; Preservation strategies; Migration; Emula-

tion; OAIS

vi

vii

ÍNDICE

RESUMO ............................................................................................................ iii

ABSTRACT........................................................................................................... v

1. INTRODUÇÃO...................................................................................................1

1.1. DELIMITAÇÃO DO TEMA ..............................................................................1

1.2. MOTIVAÇÃO PARA A ESCOLHA DO TEMA........................................................6

1.3. APRESENTAÇÃO DO PROBLEMA E DOS SEUS PONTOS CHAVE ...........................7

1.4. QUESTÕES FUNDAMENTAIS .........................................................................9

1.5. OBJECTIVOS ............................................................................................ 12

2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS...................................... 15

2.1. CARACTERÍSTICAS DE UMA BIBLIOTECA DIGITAL ......................................... 16

2.2. A PRESERVAÇÃO DOS RECURSOS E A GESTÃO DAS BIBLIOTECAS DIGITAIS .... 17

2.2.1. Alguns aspectos tecnológicos básicos das bibliotecas digitais..................... 17

2.2.2. A tecnologia do acesso ....................................................................... 19

3. QUADRO TEÓRICO DE REFERÊNCIA................................................................... 23

3.1. A PRESERVAÇÃO DA MEMÓRIA DOS POVOS ................................................. 23

3.2. O PAPEL DAS INSTITUIÇÕES PATRIMONIAIS ................................................ 26

3.2.1. Os recursos digitais e o depósito legal ................................................... 28

3.2.2. Modo de aquisição dos recursos ............................................................ 30

3.3. CARACTERIZAÇÃO DO AMBIENTE TECNOLÓGICO .......................................... 32

3.3.1. Características dos recursos ................................................................. 32

3.3.2. Características dos suportes de armazenamento dos recursos ................... 33

3.3.3. Obsolência dos dispositivos de leitura .................................................... 37

viii

3.4. CICLO DE VIDA DOS RECURSOS DIGITAIS................................................... 37

3.4.1. Criação dos recursos........................................................................... 37

3.4.2. Selecção dos recursos ......................................................................... 38

3.4.3. Identificação persistente dos recursos ................................................... 40

3.4.4. Descrição e acesso dos recursos ........................................................... 42

3.4.5. Armazenamento dos recursos .............................................................. 42

3.4.6. Preservação de longo prazo e recuperação da informação ........................ 43

3.5. INTEGRIDADE, AUTENTICIDADE E AUTENTICAÇÃO DE RECURSOS DIGITAIS .... 44

3.5.1. Integridade ....................................................................................... 44

3.5.2. Autenticidade..................................................................................... 46

3.5.3. Autenticação...................................................................................... 49

3.6. ESTRATÉGIAS DE PRESERVAÇÃO DIGITAL ................................................... 54

3.6.1. Preservação tecnológica e impressão em papel ....................................... 55

3.6.3. Emulação .......................................................................................... 56

3.6.4. Migração ........................................................................................... 57

3.6.5. Encapsulação..................................................................................... 59

3.6.6. Software Máquina Virtual (UVC - Universal Virtual Computer) ................... 59

3.6.7. XML (Extensible Markup Language)....................................................... 60

3.7. METADADOS DE PRESERVAÇÃO DE LONGO PRAZO ....................................... 62

3.7.1. Comunidades temáticas e respectivas necessidades de metadados ............ 65

3.7.2. Sistemas de metadados aplicáveis à preservação digital........................... 67

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL.............. 71

4.1. CONFIABILIDADE DE UM REPOSITÓRIO DIGITAL .......................................... 71

4.1.1. As questões legais .............................................................................. 72

4.1.2. As questões financeiras ....................................................................... 73

4.1.3. A gestão do risco................................................................................ 75

4.1.4. As garantias de acesso continuado aos recursos digitais........................... 78

4.1.5. O Modelo de referência OAIS ............................................................... 80

ix

4.2. AS GRANDES OPÇÕES DE PRESERVAÇÃO..................................................... 88

4.2.1. Internet Archive ................................................................................. 88

4.2.2. NEDLIB - Networked European Deposit Library ....................................... 89

4.2.3. CEDARS (CURL Exemplars in Digital Archives) ........................................ 92

4.2.4. PANDORA (Preserving and Accessing Networked Documentary Resources of

Australia) .......................................................................................... 94

4.2.5. OCLC/RLG Working Group on Preservation Metadata................................ 95

4.2.6. FEDORA (Flexible Extensible Digital Object and Repository

Architecture).................................................................................... 97

4.3. A MOTIVAÇÃO PARA A UTILIZAÇÂO DO MODELO DE REFERÊNCIA OAIS ........... 98

4.3.1. Os interesses das potenciais comunidades utilizadoras ............................. 98

4.3.2. Simulação de uma matriz de metadados de preservação ........................ 125

4.4. OS REPOSITÓRIOS DIGITAIS E A DESCOBERTA E CAPTURA DE METADADOS.. 126

4.4.1. O OAI-PMH (Open Archives Inititative Protocol for Metadata Harvesting) .. 126

4.4.2. O exemplo do serviço de acesso do Projecto FEDORA............................. 127

4.5. BOAS PRÁTICAS DE PRESERVAÇÃO RECOMENDADAS NA IMPLEMENTAÇÃO DE UM

REPOSITÓRIO DIGITAL ........................................................................... 128

5. CONCLUSÃO ................................................................................................ 133

BIBLIOGRAFIA ................................................................................................. 139

ANEXO 1 – SIMULAÇÃO DE MATRIZ DE METADADOS DE PRESERVAÇÃO

ANEXO 2 – GLOSSÁRIO

ANEXO 3 – SIGLAS E ACRÓNIMOS

ANEXO 4 – SÍTIOS RECOMENDADOS NA ÁREA DA PRESERVAÇÃO DIGITAL

1. INTRODUÇÃO

1

1. INTRODUÇÃO

1.1. DELIMITAÇÃO DO TEMA

Em 1986 J. M. Dureau e D. W. G. Clements1 no âmbito da IFLA (International Federation of

Library Association) definiam a preservação de espécies bibliográficas como :

“Preservação engloba todos os aspectos financeiros e de gestão incluindo a armazenagem em todos os seus aspectos, questões de pessoal, política, técnicas e métodos envolvidos na preservação das espécies bibliográficas e a informação que elas contenham”

Nesta definição apontam-se dois grandes objectivos, sendo um a preservação do conteúdo

intelectual da informação, transferindo-o de um para outro suporte, p. ex. papel para mi-

crofilme e o outro a preservação da integridade física original da espécie bibliográfica tão

intacta e utilizável quanto possível.

Como nem todas as bibliotecas ou arquivos teriam condições nem manifesto interesse para

assegurar a integridade física de todas as espécies que possuíam, deveria ser estabelecida,

no âmbito da gestão de colecções, uma política de prioridades.

Estes conceitos, mantêm actualidade para documentos que não são exclusivamente livros

e manuscritos mas também filmes, fotografias, gravuras, mapas, registos de som e ima-

gem, etc.

Em Portugal, Luísa Cabral (1998)2 manifesta a sua preocupação ao constatar que no virar

do século XX as bibliotecas e arquivos portugueses ainda não encararam com conhecimen-

to de causa e seriedade a extensão do problema que têm em mãos, dado que o estado das

colecções nunca foi diagnosticado.

Não existem, de facto, práticas instaladas de gestão das colecções onde se insira a selec-

ção dos documentos a preservar, uns pela simples transmissão do conteúdo intelectual,

1 DUREAU, J. M., CLEMENTS, D. W. G. (1992) - Princípios para a preservação e conservação de espé-

cies bibliográficas. – Edição em língua portuguesa por Maria da Conceição Casanova, Maria Fer-nanda Casaca Ferreira, Maria Luísa Macedo. Lisboa : Biblioteca Nacional.

2 CABRAL, Maria Luísa (1998) – Microfilmagem e digitalização : a coexistência pacífica. Páginas a & b, 2, p. 41-52

1. INTRODUÇÃO

2

outros ainda acrescentando o valor do artefacto, e outros unicamente pelo valor do arte-

facto.

No que diz respeito aos recursos digitais, não obstante as enormes barreiras a ultrapassar,

particularmente nos campos económico e financeiro devido aos custos altos que acarreta,

preservar e facilitar o acesso aos recursos electrónicos a longo prazo tornou-se um objecti-

vo que deve ser inscrito no plano de gestão de colecções das bibliotecas digitais, para que

a persistência a longo prazo do acesso aos recursos possa ser efectivamente gerida e mo-

nitorizada. É que, no domínio digital e ao contrário do recurso em papel, a informação e o

seu suporte são muito mais perecíveis e voláteis.

Em ambiente arquivístico propriamente dito estes factores são normalmente objecto de

legislação específica para evitar a perda irremediável de informação.

A criação e desenvolvimento de uma colecção, digital ou tradicional deve, por conseguinte,

submeter-se a alguns parâmetros, tais como :

1) Missão da instituição e da biblioteca detentoras dos recursos

2) Estratégia e política de desenvolvimento das colecções

3) Caracterização da própria colecção articulando as necessidades de po-

tenciais utilizadores com os limites temáticos e também com compromis-

sos em termos de cooperação com outras instituições e bibliotecas.

É indispensável a existência de um documento escrito que explicite a política de desenvol-

vimento das colecções e dele devem constar:

1) Uma introdução com enquadramento e âmbito da política de desenvol-

vimento

2) As missões da instituição e da biblioteca e o resumo das necessidades e

prioridades

3) Parâmetros das colecções: grupos de utilizadores, programas e requisi-

tos, limites genéricos dos temas, inclusões e exclusões em termos gerais,

compromissos de cooperação, etc.

A estes pontos devem ser acrescentados outros relacionados com necessidades de preser-

vação a fim de obviar a perdas irrecuperáveis.

É o caso da selecção, ponto fulcral no ciclo de vida dos recursos digitais a preservar, que

deve estar inscrita no âmbito da gestão de colecções.

1. INTRODUÇÃO

3

Infelizmente não existem ainda ferramentas electrónicas de selecção que possam substituir

o elemento humano de forma eficaz durante esta fase. O lado positivo da questão é que o

desempenho humano vem acrescentar qualidade e consistência à decisão sobre as colec-

ções a preservar.

Atendendo à orientação do trabalho que nos propomos apresentar, deixando de lado os

aspectos da preservação dos documentos com suporte físico, é necessário atingir e ultra-

passar uma nova meta com base em aspectos tecnológicos, dadas as especificidades dos

documentos enquanto unicamente digitais. As tecnologias introduzem factores de mudança

na arquitectura dos recursos digitais com repercussões ao nível dos serviços a desenvolver,

tais como a pesquisa, a recuperação ou a preservação dos recursos.

Surgem dificuldades de preservação que podemos considerar diferentes e novas, que di-

zem respeito ao ambiente de mudança permanente, à obsolência tecnológica, à vulnerabi-

lidade do ambiente digital, etc.

Os factores mais preocupantes da era digital, que assustam pelos riscos que acarretam

são:

1) A natureza efémera dos recursos digitais

a) Efémera para os suportes de armazenamento

Discos, bandas, etc, cujos formatos podem ser substituídos e se tornam obso-

letos (caso, p. ex., das disketes de 5 ¼” substituídas pelas de 3,5” ainda há

relativamente poucos anos). A deterioração dos suportes pode também consti-

tuir um alto factor de risco se a exposição ao calor, humidade, calamidades ou

actos terroristas, não for acautelada.

b) Efémera para as tecnologias de armazenamento

- Sistemas operativos e software que aparecem com novas versões em espa-

ços de tempo muito curtos dando origem a ambientes hostis, onde os recursos

deixam de ser reconhecidos à medida que envelhecem;

- Para os formatos dos ficheiros ou esquemas de compressão com base em

sistemas proprietários.

c) Efémera devido ao fraco envolvimento institucional e à ausência de polí-

ticas e procedimentos de preservação definidas para o efeito.

1. INTRODUÇÃO

4

2) A dependência da tecnologia

É impossível ter acesso a recursos digitais sem assegurar a existência de sistemas de har-

dware e software compatíveis pois ao contrário do documento impresso, o documento

electrónico para ser lido necessita de apoio tecnológico.

A combinação destes factores torna impossível a sobrevivência dos recursos digitais sem

uma atenção constante. Um texto digital não pode ser deixado ao abandono durante anos

e voltar a ser lido sem intervenção humana.

Os meios de edição e impressão estão relativamente normalizados à escala internacional.

Um físico na Finlândia e um poeta em Portugal esperam que a sua produção científi-

co/cultural mantenha a sua integridade no essencial. Já o ambiente digital proporciona va-

riantes dos recursos digitais e encoraja grupos diferentes a prosseguir diversos objectivos

e normas. Acrescente-se ainda vários tipos de recursos e vários tipos de hardware e

software que as diversas disciplinas podem produzir e para os quais se espera que sejam

preservados.

Todas as variáveis devem, pois, ser equacionadas face à mudança tecnológica:

a) A rapidez da mudança é uma característica das tecnologias da informa-

ção digital. Esta rapidez significa que todos os passos dados na busca da

estabilidade e permanência estão também em risco de se tornarem obso-

letos, até mesmo antes de serem adoptados.

b) Os regimes de propriedade intelectual encorajam privatizações de vários

tipos, incluindo a restrição do acesso à informação, p. ex., através da cria-

ção de sistemas proprietários que permitem encriptar e esconder a infor-

mação a utilizadores que não estão autorizados a aceder ao sistema, até

que a informação perca o seu valor comercial.

c) A quantidade de trabalho criado na forma digital ameaça ultrapassar as

nossas práticas tradicionais de gestão.

d) O conjunto dos factores já apresentados ameaça atingir custos de ges-

tão imprevisíveis.

e) Finalmente, a efemeridade da natureza dos meios de armazenamento e

transmissão impõe a maior urgência na tomada de medidas.

Contra esta lista de tendências impõe-se uma enorme expectativa. Existem padrões com-

portamentais na comunidade das bibliotecas e também na editorial no que diz respeito à

1. INTRODUÇÃO

5

preservação, permanência, e difusão. Estes valores emergem com grande vitalidade pe-

rante os riscos envolvidos na instabilidade do ambiente digital.

Face aos novos desafios colocados pela Internet que, de igual modo, facilitam os acessos e

os contactos entre instituições congéneres, é fundamental ou mesmo condição de sobrevi-

vência pensar em termos de cooperação entre arquivos, bibliotecas, museus, grandes edi-

tores, produtores de informação em geral, criadores de software, etc. Os altos custos a ul-

trapassar, por um lado, e a distribuição generalizada dos recursos em redes, por outro,

facilitam a emergência de parcerias. A título de exemplo podemos referir a utilização do

modelo de referência OAIS (Open Archive Information System) criado sob os auspícios da

NASA (National Aeronautics and Space Administration) pelo CCSDS (NASA Consultative

Committee for Space Data Systems) que será desenvolvido em detalhe no ponto 4.1.5. Os

projectos de preservação digital CEDARS (Curl Exemplars in Digital Archives Project),

PANDORA (Preserving and Accessing Networked DOcumentary Resources of Australia) e

NEDLIB (Networked European Deposit Library) adoptaram este modelo de referência e po-

demos considerá-los verdadeiras instituições virtuais de partilha de recursos, tanto no

campo tecnológico como na gestão do conhecimento.

Para fazer face aos elevados custos da preservação deve, portanto, pré-existir discussão e

consenso ao mais alto nível das instituições que pretendam levar a cabo a criação de repo-

sitórios digitais. Entenda-se aqui por repositórios digitais, arquivos ou bibliotecas digitais

que decidiram manter e preservar os próprios recursos ou ainda com a capacidade de ar-

mazenar recursos alheios, acessíveis ou não a utilizadores externos.

Os resultados dos projectos implementados devem estar documentados de forma transpa-

rente e ser amplamente divulgados. No seguimento de trabalho pluridisciplinar devem sur-

gir linhas orientadoras de selecção de recursos. A título de exemplo, podemos referir-nos

às linhas orientadoras da Biblioteca Nacional do Canadá e também da Biblioteca Nacional

da Austrália.

Durante a selecção dever-se-á verificar se os recursos digitais a preservar são cópias de

documentos com existência física ou nascidos digitais. A sua forma original poderá influen-

ciar as opções de selecção para preservação, tendendo a deixar para um segundo plano,

as cópias de documentos com existência física que não estão em risco de desaparecimento

ou não têm valor acrescentado pelo suporte físico. Os recursos nascidos digitais ao serem

sujeitos ao crivo da selecção, terão à partida o seu suporte electrónico como alerta para

um possível desaparecimento.

1. INTRODUÇÃO

6

No decurso deste trabalho vamos procurar:

1. Abordar a perspectiva da criação de bibliotecas digitais e das opções de gestão da

preservação, assumidas com vista a prevenir o desaparecimento dos recursos a longo

prazo.

2. No âmbito do quadro teórico de referência, fazer o ponto da situação da preservação

digital a nível mundial.

3. Discutir as estratégias a implementar com vista a ultrapassar os problemas da obso-

lência tecnológica.

4. Ir ao encontro das boas práticas utilizadas e dos sistemas de metadados de uso mais

corrente utilizando, como metodologia, o benchmarking. Os projectos seleccionados

para comparação são o CEDARS, o PANDORA, o NEDLIB e o OCLC/RLG-WG.

5. Simular uma matriz de metadados adaptada a uma determinada comunidade de

utilizadores.

6. Enumerar as boas práticas conducentes à eficaz implementação de um repositório

digital confiável.

1.2. MOTIVAÇÃO PARA A ESCOLHA DO TEMA

A motivação para a escolha do tema e do problema desta dissertação surge da experiência

do exercício profissional de bibliotecária. A conservação e preservação de documentos é

uma disciplina querida dos profissionais da documentação em geral, bibliotecários ou ar-

quivistas e alicerça-se em épocas distantes, com muitos séculos de permeio.

Com a emergência das novas tecnologias e a utilização alargada da Internet surgem ele-

mentos novos, como a possibilidade de gerar e difundir recursos criados em computador

baseados em múltiplos meios, aos quais chamamos multimedia digital e surge também, a

possibilidade de digitalizar documentos em suporte papel, documentos sonoros, artefactos

museológicos, etc. Estes recursos, uns nascidos digitais, outros cópias de documentos com

existência física, dadas as suas características, possuem enormes potencialidades do ponto

de vista da difusão e acesso à informação e ao conhecimento, mas possuem também al-

guns factores de alto risco para a sua sobrevivência a longo prazo. Estes serão detalhada-

mente estudados ao logo desta dissertação.

1. INTRODUÇÃO

7

Diz-nos Fernanda Campos em intervenção no Congresso da BAD (Associação Portuguesa

de Bibliotecários Arquivistas e Documentalistas) de 20013 que:

“Uma das mais importantes qualidades da informação em formato digital consiste no facto de não ser fixa pela sua própria natureza, ao contrário do que sucede com os textos impressos. Os textos digitais não são finais nem finitos nem são fixos, quer na essência quer na forma (...)”

Por um lado, nós, bibliotecários, lidamos com ferramentas electrónicas que aumentam a

capacidade de gerir o conhecimento, de forma a que a difusão da informação se alargue a

um número de utilizadores da vez maior, não só da nossa comunidade mas de comunida-

des à escala planetária. Por outro, corremos o risco de perder todas as mais valias acres-

centadas pelo nosso trabalho, assim como os recursos digitais propriamente ditos devido à

vulnerabilidade do ambiente digital e à obsolência tecnológica.

É o elevado sentido do risco de perda que nos dá a motivação para nos dedicarmos a esta

investigação sobre preservação de recursos digitais a longo prazo.

1.3. APRESENTAÇÃO DO PROBLEMA E DOS SEUS PONTOS CHAVE

O problema que iremos explorar ao longo deste trabalho de tese é muito complexo e diz

respeito à preservação de recursos digitais, nomeadamente quando vista sob a perspectiva

biblioteconómica, isto é, pelo gestor de colecções. Tencionamos abordá-lo pelas seguintes

vertentes:

a) Deterioração e obsolência de hardware e suportes de armazenamento

- Qualquer peça de hardware deteriora-se com o tempo, por vezes até ao

ponto de já não poder voltar a ser usada. Mas é acima de tudo a sua de-

sactualização / obsolência e não a sua deterioração que preocupa os res-

ponsáveis pela preservação dos recursos digitais.

- A longevidade dos suportes de armazenamento é outra variável a ter em

conta. A titulo exemplificativo referimos que se estima que a duração de

uma banda magnética seja de 10 a 20 anos4 e que a de um CD-ROM seja

de 50 a 100 anos. Enumeraremos estas referências no ponto 3.3.2 assim

como outras, relativas a outros suportes.

3 CAMPOS, Fernanda Maria (2001) – Bibliotecas digitais : uma nova perspectiva de valorização e

acesso ao património cultural. In: Congresso Nacional de Bibliotecários, Arquivistas e Documen-talistas. Porto, 2001.

4 Aschenbrenner, A. (2001) - Long-term preservation of digital material : building an archive do pre-serve digital cultural heritage from the Internet. Institut für Softwaretechnik und Interaktive Sys-teme der Technischen Universität Wien

1. INTRODUÇÃO

8

b) Obsolência de software

Preservar o fluxo de bites, não garante que a informação seja preservada. É necessário

software que a leia de forma inteligível. Essas peças de software são desenvolvidas de

modo contínuo por parte dos produtores comerciais de software ou mesmo em instituições

sem fins lucrativos. Assiste-se, por este motivo a uma frenética aparição de produtos no-

vos, ou novas versões, que tomam conta do mercado e obrigam a actualizações no seio

dos próprios repositórios que estão destinados a receber e armazenar recursos a longo

prazo.

c) Boas práticas usadas na criação e manutenção dos recursos digitais

O conceito “boas práticas” é encarado neste trabalho essencialmente como criação de me-

tadados. Em Borbinha (2001)5 encontramos a seguinte definição para metadados:

“informação estruturada sobre ou representativa de um recurso (documento ou obra em geral)”.

A normalização nesta área do conhecimento tem sido objecto de estudo alargado e este

mesmo trabalho dá-nos uma comparação entre biblioteca tradicional e biblioteca digital

bem como a caracterização dos metadados relacionados. Mais à frente nesta tese aborda-

remos de modo detalhado o assunto metadados, no entanto podemos desde já acrescentar

que:

A gestão efectiva da preservação digital é facilitada pela criação, manuten-

ção e evolução de metadados de apoio à preservação. Estes podem docu-

mentar os processos técnicos associados à preservação, especificar os di-

reitos da gestão da informação e estabelecer a autenticidade dos conteú-

dos digitais.

Diversas iniciativas foram desenvolvidas no que diz respeito a metadados

para preservação. Estes desenvolvimentos, existem de forma independen-

te e respondem a necessidades particulares de instituições e projectos.

Existem pontos comuns, mas também muitas diferenças. A uns e a outros

nos referiremos ao longo do desenvolvimento do trabalho.

Iniciativas tais como o Dublin Core Metadata Initiative (DCMI) demonstram

o valor do consenso no campo das boas práticas a implementar. Dentro

5 BORBINHA, J. (2001) - Metadata: conceito e sua relevância para as bibliotecas. In : Congresso Na-

cional de Bibliotecários, Arquivistas e Documentalistas, 7º, Porto, 2001.

1. INTRODUÇÃO

9

deste espírito a OCLC/RLG Working Group em metadados de preservação6

(Online Computer Library Center/ Research Libraries Group) foi criada

para iniciar um processo de construção consensual de metadados para

preservação

d) Confiabilidade de um repositório digital

A preservação a longo prazo, em larga escala, capaz de responder às necessidades dos in-

vestigadores e académicos do futuro, carece de infra-estruturas profundas, capazes de su-

portar sistemas distribuídos de repositórios digitais.

Um dos pontos críticos para a criação de infra-estruturas de repositórios digitais é a inexis-

tência de número suficiente de organizações avalizadas, capazes de armazenar, migrar e

assegurar o acesso às colecções digitais.

Neste contexto, um elemento da maior importância será a existência de um processo de

certificação de repositórios digitais que assegure um clima de segurança no que diz respei-

to ao futuro da preservação digital.

O problema no caso português surge quando :

Instituições que se lançam na criação de bibliotecas digitais estão apenas

parcialmente habilitadas à passar à sua concretização, tanto do ponto de

vista de conhecimentos teóricos como tecnológicos.

A vertente preservacionista é simplesmente ignorada. Ressalvamos o caso

da manutenção e permanência dos recursos, que ao longo do tempo tem

vindo a sensibilizar as instituições e mesmo os particulares.

A preservação de recursos digitais é pois, um assunto que deve ser encarado como sendo

de importância estratégica nacional, sob pena de vermos desaparecer pedaços da nossa

História.

1.4. QUESTÕES FUNDAMENTAIS

Ao longo desta tese tentaremos aprofundar algumas questões por nós consideradas fun-

damentais.

6 OCLC/RLG Working Group on preservation metadata (2001) - Preservation metadata for digital ob-

jects: a review of the state of the art: a white paper. http://www.oclc. org/ digitalpreserva-

1. INTRODUÇÃO

10

a) A preservação da memória dos povos

Conscientes que estamos do crescimento acelerado da criação de recursos digitais à escala

planetária e consequente proliferação destes através de redes, tais como, Internet, Intra-

net, Extranet, etc, e também conscientes da vulnerabilidade do ambiente digital, surgem-

nos as seguintes questões :

- A produção intelectual dos dias de hoje, nascida digital, estará em dias futuros mais

ou menos longínquos, depositada em repositórios digitais confiáveis e bem protegidos?

Ou desaparecerá, deixando as nações irremediavelmente empobrecidas?

b) A preservação de recursos digitais

Com o surgimento da tecnologia digital muitos criadores produzem directamente em com-

putadores. Alguma dessa informação pode ser impressa, mas a maior parte, com ênfase

em bases de dados, recursos multimedia, informação geográfica, páginas da Internet, etc.,

existe unicamente em formato digital, ainda com a possibilidade da existência simultânea

de formatos diversos no mesmo recurso e de versões diferentes do seu conteúdo. Surge-

nos de imediato a questão da selectividade.

- Será que toda essa informação é importante para o futuro ?

- Que herança vamos deixar ?

- Quem decide que recursos preservar perante o cenário preocupante da questão ante-

rior ?

- Os responsáveis pelas unidades documentais?

- Os profissionais da informática?

- Os decisores políticos?

c) Sensibilização para a criação de bibliotecas digitais

Uma biblioteca digital é uma colecção de recursos electrónicos de informação proveniente

de uma variedade de fontes, incluindo a Web. Fisicamente, uma biblioteca deste tipo apa-

rece como um sítio Web ou uma compilação de ligações a sítios num ou mais servidores

que podem ser acedidos através da Internet (Kovaks, 2000)7.

Manter uma biblioteca digital é um compromisso entre a gestão da qualidade das colecções

e a administração dos sítios na Web.

tion/presmeta_wp.pdf. (acedido em 16.01.2002) 7 KOVACS, Diane K , ELKORDY, Angela (2000) – Collection development in ciberspace. Library Hi

Tech, 18 (4), p. 335-359.

1. INTRODUÇÃO

11

- Quais os factores que devem ser tidos em consideração pelos intervenientes na criação

de bibliotecas digitais quanto à manutenção dos conteúdos e sua preservação a longo pra-

zo?

d) Estratégias de preservação

A preservação de recursos digitais consiste numa mediação técnica entre o objecto e a in-

formação que veicula (Lupovici, 2001)8. Num contexto tradicional, não digital, a simples

preservação do objecto físico, p. ex., um livro constitui o essencial do trabalho e ao mesmo

tempo são conservados alguns dados (ou metadados) sob a forma de catálogos, onde se

descreve o conteúdo da obra e a sua contextualização.

Temos também o exemplo mais recente de documentos sonoros analógicos para os quais

existe a necessidade de mediação técnica de um aparelho que transforme uma vibração

física em ondas sonoras e para o qual as características técnicas de transformação muda-

ram com o desaparecimento de materiais substituídos por outros de novas gerações in-

compatíveis. Neste último caso, a preservação concentra-se no suporte e na obsolência do

material que o constitui. Haverá que transferi-lo para novos suportes compatíveis com os

materiais em uso.

No contexto informático, as soluções existentes passíveis de implementação, migração de

dados ou emulação de máquinas e sistemas operativos, entre outras, incidem ou sobre os

dados ou sobre as tecnologias envolventes. Que estratégias implementar ?

- Preservação tecnológica ?

- Migração ?

- Emulação ?

- Encapsulação ?

- XML ?

e) A necessidade da existência de boas práticas

A existência de boas práticas é uma necessidade imperiosa para atingir a preservação e

recuperação da informação tal qual ela foi produzida.

8 LUPOVICI, Catherine (2001) – Les besoins et les données techniques de préservation. 67th IFLA

Council and General Conference, Boston, 2001

1. INTRODUÇÃO

12

Em ambiente digital os recursos são mutáveis, por este motivo deve ser mantido ao longo

do tempo um historial por forma a garantir as suas qualidades de autenticidade e integri-

dade (Lupovici, 1998)9.

As tecnologias de acesso aos recursos digitais rapidamente se tornam obsoletas e por isso

haverá que encapsular juntamente com o recurso informação acerca do hardware, do sis-

tema operativo e respectivo software usados para o criar.

Os metadados de preservação devem ser usados para:

Armazenar informação técnica sobre decisões e acções de preservação;

Documentar estratégias de conversão de dados;

Registar os efeitos das estratégias de conversão de dados;

Assegurar a autenticidade dos recursos digitais ao longo do tempo;

Registar informação acerca de gestão de colecções e de direitos.

- Com vista à criação de metadados de preservação que sistema escolher ? Haverá um sis-

tema de eleição ?

1.5. OBJECTIVOS

Os recursos digitais em bibliotecas, arquivos e museus vão desde ficheiros de simples texto

até bases de dados de recursos multimedia altamente complexos.

A informação digital é composta por uma crescente parte da nossa herança cultural e inte-

lectual e oferece enormes benefícios aos utilizadores. Ao mesmo tempo, a preservação e o

acesso a esta informação dependem de meios pouco estáveis, da tecnologia, da criação de

metadados na origem e da determinação da autenticidade dos recursos.

Quando uma biblioteca ou um arquivo cria os seus próprios recursos, seja por digitalização

de colecções existentes seja com documentos unicamente digitais, é possível decidir sobre

normas, formatos, controlo de qualidade e metadados associados que vai usar. Quando o

mesmo acontece com recursos capturados através da Internet essa capacidade de controlo

não existe.

Acontece que, por vezes por puro desconhecimento, outras por falta de fundos ou qualquer

outra razão, os organizadores de bibliotecas digitais não têm preocupações preservacionis-

9 LUPOVICI, Catherine (1998) – L’information bibliographique de douments electroniques. Paris, BBF,

43 (4)

1. INTRODUÇÃO

13

tas nem utilizam as chamadas boas práticas oferecidas pela normalização e não integram a

criação de metadados específicos para a preservação dos recursos. O mesmo se verifica no

que diz respeito a normas instituídas para a criação e manutenção dos sítios.

Passado algum tempo, todo o investimento, tanto a nível financeiro como intelectual per-

de-se, o que dá lugar a frustrações do utilizador final e a empobrecimento do património

cultural e científico.

A preservação dos recursos digitais é, por conseguinte, uma missão que deve ser conside-

rada estratégica pelos estados e por isso endossada, na sua parte fundamental às institui-

ções patrimoniais: bibliotecas nacionais, arquivos nacionais ou grandes bibliotecas acadé-

micas. Estes devem ser apetrechados de todos os meios, humanos, tecnológicos e finan-

ceiros para fazer face à complexidade dos problemas que decorrem da própria natureza

dos recursos e do meio ambiente digital.

A instabilidade do ambiente da Internet obriga a uma constante presença do elemento

humano. Damos os exemplos, entre outros, da criação de ferramentas de indexação, pes-

quisa e captura em larga escala, que percorrem e perscrutam a Internet sem cessar des-

cobrindo recursos que vão de encontro às necessidades de selecção ou ainda ferramentas

que lhes associam metadados. No caso da preservação digital de longo prazo, serão meta-

dados específicos para preservação.

Os recursos digitais tornam-se ilegíveis e inacessíveis se os mecanismos de leitura neces-

sários se tornarem obsoletos. A fragilidade física dos suportes, a obsolência tecnológica e a

plasticidade do meio ambiente digital são obstáculos a ultrapassar na preservação digital

de longo prazo.

Consideramos como preservação digital de longo prazo, o armazenamento, a manutenção

e o acesso continuado aos recursos digitais, usualmente consequência da aplicação de uma

ou mais estratégias de preservação digital incluindo migração de dados ou emulação

tecnológica (Russel & Sergeant, 1999)10.

Adoptámos a definição de repositório digital confiável como aquele cuja missão é assegurar

o acesso continuado aos recursos digitais de forma persistente e estável a uma designada

comunidade agora e no futuro (RLG-OCLC, 2002) 11.

No seguimento dos pressupostos enunciados passamos a apresentar os nossos objectivos

para esta tese :

10 RUSSEL,Kelly & SERGEANT,Derek (1999) - The Cedars project : implementing a model for distrib-

uted digital archives. RLG DigiNews, 3 (3). 11 RLG-OCLC (2002) – Trusted digital repositories : attributes and responsibilities. Mountain View:

Research Libraries Group.

1. INTRODUÇÃO

14

1) Estudar os conceitos teóricos da preservação digital.

2) Verificar o “estado da arte” a nível mundial, incluindo no nosso país, em matéria

de preservação de recursos digitais a longo prazo.

3) Comparar as melhores práticas utilizadas pelos projectos mais importantes na

área da preservação digital.

4) Apresentar linhas orientadoras para o ciclo de vida dos recursos digitais, baseadas

em projectos existentes, de apoio às instituições que manifestam intenções de

criação de repositórios digitais confiáveis.

5) Contribuir, ao longo de todo o trabalho, para dar pistas e alertar a consciência da-

queles que, no nosso país, a nível institucional, têm o poder decisório sobre a cri-

ação e organização de bibliotecas ou repositórios digitais.

2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS

15

2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS

“As bibliotecas digitais devem permitir o acesso a todo o conhecimento hu-mano por parte de qualquer cidadão, em qualquer hora e em qualquer lu-gar, num ambiente amigável, multi-modal, eficiente e efectivo ultrapassan-do as barreiras da distância, da língua e da cultura através de dispositivos ligados à Internet”

DELOS Brainstorming Report, San Cassiano, Itália, 2001

As bibliotecas digitais e as suas infraestruturas tecnológicas encontram-se em rápido ama-

durecimento. Do ponto de vista da preservação digital, é na fase do estudo das opções de

criação das infraestruturas que deve ser decidido quais os recursos a preservar e durante

quanto tempo.

O acesso e a preservação sempre mantiveram uma forte interacção, sendo objectivo pri-

meiro da preservação da informação o de a tornar acessível a futuras gerações (Jones &

Beagrie, 2001)12.

Partindo deste pressuposto e no que diz respeito a recursos digitais, as decisões quanto à

preservação e acesso devem ser tomadas, de preferência, em simultâneo. São contudo

distintas pois a preservação do acesso aos recursos requer uma atenção mais activa na

gestão do seu ciclo de vida (vide 3.4).

Existem motivos para a separação de cópias para o acesso e para a preservação no que diz

respeito a aspectos tecnológicos, funcionais e legais, tendo em vista as fases de armaze-

namento e segurança, da escolha de suportes e da abordagem do problema da escalabili-

dade.

12 JONES, Maggie & BEAGRIE, Neil (2001) – Preservation management of digital materials : a hand-

book. London, The British library

2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS

16

2.1. CARACTERÍSTICAS DE UMA BIBLIOTECA DIGITAL

Ao analisarmos a citação que introduzimos no início do capítulo verificamos que os objecti-

vos de uma biblioteca digital estão muito bem definidos.

Podemos referir-nos a estruturas de bibliotecas digitais criadas à luz das bibliotecas con-

vencionais, de museus digitais, de arquivos digitais, também espelhados nos modelos tra-

dicionais e também a repositórios digitais, que podem armazenar qualquer tipo de recurso

digital e que cumpre da mesma maneira as funções de divulgação e acesso por um período

de tempo que se pretende longo.

Apresentamos algumas orientações que definem uma biblioteca digital quanto aos seus

objectivos13, propósitos e tempo de vida:

1. Os objectivos são a oferta de serviços integrados que permitem ter acesso a recursos

em colecções culturais ou científicas, por vezes indo ao encontro dos sistemas tradici-

onais na sua essência, outras vezes, em estruturas totalmente novas aproveitando as

potencialidades do ambiente tecnológico. A funcionalidade dos serviços integrados as-

senta nos seguintes pressupostos :

Necessidades de informação de grande qualidade

Informação relacionada em fontes diversas e dispersas

Informação heterogénea

Fontes de informação ricas e fiáveis

Informação multimédia

Comunidade de utilizadores definida

Utilizadores motivados

Orientação por domínios do conhecimento

Acessos em línguas variadas

Colaboração / Cooperação

13 DIGITAL LIBRARIES : Future directions for a European Research Programme (2001) - DELOS

Brainstorming Report. San Cassiano, 2001. ERCIM-02-W02

2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS

17

2. Quanto aos propósitos, é possível referir que as bibliotecas digitais são procuradas

sobretudo para investigação e aprendizagem.

3. O tempo de vida aponta para que as bibliotecas digitais possam fornecer acesso a in-

formação preservada por períodos de tempo mais ou menos longos, consoante as ne-

cessidades das comunidades de utilizadores.

2.2. A PRESERVAÇÃO DOS RECURSOS E A GESTÃO DAS BIBLIOTECAS DIGITAIS

No que diz respeito à preservação de longo prazo convém referirmos as boas práticas que

determinam o tempo de vida e a confiabilidade dos sistemas e dos recursos, sem os quais

qualquer biblioteca digital, seja ela repositório ou simples espaço de comunicação e de di-

vulgação da informação perdem as suas potencialidades de referência aos olhos das suas

comunidades de utilizadores e que são :

1) As estratégias de preservação

Falamos aqui de tomadas de decisão sobre o tipo de conversão de dados que a biblioteca

vai prosseguir e da sua posterior descrição e documentação. A história da mudança ao lon-

go do tempo deve estar totalmente documentada através de metadados.

Dado que as tecnologias evoluem e a obsolência vive em permanência no horizonte, de-

vem ser desenvolvidas técnicas que automaticamente ou em parte migrem os conteúdos e

os processos de uma biblioteca digital para os novos ambientes tecnológicos. Este passo

deve ser dado de forma transparente para as comunidades de utilizadores, obviando à

privação do acesso sempre que possível.

2) As técnicas de reparabilidade que dão suporte à autenticidade dos recursos

Sempre que se procede a qualquer estratégia de conversão de dados, existe perda de in-

formação. Para que seja possível reconstruir ficheiros e evitar perdas muito graves são uti-

lizados mecanismos de reparabilidade que podem ser conseguidos através de chaves de

autenticação, check-sums, digests (cf. Anexo 3 – Glossário), etc.

2.2.1. Alguns aspectos tecnológicos básicos das bibliotecas digitais

Seguindo ainda o relatório DELOS (2001)14 existem alguns componentes das bibliotecas

digitais, do âmbito da gestão de sistemas, que são considerados pontos chave para traba-

lho de investigação na próxima década e do nosso ponto de vista destacamos aqueles que

são indispensáveis à saudável preservação dos recursos ao longo do tempo:

14 DIGITAL LIBRARIES : Future directions for a European Research Programme (2001) – Op. cit.

2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS

18

1) Sistemas de arquitectura básicos

A arquitectura cliente-servidor baseada na dependência de computadores dedicados ao

serviço de outros computadores e de três camadas deixou de ser adequada e deve ser

substituída por arquitecturas de orientação a objectos ou de múltiplas camadas.

2) Sistemas abertos

Uma arquitectura aberta obriga a que todas as funcionalidades da biblioteca digital estejam

compartimentadas em sistemas muito bem definidos e prevê o desenvolvimento de linhas

de investigação nas áreas da flexibilidade dos módulos de plug-and-play15 ou seja a capa-

cidade que um sistema informático tem de automaticamente configurar mecanismos de

expansão a novos serviços e dispositivos. Deve ser possível acrescentar funcionalidades

sem recorrer a mais elementos de configuração ou à utilização de dip-switches ou jumpers.

3) Interoperabilidade e metadados

A interoperabilidade é um dos requisitos mais importante do sistema e apesar do trabalho

árduo existente nesta área deveria ser desenvolvido estudo suplementar sobre

mapeamento de formatos de dados e esquemas de metadados e também de ferramentas

de conversão de dados. Estas deveriam ser colocadas em acesso aberto a todas as

bibliotecas digitais um pouco à semelhança da conversão entre formatos MARC que as

bibliotecas desenvolveram para permitir o reconhecimento e a troca de dados entre

sistemas automatizados.

4) Escalabilidade

Dada a propensão para o crescimento desmesurado de qualquer biblioteca digital, a esca-

labilidade deve ser considerada tanto no que diz respeito aos conteúdos, como aos compo-

nentes do sistema, como à quantidade de utilizadores, o que requer arquitecturas descen-

tralizadas. Estas podem ser, entre outras, do tipo peer-to-peer16, tipo de rede em que cada

estação de trabalho tem capacidades e responsabilidades equivalentes, diferindo de uma

arquitectura de cliente-servidor na qual existem computadores que estão dedicados ao

serviço de outros computadores, ou GRID17 onde ao contrário das redes convencionais que

têm o seu ponto fulcral nas comunicações entre dispositivos, esta, aproveita os ciclos de

não processamento de todos os computadores na rede para resolver problemas de exces-

15 http://www.webopedia.com/TERM/p/plug_and_play.html 16 http://www.webopedia.com/TERM/p/peer_to_peer_architecture.html 17 http://www.webopedia.com/TERM/g/grid_computing.html

2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS

19

siva morosidade para máquinas stand-alone, isto é, para máquinas que não se intercomu-

nicam com outras máquinas18.

5) Segurança

Podemos considerar a segurança como um ponto crítico na manutenção de bibliotecas digi-

tais especialmente ao nível da integridade dos conteúdos, da confidencialidade e dos direi-

tos de propriedade intelectual.

Qualquer destes pontos irá ser desenvolvido ao longo deste trabalho.

2.2.2. A tecnologia do acesso

Existem alguns aspectos tecnológicos da maior importância no que diz respeito ao para-

digma de acesso integrado a bibliotecas digitais. Estes estão relacionados com a variedade

de sistemas de dados em operação conjunta que vão desde bases de dados relacionais a

documentos não estruturados ou baseados em multimedia.

Correntemente, a forma mais utilizada de descobrir recursos em bibliotecas digitais é atra-

vés dos catálogos bibliográficos das colecções acessíveis em linha, vulgarmente conhecidos

como OPACs (Online Public Access Catalog), das instituições detentoras de conteúdos ou de

bases de dados nacionais ou ainda através dos motores de busca mais comuns, isto se es-

tes possuírem boas ferramentas de indexação automática.

No caso, p. ex. da Biblioteca Nacional da Austrália, o utilizador tem acesso aos títulos dos

recursos electrónicos depositados, tanto através do OPAC como da base de dados de bibli-

ografia nacional. Também é possível aceder aos títulos dos recursos electrónicos deposita-

dos através da página do projecto PANDORA19 (Phillips, 2001)20.

Existe, portanto, uma aproximação de estratégias de acesso para os recursos tradicionais e

para os recursos electrónicos o que significa uma mais-valia para a comunidade de utiliza-

dores que acede de forma integrada à informação, independentemente do suporte em que

a mesma se encontra.

Em contexto pan-europeu, o projecto TEL – The European Library Project21 é um sistema

cooperativo de partilha de recursos constituído por 10 bibliotecas nacionais europeias que

têm como objectivo desenvolver um sistema de acesso às colecções de que são proprietá-

rias. A British Library lidera o projecto e os outros parceiros participantes são: a Biblioteca

18 http://www.webopedia.com/TERM/s/stand_alone.html 19 http://pandora.nla.gov.au/index.html/archive.html 20 PHILIPS, Margaret E. (2001) - Ensuring long-term access to online publications. Journal of Elec-

tronic Publishing, 4 (4) 21 http://www.europeanlibrary.org

2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS

20

Nacional de Portugal (BN), a Biblioteca Nacional de Itália (BNCF), a Conferência de biblio-

tecas nacionais europeias (CENL), a Biblioteca Alemã (DDB), a Biblioteca Nacional da Fin-

lândia (HUL), o Instituto Central do Catálogo Único, Itália (ICCU), a Biblioteca Nacional da

Holanda (KB), a Biblioteca Nacional da Eslovénia (NUK) e a Biblioteca Nacional Suíça

(SNL).

Este projecto pretende desenvolver um conjunto de boas práticas que agrupa em seis mó-

dulos:

a) Relações com as editoras

As negociações com as principais editoras devem ser estabelecidas em parceria

tendo em vista aspectos técnicos, financeiros, de licenciamento e de direitos de

autor. Também se pretende estabelecer alguma normalização no que diz respeito

ao depósito legal e às condições de depósito de longo prazo.

b) Planos de negócio

Este módulo pretende incluir estudos de mercado assim como cenários para even-

tuais modelos de custos.

c) Metadados

O projecto TEL tem em vista desenvolver protocolos e modelos de dados que in-

cluem a normalização de metadados descritivos, estruturais, técnicos, de preser-

vação, de direitos, ou ainda outros, de acordo com esquemas para recursos digi-

tais ou não, utilizados pelos parceiros envolvidos22.

d) Interoperabilidade

Os parceiros seleccionam um ou mais serviços bibliográficos que contenham in-

formação acerca das suas colecções, digitais ou impressas. Estas destinam-se a

ser testadas através de Z39.50 ou XML (cf. Anexo 3 – Glossário). O grupo de tra-

balho deverá procurar as melhores soluções de interoperabilidade.

22 No capítulo 3 deste trabalho iremos encontrar desenvolvidos aspectos relativos aos metadados de

preservação.

2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS

21

e) Disseminação e acesso ao projecto

O plano de disseminação e acesso encontra-se definido desde o início e pretende

operacionalizar o relacionamento entre as diferentes bibliotecas participantes as-

sim como organizar os eventos necessários à divulgação de resultados.

f) Gestão do projecto

A gestão do projecto pretende coordenar e supervisionar os prazos e a qualidade

dos deliverables, assim como os aspectos financeiros.

O papel a desenvolver pelas bibliotecas digitais no que diz respeito à preservação dos re-

cursos deve manter os mesmos padrões de exigência sempre defendidos para os recursos

em suporte tradicional, assim como promover o desenvolvimento de novas competências

do pessoal envolvido.

As bibliotecas devem desenvolver políticas, procedimentos e infraestruturas adequadas a

colecções de diversos tipos de recursos digitais e integrá-los em sistemas de descrição, ca-

talogação, acesso e preservação, ao mesmo tempo que devem considerar a possibilidade

de partilhar tecnologias e experiências, reduzindo esforços e custos.

2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS

22

3. QUADRO TEÓRICO DE REFERÊNCIA

23

3. QUADRO TEÓRICO DE REFERÊNCIA

3.1. A PRESERVAÇÃO DA MEMÓRIA DOS POVOS

A preocupação com o problema da preservação e conservação de colecções de documentos

é tão antiga como a sua existência.

Preservar a memória é preservar a identidade cultural; é ligar passado e presente e dessa

forma preparar o futuro. Ora, precisamente, é nas bibliotecas e nos arquivos que podemos

encontrar uma grande parte dessa memória.

Tradicionalmente, a História liga a biblioteca à preservação de textos. Na Idade Média as

bibliotecas monásticas desenvolviam um trabalho de cópia. Os bibliotecários coevos tinham

consciência da necessidade de transmitir à posteridade os verdadeiros tesouros que possu-

íam, assim como todo o conhecimento contido nesses artefactos. A técnica de cópia era a

única possível para assegurar a preservação e o acesso aos textos.

Com o advento da imprensa de caracteres móveis em meados do século XV, as bibliotecas

constituem-se em torno de colecções de livros impressos, depois publicações periódicas,

literatura cinzenta, etc. No início do Séc. XXI, as colecções das bibliotecas são ainda maio-

ritariamente texto e papel, algumas devidamente preservadas, outras condenadas a exis-

tência mais efémera.

Fazer face às diferentes missões de preservação das colecções contidas em bibliotecas

constituiu até há bem pouco tempo a principal preocupação do bibliotecário, pelo menos o

das bibliotecas patrimoniais.

Todos os anos, documentos preciosos, verdadeiros tesouros património da humanidade

desaparecem devido a causas naturais que vão desde a simples negligência humana a ca-

tástrofes naturais. A guerra e os actos de terrorismo são, da mesma maneira constantes

ameaças para a nossa herança colectiva.

3. QUADRO TEÓRICO DE REFERÊNCIA

24

Abdelaziz Abid em “Memory of the World – preserving our documentary heritage”23 des-

creve as linhas de orientação do programa “Memory of the World” da responsabilidade da

UNESCO iniciado em 1992 com o objectivo de salvaguardar documentação histórica e ao

mesmo tempo democratizar o seu acesso assim como divulgar produtos que possam ser

criados a partir desses documentos.

Em relatório que o mesmo responsável prefacia (Hoeven & Joava, 1996)24 afirma-se, sem

pretender fazer um monumento funerário, que mais de 100 bibliotecas e colecções foram

destruídas, por motivos alheios à vontade do homem, ao longo do Séc. XX. É um facto

verdadeiramente preocupante dado que o vazio ocupou o espaço da memória e as comu-

nidades empobreceram.

Esta situação é relativa às bibliotecas tradicionais. Quanto às emergentes bibliotecas digi-

tais, são também elas agora objecto de preocupação pela necessidade da sua preservação.

O propósito da preservação digital a longo prazo, pode ser estabelecido segundo Beagrie e

Greenstein em 199825 como uma questão que começa quando o impacto da mudança tec-

nológica necessita de ser encarado de forma sucessiva indefinidamente no tempo e acres-

centamos, seguindo o pensamento de Seamus Ross (2000)26 quando começa a haver uma

crescente dependência da informação digital.

Esta dependência, por si só contém alguns efeitos comportamentais de mudança tanto do

ponto de vista tecnológico como sociológico, tais como:

A forma de documentar e armazenar factos históricos e culturais está a

mudar, dado que, já não existe obrigatoriamente uma relação directa en-

tre a forma de armazenamento físico, a estrutura lógica da representação

no armazenamento e a sua interpretação.

A nossa cultura propriamente dita está a mudar. A Internet criou um am-

biente no qual novas comunidades e grupos sociais podem existir e evolu-

ir. Ao mesmo tempo emergem protocolos e formas de relacionamento que

regem as interacções sociais virtuais.

23 ABID, Abdelaziz (1998) – Memory of the World Preserving our documentary heritage. In : IFLA

General Conference, 64, Amsterdam. 24 HOEVEN, Hans van der & ALBADA, Joan van (1996) - Lost memory : libraries and archives de-

stroyed in the Twentieth Century. Paris, UNESCO, 70 p. 25 BEAGRIE, Neil & GREENSTEIN, Daniel (1998) – A strategic policy for creating and preserving digital

collections : a report do the Digital Archiving Working Group. British Library Research and Inno-vation Report N. 167.

26 ROSS. Seamus (2000) – Changing trains at Wigan : digital preservation and the future of scholar-ship. London, National Preservation Office.

3. QUADRO TEÓRICO DE REFERÊNCIA

25

Parece ser evidente que os alvos de interesse de preservação estão relacionados com as-

pectos probatórios, reutilização académica ou comercial ou ainda valor histórico de institui-

ções ou memória nacional, p. ex., os emails de personalidades públicas, etc.

Em Portugal, e segundo o relatório TEL (The European Library) (J. Stapel 2001)27, as preo-

cupações são de facto do mesmo teor porque verificamos que estão seleccionados à parti-

da para preservação, documentos oficiais, teses e dissertações, publicações periódicas

electrónicas no domínio .pt e documentos em outros domínios que tenham manifesto inte-

resse cultural e histórico para o nosso país.

Tradicionalmente, para reconstruir o passado, os historiadores recorrem a uma grande di-

versidade de fontes. Devemos reconhecer que para sabermos quem somos e qual vai ser o

impacto do nosso passado no nosso futuro, precisamos de conhecer as nossas origens.

Desse modo, os historiadores do futuro irão procurar transcrições de sessões de chat,

newsgroups, correio electrónico, câmaras web e sítios que ao mesmo tempo integram do-

cumentação diversa, p. ex. de empresas ou organismos oficiais, de bancos ou de institui-

ções de saúde.

Quando nos anos 30 do Séc. XX, arqueólogos encontraram o arquivo de Persepolis, sobre-

vivente do incêndio do palácio depois da queda de Alexandre, verificaram que o material

de suporte à informação, as placas de argila, tinham conseguido a sobrevivência ao fogo.

Contudo, o conteúdo de muitas dessas placas ainda não foi transcrito e mesmo a sua

transcrição, quando possível, não é 100% fiável. Da mesma forma, migramos a informa-

ção digital de um suporte para outro ou de um formato que se tornou obsoleto para outro

e permanece a dúvida quanto ao nível de confiabilidade.

Há, pois, uma certa semelhança ao que acontece com o suporte e o conteúdo das placas

de argila. O seu conteúdo e estrutura devem ser estudados e interpretados da mesma ma-

neira, ao nível da durabilidade, inteligibilidade, metadados, recuperação de dados e obso-

lência tecnológica. Os equipamentos de depósito digital, por seu lado, podem fornecer pe-

quenas pistas sobre os formatos dos dados que contêm mas, por enquanto, só ocasional-

mente possuem alguma indicação de hardware necessário para aceder a esses dados28.

27 STAPPEL, Johan, DE NIET, Marco, JOCHUM-STARK, Dorothea (2001) – TEL Metadata : state of the

art review (3rd draft and final version). 28 ROSS. Seamus (2000) – Changing trains at Wigan : digital preservation and the future of scholar-

ship. London, National Preservation Office.

3. QUADRO TEÓRICO DE REFERÊNCIA

26

3.2. O PAPEL DAS INSTITUIÇÕES PATRIMONIAIS

Segundo a UNESCO (Lor & Sonnekus,1997)29 uma biblioteca nacional, como instituição

cultural, deve espelhar a sociedade onde está inserida e dessa forma consoante as diver-

sas nações, aparecem bibliotecas nacionais também elas com algumas variantes.

Muitas bibliotecas nacionais, bibliotecas académicas, arquivos nacionais e outras organiza-

ções detentoras de enormes quantidades de documentos têm vindo a desenvolver traba-

lhos de microfilmagem e digitalização em larga escala com vista a preservação e divulga-

ção de documentação de interesse nacional. Os investigadores das gerações futuras terão

à sua disposição valiosos fundos de conteúdo histórico, os quais darão lastro para um nú-

mero infinito de investigações, e produção de conhecimento.

Tomando como exemplo a política de desenvolvimento de colecções da Biblioteca do Con-

gresso30 dos EUA que nos diz ter, como objectivo, servir o governo, a escola e o público

em geral verificamos que no que diz respeito à preservação de colecções que o propósito

é, não só conservar, mas também proporcionar a consulta do público a documentos de na-

tureza precária e de interesse nacional ou seja garantir o acesso31. Nessa perspectiva a

microfilmagem convive, em paralelo com a digitalização.

A digitalização dos documentos existentes, está em curso tendo em conta a necessidade

urgente de divulgação das obras. Em paralelo com a preocupação da preservação de colec-

ções encontramos a da eliminação.

G. E. Gorman & B. R. Howes em 198932 dizem-nos que preservação e eliminação estão es-

treitamente ligadas mas que a preservação é antes de tudo um problema nacional e não

local, raciocínio que podemos trazer para o campo das colecções nascidas digitais pois toda

a atenção sobre a sua preservação a longo prazo está a ser considerada por bibliotecas e

arquivos nacionais de todo o mundo.

Passando para outra realidade, em 2002 M. L. Cabral33, no âmbito de Congresso da IFLA

faz um breve resumo dos resultados de uma pesquisa baseada em questionários apresen-

tados a bibliotecas nacionais na Europa do Sul sobre as condições de preservação de do-

cumentos em qualquer suporte e os resultados não são animadores:

Os problemas existentes são sobretudo a nível organizacional e não técnico:

29 LOR, Peter Johan, SONNEKUS, Elisabeth A. S. (1997) - Guidelines for legislation for national library

services. UNESCO. 30 http://lcweb.loc.gov/acq/devpol/cps.html 31 http://lcweb.loc.gov/preserv/prd/presdig/presintro.html 32 GORMAN, G. E. & Howes, B. R. (1989) – Collection development for libraries. London, Bowker-

Sauer

3. QUADRO TEÓRICO DE REFERÊNCIA

27

Existe uma deficiente definição de objectivos, logo, ausência de estratégi-

as.

A prevenção surge em segundo plano quando deveria aparecer em primei-

ro, lugar que é ocupado pela acções de tratamento propriamente dito.

A partilha de recursos é inexistente o que enfraquece ainda mais as já de-

bilitadas políticas de preservação quando estas existem.

Uma realidade felizmente diferente é a política de preservação digital da Biblioteca Nacio-

nal da Austrália34, que identifica as entidades que devem preservar a herança cultural na-

cional e torná-la acessível e que são:

Biblioteca nacional

Bibliotecas universitárias

Algumas bibliotecas públicas

Arquivos de organizações estatais

Museus

Criadores e editores

Utilizadores de informação

O Governo e a comunidade em geral

E refere ainda os objectivos do trabalho conjunto a desenvolver relacionados com:

Identificação dos parceiros com competências apropriadas para contribuir

para o esforço nacional

Estabelecimento de protocolos sobre as responsabilidades e os papéis a

desempenhar

Explicitação dos acordos de cooperação financeira que garantam uma base

confiável de acessos ao longo do tempo

33 CABRAL, Maria Luísa (2002) – Preservation and conservation in South Europe : a survey among

national libraries. In : IFLA council and General Conference, 68th, Glasgow, 2002 34 NLA (2002) – A digital preservation policy for the National library of Australia

3. QUADRO TEÓRICO DE REFERÊNCIA

28

Cooperação na identificação, desenvolvimento e promoção de políticas,

procedimentos e ferramentas que sustentam tais princípios

Trabalho com os criadores, editores e utilizadores dos conteúdos digitais

no sentido de promover a utilização de boas práticas com vista a preser-

vação

Trabalho com os legisladores e órgãos de poder no sentido de desenvolver

enquadramentos legais que garantam uma boa relação custo-benefício aos

sistemas de preservação

3.2.1. Os recursos digitais e o depósito legal

No nosso país, o depósito de recursos digitais ainda não é sujeito a obrigatoriedade legal.

Encontra-se, por esse facto, limitada a missão da Biblioteca Nacional de Portugal na pre-

servação da memória colectiva nacional.

Parece-nos pertinente aproveitar os princípios de depósito legal dos documentos tradicio-

nais, no nosso país e aplicá-los aos recursos digitais, com o óbvio alargamento às especifi-

cidades próprias do meio digital, nomeadamente para efeitos de acesso e preservação.

Para que seja possível preservar os recursos digitais depositados, estes devem ser acom-

panhados de metadados no sentido de garantir a sua reprodução posteriormente.

Citamos os objectivos do depósito legal que encontramos em página da Internet da res-

ponsabilidade da Biblioteca Nacional de Portugal35:

1) Constituição e conservação de uma colecção nacional (todas as publicações

editadas no país);

2) Produção e divulgação da bibliografia nacional corrente;

3) Estabelecimento de estatísticas nacionais;

4) Enriquecimento de bibliotecas dos principais centros culturais do país;

5) Assegurar a constituição de importantes e riquíssimos fundos bibliográficos

para as gerações futuras.

São objecto de depósito legal as seguintes publicações :

35 BIBLIOTECA NACIONAL – Serviço de Depósito Legal - Serviços: Serviços para Editores: Depósito

Legal, A Constituição de uma Colecção Nacional. http://www.bn.pt/servicos-ao-publico/sp-deposito-legal.html

3. QUADRO TEÓRICO DE REFERÊNCIA

29

Livros, brochuras, revistas, jornais e outras publicações periódicas, separa-

tas, atlas e cartas geográficas, mapas, quadros didácticos, gráficos

estatísticos, plantas, planos, obras musicais impressas, programas de

espectáculos, catálogos de exposições, bilhetes - postais ilustrados, selos,

estampas, cartazes, gravuras, fonogramas e videogramas, obras

cinematográficas, microformas e outras reproduções fotográficas;

Obras impressas no estrangeiro que tenham indicação do editor domicilia-

do em Portugal e que são equiparadas às obras portuguesas, para cum-

primento de Depósito Legal;

Teses de mestrado e doutoramento, trabalhos de síntese, estudos e disser-

tações e outros trabalhos relativos às carreiras docentes do ensino univer-

sitário e do ensino superior politécnico estão abrangidas pela obrigatorie-

dade de Depósito Legal;

As reimpressões e as novas edições são consideradas como obras diferen-

tes, sujeitas à obrigação de depósito, desde que não se trate de simples

aumentos de tiragens. Obras publicadas há menos de um ano, apenas se

exige um exemplar ou cópia.

Actualmente, este serviço é regulado pelos Decreto-Lei nº 74/82 de 3 de Março e o Decre-

to-Lei nº 362/86 de 28 de Outubro36

Não podemos deixar de referir o trabalho conjunto entre a CDNL (Conference of Directors

of National Libraries) e a UNESCO com o objectivo de desenvolver orientações para as bi-

bliotecas nacionais, com vista à preparação de legislação de depósito legal específica para

recursos digitais37. Este documento complementa as linhas orientadoras preparadas em

1981 por Jean Lunn38. No que diz respeito à preservação dos recursos digitais, considera-

se que, dada a longevidade curta e obsolência dos suportes e dos meios, é importante que

através do depósito legal os repositórios tenham cobertura legal para copiar, refrescar ou

migrar as publicações depositadas com o objectivo de as preservar para o futuro. Estas

garantias devem constar da legislação de cada país.

36 Portugal, leis, decretos - Decreto-Lei nº 74/82 de 3 de Março ; Decreto-Lei nº 362/86 de 28 de

Outubro 37 CDNL (Conference of Directors of National Libraries) (1996) – The legal deposit of electronic publi-

cations. Unesco. 38 LUNN, Jean (Prep.) (1981) – Guidelines for legal deposit legislation. Paris, General Information

Programme and UNISIST – Unesco. (PGI-81/WS/23)

3. QUADRO TEÓRICO DE REFERÊNCIA

30

Cada biblioteca detentora de depósito legal, no seu ambiente legal, deve trabalhar no sen-

tido de facilitar o acesso dos recursos digitais no mais breve espaço de tempo.

No caso da lei portuguesa, como referido acima, ainda não existe qualquer referência ex-

plícita a documentos electrónicos, mas um novo diploma legal encontra-se já em discus-

são39. Este, a ser aprovado, estende-se às imagens em movimento para preservação e

acesso e ainda às publicações electrónicas com suporte físico. Os recursos digitais sem su-

porte físico serão objecto de depósito legal selectivo em termos a estabelecer entre a Bibli-

oteca Nacional e os respectivos produtores.

No que diz respeito aos recursos electrónicos sem suporte físico deve ser tido em conside-

ração que estes podem estar distribuídos por vários servidores em vários países. Por outro

lado, os meios utilizados para a sua criação podem ser vários e também distribuídos.

A orientação do CDNL vai no sentido da abrangência das publicações electrónicas com ou

sem suporte físico para que a integridade do acesso à informação fique garantida, inde-

pendentemente do suporte.

Apesar da herança digital dos portugueses nossos contemporâneos estar, por enquanto,

sem regulamentação própria, existe vontade e determinação de alterar a situação como o

prova o recente manifesto40 elaborado por ocasião do Encontro sobre Preservação Digital

que decorreu em Lisboa, organizado pela Biblioteca Nacional e pela EPCA (European Co-

mission on Preservation and Access).

3.2.2. Modo de aquisição dos recursos

Uma vez decidido o âmbito geral, missão e objectivos do repositório que vai acolher recur-

sos digitais para preservação impõe-se uma decisão sobre o método de aquisição.

Este pode idealmente ser um complemento de depósito legal e de depósito voluntário dos

produtores, constituindo-se assim a forma passiva de adquirir recursos.

Outra opção possível é a considerada pró-activa e neste caso é o repositório que vai ao en-

contro dos recursos através da Internet. Especificando melhor :

Forma passiva

Os recursos digitais podem ser adquiridos ou por meio de acordos com os produto-

res/editores ou através de medidas legais estabelecidas, tais como o depósito legal referido

anteriormente.

39 http://www.apbad.pt/pdeposito_legal.htm 40 BORBINHA, José Luís et al. (2002) – Manifesto para a preservação digital. Cadernos BAD, 2

3. QUADRO TEÓRICO DE REFERÊNCIA

31

A opção de acordo parece-nos ser bastante equilibrada pois o “ruído” na construção das

colecções é reduzido ao serem seguidas linhas orientadoras para a primeira fase do ciclo

de vida dos recursos (ver ponto 3.4), fase da criação. Logo nesta fase devem ser integra-

dos metadados que são indispensáveis para ulterior gestão da preservação.

No caso do depósito legal, os produtores nem sempre são conhecedores da necessidade da

sua colaboração no momento da inclusão de metadados e por esse motivo, torna-se ne-

cessário proceder a conferência da existência dos mesmos. No caso da sua ausência, o re-

positório é obrigado a incorporá-los.

Forma pró-activa

O método de ir ao encontro dos recursos pode ser executado através de dois processos, ou

com a ajuda do elemento humano ou automaticamente.

No primeiro caso, a captura de recursos torna-se pouco produtiva apesar de mais consis-

tente. Os recursos humanos disponibilizados para este tipo de trabalho especializado não

conseguem obviamente acompanhar o ritmo de aparecimento de novos recursos.

Ao diminuir a quantidade de recursos respigados diminui a abrangência das colecções do

repositório. Também o objectivo deste tipo de captura pode ser questionado por se desco-

nhecerem as necessidades das gerações futuras.

A captura automatizada, levada a cabo por robots, Web-crawlers (software de busca de

páginas Web através da Internet, normalmente ao serviço dos motores de busca) é o mé-

todo que mais se adequa à aquisição através da Internet. As colecções são construídas de

forma distribuída, o que lhes acrescenta representatividade bem como as características de

abrangência temática de que carece a opção manual. Este método, dada a enorme quanti-

dade de dados com que lida leva a que seja necessário proceder a cada “viagem” de

captura com intervalos de tempo. Cada período de captura, só por si, pode durar alguns

meses.

O repositório, dependendo das suas características, terá necessidade de articular ambos os

métodos de aquisição e torná-los complementares (Lupovici & Masanès, 2001)41.

A opção manual ajuda a seguir a evolução dos sítios e favorece o contacto com os produto-

res/editores. Desta forma é possível aceder a áreas restritas e a páginas dinâmicas.

A opção automática permite o acesso a uma grande quantidade de recursos distribuídos e

torna-se por esse motivo representativa da informação de um determinado espaço.

41 LUPOVICI, Catherine & MASANÈS, Julien (eds.)(2001) - What's next for Digital Deposit Libraries?

Preserving online content for future generation. In : 5th European Conference on Research and Advanced Technology for Digital Libraries. ECDL Workshop. Darmstadt, 2001

3. QUADRO TEÓRICO DE REFERÊNCIA

32

3.3. CARACTERIZAÇÃO DO AMBIENTE TECNOLÓGICO

A infraestrutura/repositório deve ser planeada de forma a que os tipos de recursos selecci-

onados possam ser aí depositados cada qual com tratamento específico, tendo em conta o

seu ciclo de vida integral.

3.3.1. Características dos recursos

Os recursos podem ser constituídos por texto proveniente de processadores de texto, ima-

gens digitalizadas, ficheiros digitais multimedia altamente complexos, estruturas de bases

de dados, recursos da Internet tais como listas de distribuição ou newsgroups, etc, etc.

Também a Internet apresenta uma enorme variedade de formatos. Além de páginas HTML

podem ser encontrados todos os tipos de formatos multimedia, ao mesmo tempo que no-

vos tipos de dados aparecem e desaparecem em sucessão rápida.

No seguimento da decisão sobre os formatos a armazenar, deve determinar-se a forma de

armazenamento, preservação e acesso (Aschenbrenner, 2001)42.

Quanto aos recursos digitais estáveis não existe grande preocupação no que diz respeito

ao seu armazenamento a longo prazo. Segundo Aschenbrenner op. cit.43 podemos arma-

zená-los sem ter conhecimento do seu tipo. Somente numa fase ulterior, quando um utili-

zador manifesta a necessidade de aceder ao recurso são accionados os mecanismos de in-

terpretação dos dados. Deste modo são gerados tipos de documentos dinâmicos e interac-

tivos que uma vez finalizada a sessão de trabalho são eliminados.

A questão da selecção dos recursos da Internet para preservação a longo prazo deve ser

equacionada sob o ponto de vista da abrangência temática. Consoante a missão do reposi-

tório assim a construção as políticas de selecção anteriormente referidas.

A captura dos recursos pode ser efectuada como já foi referido no ponto anterior, através

de indexação automática ou com intervenção humana.

A indexação automática é considerada a mais complexa. A pesquisa automática depende

de aplicações que contornem os constrangimentos da Internet.

Os Web-crawlers, que perscrutam a Internet por varrimento e que são essenciais para o

desenvolvimento dos repositórios digitais ainda não atingiram um estado de maturidade

que lhes permita ultrapassar uma parte dessas dificuldades com êxito.

42 ASCHENBRENNER, Andreas (2001) – Long-term preservation of digital material : building na ar-

chive do preserve digital cultural heritage from the Internet. Wien, Institut für Softwaretechnik und Interaktive System. 110 p. (Diplomarbeit)

43 ASCHENBRENNER, Andreas (2001) - Op. cit.

3. QUADRO TEÓRICO DE REFERÊNCIA

33

Diz-nos Brewster Kahle em entrevista dada à RLG-Diginews em 200244, quando questiona-

do acerca de falhas no motor de busca “Wayback Machine”, que algumas dessas falhas

constam dos próprios recursos e as outras são provenientes do trabalho dos robots.

Por outro lado e segundo a interessante experiência dos países nórdicos é a única forma

de não existirem perdas e assim preservar a memória colectiva integralmente.

Esta estratégia expressa no projecto Kulturarw345 é conseguida no exemplo da Suécia

através de retratos da Internet duas vezes por ano, em todo espaço da Suécia nos domíni-

os .se, .com, .org, .net, .nu com endereços ou telefones da Suécia.

Este procedimento deve ser efectuado da forma mais rápida possível para obviar a altera-

ções dos ficheiros que fazendo parte do mesmo documento sejam recuperados em tempos

diferentes, o que por vezes, origina uma quebra na autenticidade dos recursos se entretan-

to tiver havido lugar a alterações. Dessa forma é armazenado um novo documento, não o

original.

Não existe, no contexto deste projecto, qualquer orientação que tipifique a selecção dos

tipos de recursos, i.e. são recuperadas todas as imagens, som, etc.

3.3.2. Características dos suportes de armazenamento dos recursos

Uma vez os recursos seleccionados consideramos o seu armazenamento. O espaço neces-

sário para depósito deve ser equacionado em função dos objectivos do repositório aten-

dendo a que provavelmente vai ser armazenada uma grande quantidade de recursos.

Deve ser estudado o compromisso entre a capacidade, o tempo de acesso e os custos.

Selecção dos suportes de armazenamento

A banda magnética continua a ser o suporte de armazenamento mais utilizado para grande

quantidade de dados.

Existem dois tipos de suportes magnéticos : de alto e de baixo magnetismo. Para se con-

seguir alto magnetismo o suporte deve ser exposto a um forte campo electromagnético.

Como resultado conseguem-se altos níveis de magnetismo remanescente. São os suportes

de alto magnetismo com grande saturação remanescente e alta coercividade que são

adaptáveis ao armazenamento de dados digitais46.

44 KAHLE, Brewster (2002) – The Internet Archive. RLG Diginews, 6 (2) , p. 1-7. 45ARVIDSON, Allan, PERSSON, Krister & MANNERHEIM, Johan (2000) - The Kulturarw3 Project : the

Royal Swedish Web Archiw3e: an example of "complete" colection of web pages. IFLA Council and General Conference, 66th, Jerusalem, 2000

46 ROSS, Seamus & GOW, Ann (1999) - Digital archaeology : rescuing neglected and damaged data resources. London., Library Information Technology Center. (JISK/NPO Study)

3. QUADRO TEÓRICO DE REFERÊNCIA

34

No que diz respeito ao acesso às bandas magnéticas como resposta a interrogações de uti-

lizadores existe a possibilidade da sua manipulação em sistemas robotizados, vulgarmente

chamados “juke-boxes”, porém, trata-se de processo muito complexo e dispendioso.

Apesar destes constrangimentos ainda são as bandas magnéticas que oferecem soluções

de mais baixo custo se manipuladas com a ajuda do elemento humano. Neste caso, existe

um tempo de espera compatível com a actividade de recuperação da banda por parte do

serviço.

Outro tipo de suporte magnético a considerar é baseado em discos rígidos que devem ser

dimensionados para grandes quantidades de dados e de que se colocam vários num só

computador.

Segundo Ashenbrenner op. cit.47, é possível conseguir bons resultados através da combi-

nação da utilização dos sistemas de bandas magnéticas e discos rígidos ao manter deposi-

tados nas bandas os recursos menos procurados, e de forma mais acessível, nos discos

rígidos, uma pequena quantidade de recursos com maior probabilidade de serem objecto

de pesquisa. Neste caso há que considerar atentamente o âmbito e missão dos repositóri-

os.

Paralelamente a estas opções existe a tecnologia dos CD-ROMs que permite o rápido aces-

so aos recursos. Considera-se simultaneamente a utilização na retaguarda de bandas

magnéticas como sistema de back-ups.

Duração dos suportes de armazenamento

Qualquer que seja a opção de suporte de armazenamento subsistem problemas relaciona-

dos com :

- Deterioração do suporte

- Obsolência técnica do suporte

- Deterioração das drives

a) Suportes magnéticos

Os sistemas magnéticos não são estáveis48, são susceptíveis de deterioração por oxidação

e corrosão. Estas podem conduzir a perda de coercividade das partículas e desse modo

ocasionar perda de dados.

47 ASCHENBRENNER, Andreas (2001) - op. cit. 48 ROSS, Seamus & GOW, Ann (1999) - op. cit.

3. QUADRO TEÓRICO DE REFERÊNCIA

35

Alguns problemas advêm também das condições de humidade e temperatura que podem

causar incapacidade de localização das pistas, logo, os dados estarão provavelmente per-

didos.

Consideramos ainda a forma de armazenamento das bandas. Se a banda estiver mal enro-

lada, e for deixado espaço de circulação do ar a humidade instala-se. Se a banda for esti-

cada de mais pode quebrar-se. Se a banda não for enrolada de forma uniforme subsiste

um tipo de tensão que causa deterioração da emulsão.

Provavelmente muitos destes problemas não chegam a existir se as bandas forem manu-

seadas respeitando as normas de segurança.

De igual modo deve existir uma boa manutenção e substituição regular das “drives” pois se

as cabeças estiverem sujas ou já tiverem sido muito usadas existe o risco de incapacidade

de leitura ou mesmo danificação das bandas.

Em 1995, John W.C. Van Bogart49 em relatório do National Media Laboratory estima, como

longevidade média das bandas magnéticas, um período de tempo que varia entre 10 e 20

anos; contudo as opiniões nesta matéria variam entre as marcas.

Rothenberg em 199550 e também em 199851 advoga a cópia das bandas magnéticas uma

vez por ano. Considera este autor que é a única forma de evitar perdas de informação

quando a preservação se realiza neste suporte magnético.

Baseados em Rothenberg (1995) op. cit.52 apresentamos uma estimativa de tempos de

vida, sem perda de qualidade, para os vários suportes magnéticos :

- Banda magnética – 1 ano

- “Videotape” – 1 a 2 anos

- Disco magnético – 5 a 10 anos

Mais tarde, em 1999, numa revisão do mesmo trabalho53, Rothenberg refere que existe

uma grande controvérsia em redor da longevidade dos suportes de armazenamento digital

e que há mesmo quem diga que a banda magnética pode ter uma duração de 200 anos

contrapondo com outros que consideram essa duração de 1 ano ou 2. Contudo, a longevi-

49 BOGART, John W.C. Van (1995) - Magnetic tape storage and handling : a guide for libraries and

archives. Washington, The Commission on Preservation and Access & National Media Laboratory. 50 ROTHENBERG, Jeff (1995) – Ensuring the longevity of digital documents. Scientific American. Jan.

1995 51 ROTHENBERG, Jeff (1999) - Avoiding technological quicksand: finding a viable technical foundation

for digital preservation. CLIR. 52 ROTHENBERG, Jeff (1995) – Op. cit. 53 ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. (Expanded version)

3. QUADRO TEÓRICO DE REFERÊNCIA

36

dade física dos suportes tem pouca ou nenhuma importância uma vez que a sua obsolência

se irá verificar em menos de 5 anos.

Por outro lado Bogart também em 1995 op. cit. estima o tempo de vida da banda magnéti-

ca de entre 10 e 20 anos. No entanto, não refere se a qualidade se mantém inalterada, o

que nos parece pouco provável dadas as características físicas do suporte.

b) Sistemas ópticos e magneto-ópticos

Tal como nos sistemas magnéticos podemos encontrar muitos motivos de preocupação re-

lacionados com influências do ambiente, de manuseamento e também factores mecânicos.

Contudo os suportes ópticos têm uma utilização cada vez maior para armazenamento de

informação.

Os CD-ROMs são compostos por emulsão, uma camada de dados, uma camada reflectora e

uma cobertura de protecção54.

Os materiais usados na produção dos suportes ópticos variam consoante as marcas e da

mesma forma fazem variar os tempos de duração. Por exemplo um CD-ROM que é usado

uma única vez pode vir a ter uma duração de entre 50 e 100 anos, contudo aconselha-se o

seu refrescamento após 10 anos55.

Os sistemas magneto-ópticos são bastante menos resistentes e ao mesmo tempo mais

dispendiosos. São também mais sensíveis a alterações ambientais de temperatura e humi-

dade, que podem mesmo fracturar a camada magnética.

Como estratégia para reduzir os riscos de perda de informação perante a duvidosa longe-

vidade dos suportes, dever-se-á proceder a um refrescamento dos dados no próprio supor-

te a intervalos de tempo regulares. Da mesma maneira deve-se proceder a migrações de

suporte antes que este esteja fisicamente corrompido.

Consideramos sempre a necessidade da existência de várias cópias para que uma substi-

tua outra em caso de deterioração.

As cópias devem ser armazenadas em localizações geográficas distintas. Convirá ter pre-

sente que podem ocorrer catástrofes naturais, sabotagens ou actos de terrorismo como p.

ex. aquele que aconteceu em Nova York em 11 de Setembro de 2001.

As formas de enfrentar e controlar o risco serão tratadas mais à frente em capítulo próprio.

54 ROSS, Seamus & GOW, Ann (1999) op. cit 55 WEBER, Hartmut (1993) - Opto-electronic storage : an alternative to filming ? CLIR - Commission

on Preservation and Access.

3. QUADRO TEÓRICO DE REFERÊNCIA

37

3.3.3. Obsolência dos dispositivos de leitura

Os tempos de vida dos suportes não são, de facto, o factor mais importante para a preser-

vação dos recursos digitais.

Os dispositivos de leitura à disposição no mercado são substituídos a intervalos de tempo

muito curtos, por outros sempre com performances melhoradas e vendidos a preços inferi-

ores.

Mais uma vez referimos a necessidade de migrar os dados sempre que o acompanhamento

das novidades aconteça para que se não corra o risco de ser ultrapassado pela obsolência

dos dispositivos.

3.4. CICLO DE VIDA DOS RECURSOS DIGITAIS

3.4.1. Criação dos recursos

A criação é o acto de produzir informação, não sendo imperativo que o criador seja huma-

no, podendo ser um equipamento electrónico preparado para o efeito (Hodge, 2000)56.

É nesta primeira fase que as fundações da preservação devem ser lançadas. O criador

deve estar envolvido neste processo.

No caso da produção originada por máquina são incluídos à partida alguns metadados que

acrescentam informação de referência aos registos. Esta informação pode ser relativa à

localização e a tipos de instrumentos e indicadores de ordem geral que documentem e

identifiquem o recurso. Do mesmo modo, deve ser acrescentada informação relativa ao

hardware e software envolvidos.

No caso de criação humana e sempre que possível, o criador deve enriquecer o seu traba-

lho com os metadados identificadores dessa criação. Algumas aplicações informáticas pos-

suem estruturas de preenchimento de metadados que permitem documentar a criação do

recurso.

Como a tendência é a da incorporação das linguagens XML (Extensible Markup Language)

e RDF (Resource Description Framework), a utilização de metadados torna-se fácil. Estas

ferramentas facilitam a preservação dos recursos e valorizam a qualidade da indexação

automática.

A título de exemplo referimos o modelo de metadados de utilização de um leque alargado

de comunidades que é o Dublin Core e sobre o qual nos debruçaremos no capítulo referen-

56 HODGE,G.M. (2000) - Best practices for digital archiving : an information life cycle approach. D-Lib

Magazine. 6 (1)

3. QUADRO TEÓRICO DE REFERÊNCIA

38

te a metadados. Fácil de utilizar, flexível e expansível com a ajuda de qualificadores dos

elementos base, tem as potencialidades necessárias à interoperabilidade, já que a tendên-

cia actual é para uma grande multiplicidade de normas e especificações (Cordeiro, 2001)57.

3.4.2. Selecção dos recursos

A selecção dos recursos a preservar a longo prazo constitui uma medida de gestão das ins-

tituições tutelares do repositório digital e baseia-se na sua missão e objectivos.

A política de selecção deve ser documentada depois de ter sido objecto de discussão e re-

flexão profundas. No seguimento do trabalho conjunto devem surgir princípios que nortei-

am a selecção. Refiram-se as linhas orientadoras da Biblioteca Nacional da Austrália58 e

também as da Biblioteca Nacional do Canadá59, disponíveis na Internet nos respectivos sí-

tios.

A política de selecção a instituir deverá ter em conta o valor cultural, histórico ou de carác-

ter científico dos recursos a depositar, assim como as necessidades da comunidade de uti-

lizadores.

Alguns exemplos de selecção

A Biblioteca Nacional da Austrália através do seu projecto PANDORA selecciona para pre-

servação de longo prazo monografias, publicações periódicas, home pages, documentos

efémeros, conteúdos australianos em contexto social, político, cultural, religioso, científico

ou económico relevantes para a Austrália e da autoria de australianos, assim como recur-

sos digitais provenientes de órgãos oficiais e assuntos pontuais seleccionados pelo respon-

sável pela gestão de colecções.

A Biblioteca Nacional da Austrália deposita apenas uma versão de cada trabalho se este

possuir múltiplas versões em suportes diferentes.

A Biblioteca Nacional do Canadá integra a selecção de recursos digitais na política de ges-

tão de colecções. Nas suas linhas orientadoras60 verificamos que a selecção de recursos

electrónicos se baseia na proveniência dos recursos, que deve ser canadiana. Também, tal

como a Biblioteca Nacional da Austrália, são preservados os recursos de domínios não ca-

nadianos, mas que tenham interesse cultural, histórico ou científico para a nação canadia-

na.

57 CORDEIRO, Maria Inês (2001) – Tecnologias, bibliotecas e arquitectura de informação : dos siste-

mas aos objectos. In : Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas, Por-to, 2001

58 http://www.nla.gov.au/scoap/guidelines.html 59 http://www.nlc-bnc.ca/pubs/irm/eneppg.htm 60 http://www.nlc-bnc.ca/9/8/index-e.html#7a

3. QUADRO TEÓRICO DE REFERÊNCIA

39

A Biblioteca Nacional da Suécia, através do projecto Kulturarw3 tem uma abordagem to-

talmente diferente no que concerne à selecção de recursos digitais já que considera que

ao seleccionar um e não outro recurso pode estar a cometer um erro e assim obstar à con-

solidação consistente do conhecimento futuro. Desta forma captura todos os sítios do do-

mínio .se e ainda os criados na Suécia mas de domínio .com. Adicionalmente colecta em

toda a Internet todos os sítios que se refiram explicitamente a assuntos suecos.

A Biblioteca Nacional da Finlândia, através do projecto EVA (Elinkeinoelämän Valtuuskunta

- the acquisition and archiving of electronic network publications) segue a mesma orienta-

ção da Suécia mas limita as suas operações de captura a intervalos de tempo regulares.

No caso português, em sede da Biblioteca Nacional, estuda-se a selecção sobre publicações

periódicas electrónicas nacionais, documentos oficiais em formato digital, teses, disserta-

ções e literatura cinzenta produzida na comunidade científica nacional.

Lopes, Cardoso & Moreira (2002)61 defendem para Portugal a opção do depósito voluntário

em detrimento de uma imposição legal. Segundo estes autores o acordo entre p. ex. edito-

res e Biblioteca Nacional viria permitir a implementação de um sistema de recolha selectiva

e ao mesmo tempo criar condições para a definição da estrutura das páginas permitindo a

sua actualização periódica.

Referimo-nos ainda à extensão da selecção do ponto de vista hipertextual. De que forma

devem os links ser seleccionados para preservação? A maior parte das organizações depo-

sita os URLs (Uniform Resource Locator - endereços dos recursos na World Wide Web) e

não os conteúdos.

A Biblioteca Nacional da Austrália deposita os endereços e os conteúdos dos se estes esti-

verem contemplados nas linhas orientadoras referidas atrás e a Biblioteca Nacional do Ca-

nadá os que residirem no mesmo servidor que os recursos seleccionados.

Somente dois projectos depositam integralmente endereços e conteúdos: a Brewster Kale’s

Internet Archive, porque o seu objectivo é arquivar uma imagem de toda a Internet e a

American Astronomical Society que deposita todos os links de todos os recursos do domí-

nio da astronomia e fá-lo em colaboração com outras sociedades astronómicas, cientistas,

universidades e agências governamentais (Hodge, 1999)62.

A propriedade intelectual deve ser considerada uma preocupação adicional no processo de

selecção de recursos a preservar a longo prazo, nomeadamente quanto à obrigatoriedade

61 LOPES, Pedro Faria, CARDOSO, Gustavo & MOREIRA, Maria Vasconcelos (2002) - Preservação de

publicações electrónicas na Internet: os arquivos imperfeitos. Cadernos BAD, N. 2. 62 HODGE,G.M. & CARROLL, Bonnie C. (1999) - Digital electronic archiving : the state of the art and

the state of the practice. International Council for Scientific and Technical Information

3. QUADRO TEÓRICO DE REFERÊNCIA

40

de recolha prévia de autorização dos autores, quer quanto à captura de recursos quer pos-

teriormente quanto ao seu acesso. Citem-se, a propósito, os casos da Suécia e da Finlân-

dia que excluem o contacto com os autores. Pelo contrário, a Biblioteca Nacional da

Austrália, no âmbito do seu projecto PANDORA, assim como a Biblioteca Nacional de

Portugal, fazem preceder o depósito da aquiescência formal dos criadores.

3.4.3. Identificação persistente dos recursos

Depois de seleccionado, o recurso deve ser identificado de forma inequívoca e persistente

para que possam ser estabelecidas ligações de longo prazo.

A título de exemplo referimos os PURLs (Persistent Uniform Resource Locators) implemen-

tados pela OCLC (Online Computer Library Center)63. Do ponto de vista funcional os PURL

são endereços URL que ao invés de apontarem directamente para um endereço na Inter-

net, sujeitando-se à instabilidade já por todos experimentada e traduzida na expressão

“page not found”, encaminham para um outro serviço, intermédio que nomeia os recursos

e que separa a sua localização da sua identificação. Um PURL é composto por três partes:

1) um protocolo ; 2) um endereço de resolução de PURL ; 3) um nome

Damos alguns exemplos retirados de Shafer et al., s.d.64

Também em Portugal a identificação persistente é estabelecida através de PURL.

Outro sistema de identificação persistente é da responsabilidade da International DOI

Foundation e chamado DOI (Digital Object Identifier) 65.

63 http://purl.oclc.org 64 SHAFER, Keith (s.d.) – Introduction to Persistent Uniform Resource Locators 65 http://www.doi.org

http://purl.oclc.org/keith/home

http://purl.oclc.org/OCLC/pull/FAC

http://purl.oclc.org/OCLC/OLUC/32127398/1

Protocolo Endereço de re-

solução Nome

3. QUADRO TEÓRICO DE REFERÊNCIA

41

O DOI é um sistema que permite a identificação persistente e a interoperabilidade da pro-

priedade intelectual num ambiente de rede digital. Permite gerir conteúdos intelectuais em

qualquer formato, com qualquer nível de granularidade e em qualquer ambiente digital.

A estrutura do DOI tem dois componentes: um prefixo e um sufixo e o comprimento é va-

riável. O prefixo identifica a organização que pretende registar DOIs. Em seguida, separa-

do por uma barra encontra-se o sufixo que identifica o recurso.

O DOI pode incorporar qualquer identificação já existente como é o caso p. ex. do ISBN,

integrado como sufixo.

O sistema de resolução é o Handle System66, um standard de arquitectura aberta e escalá-

vel da responsabilidade da Corporation for National Research Initiaves67, instituição sedia-

da no estado de Virgínia nos Estados Unidos da América.

O DOI encontra-se implementado em numerosos sistemas e detém entre outras, as se-

guintes potencialidades68 :

Persistência

Interoperabilidade

Extensibilidade

Independência de plataforma

Actualização dinâmica de metadados, aplicações e serviços.

Damos dois exemplos de DOI extraídos de PASKIN, op. cit.69:

10.1000/182

10.1000/ISBN1-900512-44-0

A opção por PURL ou DOI é, mais uma vez, determinada pela actividade das comunidades

implementadoras.

66 http://www.handle.net 67 http://www.cnri.reston.va.us/ 68 PASKIN, Norman (2003) – The DOI handbook. 3rd ed. International DOI Foundation. 69 PASKIN, Norman (2003) – Op. cit.

Prefixo Sufixo

3. QUADRO TEÓRICO DE REFERÊNCIA

42

No caso da OCLC, foi a consciência da existência dos constrangimentos da Internet que

podem inviabilizar a leitura dos recursos enquanto estes não são definitivamente deposita-

dos em repositórios e respondem por um simples endereço URL.

A International DOI Foundation responde pelas necessidades da comunidade de negócios,

que pretende garantir além do acesso permanente aos recursos, meta-informação adicio-

nal sobre direitos de autor ou outra.

3.4.4. Descrição e acesso dos recursos

No contexto da biblioteca digital como no da tradicional encontramos um qualquer docu-

mento através de índices, criados com a intenção de tornar os documentos fáceis de des-

cobrir. Esta indexação é estabelecida através de metadados.

Os metadados existem para descrição, acesso, gestão e preservação dos recursos deposi-

tados no reservatório. Estes podem ser armazenados segundo estruturas de diversos tipos

alimentadas pelo elemento humano ou por software de indexação automática.

A descrição dos recursos é geralmente construída com base em políticas de gestão de co-

lecções e ao mesmo tempo as características dos metadados variam consoante a tipologia

dos dados e o propósito da sua criação.

A pertinência e relevância da resposta ao utilizador final está dependente não só da boa

qualidade dos metadados como da qualidade e manutenção das ligações, assunto este que

não cabe no âmbito deste trabalho.

Mais à frente, no ponto 3.7 iremos encontrar desenvolvido o assunto metadados de pre-

servação, os quais, neste caso, são criados especificamente para viabilizar a preservação

de longo prazo.

3.4.5. Armazenamento dos recursos

As boas práticas de armazenamento, no ciclo de vida dos recursos digitais, devem ser es-

tabelecidas no mais curto espaço de tempo, tendo em conta a rápida e efectiva obsolência

de tecnologias e suportes.

Existem versões novas de bases de dados, folhas de cálculo e processadores de texto de

dois em dois ou três em três anos e enquanto alguns vendedores de software tornam

compatíveis as novas versões ou fornecem as estratégias de migração existem outros que

não garantem estas condições, o que dá origem a perda de informação e consequente per-

da da integridade dos dados.

O ambiente de hardware não é menos preocupante pois o ritmo de mudança é quase si-

multâneo.

3. QUADRO TEÓRICO DE REFERÊNCIA

43

Também os suportes de armazenamento se deterioram e hoje já podemos considerar per-

dida muita informação armazenada em velhas bandas magnéticas. Este assunto foi já des-

envolvido nos pontos 3.3.2 e 3.3.3.

A maior parte das organizações tenta resolver a questão da gestão do armazenamento de-

finindo estratégias de migrações de dados de 3 em 3 ou de 5 em 5 anos (Hodge, 2000)70.

O armazenamento faz-se preferencialmente em bandas magnéticas e CDs e os dados de-

vem ser refrescados a intervalos de tempo regulares (Aschenbrenner, 2000)71.

3.4.6. Preservação de longo prazo e recuperação da informação

O ambiente digital, dadas as suas características de heterogeneidade e abertura à mudan-

ça, torna imperativa a investigação e o consequente surgimento de padrões que viabilizem

alguma normalização quanto à segurança do futuro dos recursos. As instituições que já

preservam recursos digitais há algum tempo referem que começaram por preservar uma

grande variedade de formatos e que esse número tem vindo a diminuir substancialmente,

especialmente no que diz respeito a folhas de cálculo e bases de dados (Paskin, 2003)72.

Contudo, diz-nos ainda o mesmo autor, que persiste uma baixa consistência na modela-

ção, simulação e objectivos das áreas de software. Muito deste software continua a ser

construído especificamente para um dado projecto.

Uma das preocupações da preservação digital diz respeito à forma como os recursos apa-

recem aos olhos do utilizador final, sendo por vezes necessário proporcionar-lhe o contacto

com o conteúdo dos recursos assim como o seu look-and-feel ou seja a forma, o aspecto e

as características externas de usabilidade.

Este problema é em parte resolvido p. ex. através do formato PDF (Portable document

format), tanto para o caso de recursos textuais menos formais como é o caso da literatura

cinzenta como para publicações periódicas em formato electrónico. Não devemos contudo

deixar de realçar que o formato PDF é proprietário, o que constitui mais uma preocupação

para a área da preservação.

A recuperação da informação é um dos objectivos da preservação e culmina o ciclo de vida

dos recursos. Os dispositivos de acesso da Web podem não aceder directamente aos da-

dos, como é o caso de ficheiros em formatos ASCII (American Standards Code for Informa-

tion Interchange) ou SGML (Standard Generalized Markup Language). Em alguns casos

torna-se necessário recorrer a software específico para aceder aos recursos.

70 HODGE, Gail (2000) – Op. cit. 71 ASCHENBRENNER, A. (2000) – Op. cit. 72 PASKIN, Norman (2003) – Op. cit.

3. QUADRO TEÓRICO DE REFERÊNCIA

44

Ainda no que diz respeito ao acesso existe o problema da propriedade intelectual, que tem

vindo a ser resolvido através de legislação de depósito legal e licenciamentos.

3.5. INTEGRIDADE, AUTENTICIDADE E AUTENTICAÇÃO DE RECURSOS DIGI-

TAIS

Antes de nos debruçarmos sobre a integridade, a autenticidade e a autenticação dos do-

cumentos digitais, devemos examinar a natureza dos recursos digitais que os compõem.

Os bits não são apreendidos pelos órgãos sensoriais humanos, pois não são artefactos na

verdadeira acepção da palavra. Em vez disso devem ser representados, executados, dis-

postos diante das pessoas pelo hardware e software que os interpreta. Contudo o foco da

questão encontra-se em primeiro lugar nos bits. A habilidade necessária para editar os da-

dos passa por colocar o seu conteúdo de forma a poder manipulá-lo (Lynch, 2000)73.

O texto marcado em HTML e apresentado através de um Web browser assume uma di-

mensão sensorial. Recursos digitais constituídos por música, vídeo, imagens, incorporam

uma forte componente apelativa dos nossos sentidos. Os bits são os mesmos mas devido

às diferenças de hardware e software usados pelos receptores, a experiência obtida atra-

vés da observação varia substancialmente.

Neste ponto encontramos questões relacionadas com a autenticidade e integridade. Em

casos extremos temos objectos que são representados de forma experimental, tais como

jogos de vídeo ou realidade virtual onde o fulcro é constituído pelos bits e pelo ambiente de

representação do sistema ou pelo menos pela interacção entre o recurso digital e a sua

representação.

3.5.1. Integridade

Para haver integridade não pode haver lugar a corrupções. A mesma sequência de bits que

gerou um recurso deve ser mantida ao longo do tempo. Desta maneira, Clifford Lynch em

200074 considera a aplicação de certos algoritmos que permitem responder pela integrida-

de de várias abstracções do recurso e não só pela literal sequência de bits. Não obstante,

quando se procura testar a integridade dos recursos são encontradas algumas dificuldades

difíceis de ultrapassar.

73 LYNCH, Clifford (2000) - Authenticity and integrity in the digital environment : an exploratory

analysis of the Central Role of Trust. Washington, CLIR. 74 LYNCH, Clifford (2000) – Op. cit.

3. QUADRO TEÓRICO DE REFERÊNCIA

45

Diz-nos Lynch (2000)75 que os testes de integridade podem ser vistos como subprodutos

de avaliações de autenticidade, visto que deve existir a comparação de uma determinada

versão de um recurso digital com a versão original ou cópia de autoridade.

Desta forma, um dos métodos usados para testar a integridade é comparar o recurso com

a cópia tida como “verdadeira”. Assim, se o acesso a essa cópia dita verdadeira existir, po-

derão reproduzir-se outras cópias verdadeiras. Se esse acesso não for possível então os

testes de integridade limitam-se à consistência interna.

Se o recurso for acompanhado por um digest i.e., uma representação de texto na forma de

uma sequência de dígitos, criado através da utilização de uma fórmula intitulada one-way-

hash function76, com uma assinatura digital autenticada pode determinar-se se existe con-

sistência entre o recurso e o digest e dessa forma estabelecer o grau de integridade.

As assinaturas digitais devem estar ligadas a uma chave pública. Normalmente no momen-

to do depósito é criado um hash i.e., um processo de representação do objecto digital

através de uma cadeia de dígitos, que é assinado usando uma chave privada ou o par cha-

ve privada/chave pública.

A chave pública do par limita-se a uma identidade registada num certificado passado por

uma autoridade certificadora. Este processo é satisfatório até ao momento em que ocorre

uma migração. Aí a assinatura é alterada.

Então, preferencialmente, o repositório deve, ele próprio, assegurar uma assinatura digital

para esse recurso e assegurar também que a cadeia de proveniência está devidamente

documentada.

Ainda Lynch, mas em 199977 refere que os metadados que acompanham cada recurso digi-

tal ajudam a manter a integridade referencial das ligações entre recursos ou entre meta-

dados e recursos.

Num repositório digital os metadados estão associados a cada recurso com informação

descritiva, estrutural, administrativa, de direitos de autor, etc.

Estes metadados são mantidos e migram de formato em formato, de padrão em padrão

independentemente do recurso base que descrevem. Contudo alguns dos metadados asso-

ciados a recursos limitam-se à representação do recurso através de uma assinatura digital,

75 LYNCH, Clifford (2000) - Op. cit. 76 Algoritmo que permite transformar mensagens ou textos numa sequência de dígitos com o propó-

sito de garantir a gestão da segurança cf. Anexo 3. 77 LINCH, Clifford (1999) - Canonicalization : a fundamental tool fo facilitate preservation and man-

agement of digital information. D-Lib Magazine, 5 (9)

3. QUADRO TEÓRICO DE REFERÊNCIA

46

o que dificulta o processo de associação quando recursos e metadados migram de forma

assíncrona.

Lynch em 1999 (op. cit.)78 sugere a aplicação de um método a que o autor chama “canoni-

calization”, onde a utilização de formatos e algoritmos padronizados para vários tipos de

recursos são a solução para o problema da reparabilidade.

Estes podem ser usados para extrair a essência, isto é, o fluxo de bits acompanhado de

informação sobre a sua proveniência, neste caso ao nível da computacão propriamente dita

e não da custódia. É p. ex. o caso de uma assinatura digital.

O problema reside na definição consensual do algoritmo ou algoritmos correctos para um

determinado contexto.

A forma canónica, que contém as características essenciais de determinada classe de for-

matos de recursos não deve ser utilizada pelos repositórios, pois irá incrementar injustifi-

cadamente a necessidade de espaço. É ainda, segundo o mesmo autor, uma forma ideali-

zada de formato, sem contrapartida ao nível da eficácia.

3.5.2. Autenticidade

A verificação da autenticidade, destina-se ao conteúdo dos recursos digitais e à forma

como estes foram criados, existe no contexto dos métodos de identificação e verificação

dos recursos, e não deve por isso ser confundida com autenticação, que aprofundaremos

no ponto seguinte e que existe no contexto da identificação e verificação da identidade do

assinante do recurso (Bearman & Trant, 1998)79.

Podemos questionar-nos se será possível em ambiente digital distinguir entre um original e

uma fraude ou falsificação.

A questão da fraude, quer no âmbito das actividades desenvolvidas pela sociedade civil,

quer no campo forense mantém permanentes fora de discussão e conduz à criação de ca-

deias de autoridade cada vez mais especializadas que interpõem uma barreira às intenções

fraudulentas; contudo o ambiente digital distribuído facilita a penetração de intenções me-

nos sérias.

Algumas das mais promissoras qualidades dos recursos digitais, tais como as relacionadas

com a interactividade, são aquelas que revelam mais problemas de controlo de autentici-

dade.

78 LINCH, Clifford (1999) - Op. cit. 79 BEARMAN, David & TRANT, Jennifer (1998) – Autenticity of digital resources : towards a statement

of requirements in the research process. D-Lib Magazine, June.

3. QUADRO TEÓRICO DE REFERÊNCIA

47

É interessante notar que sempre que existe um salto inovador na natureza dos processos

de edição, caso da tipografia, p. ex. redobram os estudos do âmbito da disciplina da Di-

plomática. É também o caso da autenticidade digital.

Bearman & Trant, op. cit., distinguem três métodos na busca de uma solução dos diferen-

tes problemas de autenticidade digital:

1) Métodos públicos ligados à autenticidade das fontes, que incluem :

- A criação de depósito do copyright

- O depósito certificado das fontes originais combinado com serviços de

certificação de recursos

- O registo de identificadores únicos dos recursos

- A publicação dos dados das chaves dos recursos que depois de hashed ou

calculadas de outra forma devem representar os recursos em causa

- A definição de estruturas de metadados para autenticação ou prova

2) Métodos confidenciais que envolvem o encobrimento de alguns dados do

recurso

- Marcas de água

- Esteganografia

- Assinaturas digitais

3) Métodos funcionais que empregam tecnologias específicas em conjunto

com os recursos

- Encapsulação tanto física como lógica

- Encriptação

- Inserção de agentes

Cada uma destas tecnologias ultrapassa os problemas da autenticação de recursos. Deve

subsistir um ambiente tal que seja seguro e dê garantias de integridade e autenticidade de

um recurso recuperado em determinado momento, depois de migrado de plataforma em

plataforma.

3. QUADRO TEÓRICO DE REFERÊNCIA

48

Peter Hirtle em 200080 apresenta um interessante exemplo de autenticidade da era pré-

digital com evidente extensão aos novos paradigmas: os estudos de verificação de autenti-

cidade da fragata “Constellation”, considerada durante décadas como datada de 1797, na

cidade de Baltimore nos EUA. As provas da sua autenticidade foram forjadas e em 2000

encontravam-se no domínio forense e eram matéria de investigação para o FBI.

A analogia do tradicional ao digital é usada por Hirtle op. cit. que não deixa de referir que

para interpretar documentos de arquivo é necessário compreender a natureza do ambiente

de arquivo, pois um conjunto de artefactos históricos não consubstancia um arquivo. Um

arquivo é, segundo ele, um corpo orgânico, contextualizado, não uma simples colecção de

artefactos. Os arquivos existem unicamente quando se verifica uma contínua cadeia de

custódia dos documentos, de âmbito organizacional, desde a sua criação até ao seu depó-

sito.

Vamos encontrar ainda em Hirtle, op. cit. referência a algumas iniciativas no âmbito da au-

tenticidade dos recursos digitais de arquivo:

“Functional requirements for evidence in recordkeeping”81 – Projecto que

decorreu entre 1992 e 1996 e que desenvolveu requisitos funcionais para

a Universidade de Pittsburgh. David Bearman, consultor deste projecto

propôs um conjunto de requisitos de metadados adaptados a várias áreas

do conhecimento, consoante as necessidades das comunidades envolvi-

das. O objectivo era criar registos constituídos por metadados encapsula-

dos, por forma a que a autenticidade, a integridade, a confiança e a usabi-

lidade dos conteúdos estivessem garantidas.

Projecto conjunto da “University of British Columbia” e da InterPARES (In-

ternational Research on Permanent Authentic Records in Electronic Sys-

tems), subordinado ao título : “Preservation of the integrity of electronic

records”82. Decorreu entre 1994 e 1997. A equipa de trabalho liderada por

Luciana Duranti83 constituiu-se por grupos em diversas localidades geo-

gráficas : Australia, Canadá, China, União Europeia, Itália, Estados Unidos

e ainda um grupo de interesses corporativos industrial. O projecto incidiu

na via da Diplomática e nas suas conclusões considera requisito essencial

para assegurar a autenticidade ao longo do tempo que as operações de

80 HIRTLE, Peter B. (2000) - Archival authenticity in a digital age. In: Authenticity in a digital envi-

ronment. Washington, CLIR, p. 8-21. 81 http://web.archive.org/web/19981203042506/www.sis.pitt.edu/~nhprc/ 82 http://www.cc.ubc.ca/ccandc/feb96/email.html 83 http://www.interpares.org/UBCProject/intro.htm

3. QUADRO TEÓRICO DE REFERÊNCIA

49

rotina de transferência de ficheiros para uma terceira parte, neutral, confi-

ável, com competência para garantir autenticação, sejam feitas por analo-

gia com a arquivologia tradicional.

O projecto InterPARES, que publicou os seus resultados em 200284 em relatório subordina-

do ao título “The long term preservation of authentic electronic records” conduzido de 1999

a 2001, também baseou as suas conclusões na Diplomática contemporânea.

Diz-nos Luciana Duranti em 200185 que este projecto se destinava a desenvolver conheci-

mento teórico e metodológico essencial para a preservação permanente de registos autên-

ticos gerados ou mantidos electronicamente. Baseados no conhecimento adquirido seriam

capazes de formular políticas e estratégias e propor o estabelecimento de padrões capazes

de assegurar preservação digital de longo prazo.

No âmbito deste projecto foi estudada a criação de um enquadramento conceptual para o

estabelecimento de requisitos para preservação de recursos digitais autênticos. Não obs-

tante, subsistem muitas questões em aberto para posteriores investigações.

Destaca-se a área do desenvolvimento tecnológico onde, entre outras, as assinaturas digi-

tais para autenticação de recursos são causa de grande apreensão na área da gestão da

preservação digital de longo prazo.

3.5.3. Autenticação

Seguimos a definição de autenticação encontrada no relatório do projecto InterPARES, re-

ferenciado atrás86: A autenticação é estabelecida através de uma declaração de autentici-

dade de um registo num determinado momento por uma entidade juridicamente responsá-

vel pela emissão dessa declaração.

Segundo Bearman, 199887 a autenticação está relacionada unicamente com permissões de

acesso.

Partindo do princípio de que as entidades oficiais são responsáveis pelo aparecimento de

grande parte dos recursos que se destinam a incorporar depósitos credenciados visto que

são criadoras de princípios legais, registam actos de tribunais, etc, a autenticação destes é

fundamental num ambiente seguro e confiável.

84 http://www.interpares.org/book/index.cfm 85 DURANTI, Luciana (2001) – The long term preservation of authentic electronic records. In : APERS,

M. G. et al. (eds.): VLDB 2001, Proceedings of 27th International Conference on Very Large Data Bases, September 11-14, 2001, Roma, Italy. Morgan Kaufman, ISBN 1-55860-804-4

86 http://www.interpares.org/book/index.cfm 87 BEARMAN, David & TRANT, Jennifer (1998) – Autenticity of digital resources : towards a statement

of requirements in the research process. D-Lib Magazine, June

3. QUADRO TEÓRICO DE REFERÊNCIA

50

Para que este ambiente exista, a política de acesso deve basear-se em infraestruturas de

chaves públicas, assinaturas digitais, encriptações, etc.

As assinaturas digitais são exemplo das tecnologias de autenticação que têm sido desen-

volvidas no sentido de assegurar que as comunicações electrónicas através de redes e da

Internet em particular possam ser consideradas seguras.

As assinaturas digitais que identificam o assinante de determinado recurso e verificam se

não houve alterações durante a transmissão, podem constituir um dos métodos de auten-

ticação mas são não por si só suficientes para estabelecer a autenticidade do recurso a

longo prazo.

Arne Ansper et al. em 200188 apresentam uma proposta de autenticação de assinaturas

digitais de longo prazo baseada na assunção de que é válida toda a assinatura criada antes

do certificado de validação ter sido revogado. Na figura 1 reproduzimos o modelo de servi-

ço de notário proposto por estes autores, na qual estão envolvidas cinco partes :

(1) Uma autoridade certificadora que atesta que as chaves públicas estão

ligadas aos seus detentores

(2) Um assinante que depois de obter uma chave pública certificada pela

entidade certificadora cria uma assinatura digital

(3) Uma terceira parte interessada, a qual recebe uma assinatura digital do

assinante e que tem interesse que esta mantenha valor probatório

(4) Um notário que representa um serviço de confirmação da validade da

assinatura num determinado momento

(5) Um juiz que vai julgar, em determinado momento se a assinatura é ou

não válida

Vejamos esquematicamente como funciona:

3. QUADRO TEÓRICO DE REFERÊNCIA

51

Fig. 1. - Modelo de validação de assinaturas (Ansper, 2001, op. cit.)89

Este modelo vai permitir que o assinante, perante qualquer suspeição, revogue o certifica-

do e a chave pública permite em tempo útil informar todas as partes da revogação da as-

sinatura.

No ambiente académico, uma forma de autenticar dados é através de “peer review”. É um

processo utilizado pela casas editoras mais importantes de publicações periódicas em for-

mato digital, mas que também já existia para o suporte papel. É condição para publicação

de um artigo científico que este seja avalizado, referendando-se, assim, a sua mais valia

científica por peritos internacionais na área temática.

Os habituais criadores de conteúdos na Internet, tanto singulares como colectivos, nem

sempre se preocupam com as múltiplas versões dos seus trabalhos e na maior parte das

vezes não é possível determinar qual é a versão mais recente ou mais actualizada, nem

mesmo determinar a sua autenticidade, dado que nem foram autenticados por nenhuma

autoridade certificadora.

Meg Bellinger, em relatório da OCLC90 diz-nos que esta organização está interessada em

discutir a adaptação de software de autenticação a partir de uma terceira parte.

88 ANSPER, Arne et al. (2001) - Efficient long-term validation of digital signatures. Lecture Notes in

Computer Science, 1992. 89 ANSPER, A et al. (2001) – Op. cit. 90 BELLINGER, Meg (2002) - Understanding digital preservation : a report from OCLC. CLIR

Confirmação

Assinatura,

Certificado

Autoridade

certificadora

Parte

interessada Validação da informação

Assinante Notário Juíz

Assinatura,

Certificado

Assinatura digital

Certificado

3. QUADRO TEÓRICO DE REFERÊNCIA

52

Este software tem as funções de um notário público digital, tal como o modelo de Ansper

et al., 200191 que vimos anteriormente. O criador do recurso digital usa o software para

incluir uma assinatura digital e uma marca temporal. Essa informação é enviada à empresa

que detém o software de autenticação para preservação de longo prazo. O serviço também

regista alterações de detenção de direitos e verifica ulteriormente a sua autenticidade e

proveniência dos recursos.

É também de assinalar a importância que têm nesta matéria identificadores persistentes

tais como os PURL (Persistent Uniforme Resource Locator) ou DOI (Digital object identifi-

ers). Estes, por serem atribuídos uma única vez, são mais um elemento a utilizar como

meio de segurança e autenticação de recursos digitais.

Em trabalho de Polivy & Tamassia, 200292, vamos encontrar uma proposta de solução para

a autenticação de recursos digitais muito complexos, que agregam informação de diferen-

tes fontes, tais como boletins meteorológicos, notícias de jornais, preços de determinadas

mercadorias, etc, e os disponibiliza aos seus utilizadores.

Essa proposta intitula-se “Authenticated dictionary” e existe no âmbito do STMS (Secure

Transaction Management System) (Tamassia 2001)93.

O STMS é um sistema distribuído de autenticação de dados constituído por uma estrutura

de dados que suporta interrogações de utilizadores autorizados. Quando um utilizador in-

terroga um STMS, é devolvida uma resposta e também uma prova da autenticidade dessa

resposta. A prova pode ser da responsabilidade do STMS ou pode ser encontrada através

de um qualquer repositório credenciado.

A novidade é a abordagem de assinaturas XML (Bartel, 2002)94. O standard de assinaturas

digitais XML comporta um conjunto de normas e sintaxe XML para codificar, processar e

verificar assinaturas digitais de dados arbitrários. Adicionalmente fornece autenticação e

testa a integridade dos dados. Uma característica fundamental da assinatura XML é a sua

capacidade de assinar somente partes específicas da árvore XML em vez da totalidade do

documento. Esta característica torna-se importante quando existem várias peças de infor-

mação agregadas provenientes de diferentes fontes, cada qual com as suas características

de autenticação.

91 ANSPER, A. et al. (2001) – Op. cit. 92 POLIVY, Daniel J. & TAMASSIA, Roberto (2002) - Authenticating distributed data using web ser-

vices and XML signatures. Proc. ACM Workshop on XML Security, ACM Press, 2002 (em publica-ção)

93 TAMASSIA, Roberto (2001) – Efficient low-cost authentication of distributed data and transactions. Conduit 10 (2)

94 BARTEL, J., et al. (2002) – Sygnature syntax and processing. : W3C Recommendation. February.

3. QUADRO TEÓRICO DE REFERÊNCIA

53

Apresentamos duas figuras extraídas do mesmo trabalho de Bartel95, a primeira reporta-se

ao serviço STMS (Secure Transaction Management Systems) e a outra é um exemplo de

uma assinatura XML associada com uma resposta STMS.

Fig. 2 – Arquitectura STMS (Polivy & Tamassia, 2002)

95 BARTEL, J., et al. (2002) – Op. cit.

3. QUADRO TEÓRICO DE REFERÊNCIA

54

Fig. 3 – Codificação XML do documento base e da prova (Polivy & Tamassia, 2002)

Existe uma grande actividade de desenvolvimento de metodologias para combater os pro-

blemas inerentes à integridade, autenticidade e autenticação de recursos digitais.

Determinar quais os melhores métodos para determinados fins só é possível se os requisi-

tos funcionais para a autenticidade forem seguidos por parte dos criadores e utilizadores

potenciais.

Não existe uma solução única, devem ser tidos em conta os vários requisitos de autentici-

dade i.e., durante todo o ciclo de vida dos recursos digitais devem ser respeitadas todas as

normas e seguidos todos os padrões no que diz respeito à existência de chaves públicas e

privadas, marcas de água, encriptações, identificadores persistentes, declarações de au-

tenticação, etc.

A tecnologia padronizada e disponível deve ser utilizada no sentido de tentar impedir per-

das, por ausência de capacidade de reconhecimento de autenticidade, de informação que

pode ter características probatórias ou que pode ainda vir a tornar-se historicamente im-

portante.

3.6. ESTRATÉGIAS DE PRESERVAÇÃO DIGITAL

Os documentos produzidos em suporte papel não ácido, com boas tintas vegetais e arma-

zenados em ambiente frio, seco e escuro podem, provavelmente, subsistir durante mais de

mil anos.

3. QUADRO TEÓRICO DE REFERÊNCIA

55

Os documentos digitais, armazenados em qualquer suporte electrónico ou magnético, esta-

rão provavelmente irrecuperáveis dentro de 10 anos. O suporte físico deteriora-se, o har-

dware desaparece do mercado, o software de interpretação da informação é descontinuado

ou simplesmente já tiveram lugar várias gerações e há, assim, perdas sucessivas de in-

formação. Torna-se, deste modo necessário, transferir regularmente os recursos digitais

para novas plataformas.

Seja qual for a estratégia escolhida, o principal objectivo da preservação de longo prazo é

assegurar a longevidade e a manutenção da integridade intelectual dos recursos digitais

(Grout, Purdy and Rymer >2000)96.

Existem caminhos distintos para contornar os problemas da obsolência tecnológica e se-

gundo o Digital Preservation Testbed White Paper, 200197 consolidaram-se, hoje em dia,

várias estratégias :

3.6.1. Preservação tecnológica e impressão em papel

Uma das primeiras opções a ser usada foi a preservação tecnológica dos meios de acesso

aos recursos originais por tanto tempo quanto o necessário.

Esta opção estratégica obriga a que tanto o hardware como o software sejam mantidos em

boas condições para que sempre que seja necessário aceder aos recursos criados nesse

ambiente a resposta seja efectiva.

A preservação tecnológica é considerada bastante dispendiosa e tecnologicamente comple-

xa pois é indispensável manter competências para operar com os sistemas que se vão tor-

nando obsoletos. A acrescentar aos problemas de obsolência existe o risco de descontinui-

dade no fabricante.

Apesar de na prática ainda ser uma opção utilizada por muitas organizações, podemos

considerá-la em declínio.

A opção da impressão em papel, tal como a preservação tecnológica continua a ser usada

apesar de não ser viável para muitos recursos digitais. Quando os recursos a preservar são

texto, gráficos, fotografias ou outros formatos passíveis de reprodução em papel podemos

encontrar organizações que recorrem a essa estratégia.

96 GROUT, Catherine, PURDY, Phill & RYMER, Janine (>2000) - Creating digital resources for the vis-

ual arts : standards and good practice. AHDS/VADS, Guides to good practice 97 DIGITAL PRESERVATION TESTBED WHITE PAPER (2001) – Migration : context and current status.

ICTU

3. QUADRO TEÓRICO DE REFERÊNCIA

56

No que diz respeito a bases de dados ou recursos multimédia existe a incapacidade de pre-

servar certas características tais como movimento, som, fórmulas, estruturas de informa-

ção, etc.

3.6.3. Emulação

Trata-se de utilizar tecnologias actuais e sobre elas reconstituir as funcionalidades e o am-

biente de tecnologias que, entretanto, se tornaram obsoletas.

Por meio da emulação é possível aceder à cópia exacta do recurso original e do seu ambi-

ente e ter a consequente sensação do look-and-feel. Por exemplo, o hardware de um

Commodore C-64 pode ser emulado num processador Pentium. Da mesma maneira o sis-

tema operativo pode ser instalado nesse ambiente virtual o que permite que o processa-

mento do software original corra normalmente.

Os defensores desta estratégia advogam que talvez seja a única solução capaz de preser-

var um documento na sua forma original a longo prazo (Rothenberg, 1999)98, dadas as

múltiplas actualizações tecnológicas a que as instituições inevitavelmente se submetem.

Como pré-requisito de qualquer actividade de preservação por emulação deve existir uma

descrição da tecnologia usada durante a criação do recurso. Por conseguinte, como boa

prática, devem ser encapsulados:

O recurso digital propriamente dito acompanhado pelo software ou softwa-

res que o contextualizam, incluindo o sistema operativo, as aplicações e

quaisquer outras informações consideradas necessárias

As especificações sobre o emulador a usar no sistema futuro por forma a

fornecer informação para a recriação da plataforma original. Deve incluir

uma descrição do software, um histórico do ciclo de vida do recurso digital

e quaisquer outros elementos considerados necessários

A emulação pode ter lugar a dois níveis, ao nível do software e ao nível do hardware.

O primeiro diz respeito ao ambiente do software que deve ser recriado para aceder aos

recursos. Esse objectivo pode ser atingido emulando a aplicação original e o sistema

operativo onde a aplicação corre. Existe no entanto alguma dificuldade para descrever

aplicações de forma a que possam ser reproduzidas posteriormente. Este problema

complica-se bastante quando pensamos em multimédia e hipermédia (Granger, 2000)99,

conceitos que estão, eles próprios em actualização constante.

98 ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. CLIR (Expanded version) 99 GRANGER, Stewart (2000) - Emulation as a digital preservation strategy. D-Lib Magazine, 6 (10)

3. QUADRO TEÓRICO DE REFERÊNCIA

57

Existe ainda a possibilidade de emular o ambiente de hardware emulado em software atra-

vés de informação detalhada acerca das suas características. Segundo Lawrence et al. em

2000100, para que a emulação tenha sucesso é necessário criar um conjunto formado por :

o ficheiro a preservar,

a aplicação que deu origem ao ficheiro,

o sistema operativo onde a aplicação corria,

o ambiente de hardware emulado em software usando informação detalha-

da acerca das suas características.

Podemos considerar esta estratégia bastante complexa e difícil de implementar na prática,

dado o leque variado de necessidades efectivas a preencher e que na maior parte das ve-

zes não é possível atingir.

3.6.4. Migração

Trata-se de transportar os recursos digitais de uma plataforma para outra, adaptando-os

aos ambientes de chegada, de cada vez que hardware e/ou software se tornam obsoletos

ou em antecipação a essa própria obsolência.

É vulgar que estes processos, que provocam sempre alguma reescrita dos recursos trans-

portados, introduzam particularidades novas susceptíveis de serem interpretadas como

corrupção do seu estado original.

Dado o curto período de vida útil das tecnologias não é raro a preservação implicar a sub-

missão dos recursos a migrações múltiplas, com perdas crescentes das suas característi-

cas originais. Neste caso é frequente a observação de corrupções cumulativas que podem

alterar substancialmente a sua aparência original, estrutura, interactividade e look-and-feel

(Rothenberg, 2000)101.

Em alguns casos a transferência de formatos raros torna-se impossível e pode sobrevir a

perda total dos recursos. É o caso de algumas formas de arte interactiva (Aschenbrenner,

op. cit.)102. Outro exemplo, este bastante mais corrente, é a simples migração de ficheiros

do tipo Word ou Excel para versões mais actuais onde por vezes se alteram certas funcio-

nalidades e características de layout.

100 LAWRENCE, Gregory W. et al. (2000) Risk management of digital information : a file format inves-

tigation. CLIR 101 ROTHENBERG, Jeff (2000) - An experiment in using emulation to preserve digital publications.

Den Haag, Koninklijke Bibliotheek. 70 p. ISBN 9062-59-1442 102 ASHENBRENNER, A. (2001) – Op. cit.

3. QUADRO TEÓRICO DE REFERÊNCIA

58

Segundo Paul Wheatley em 2001103 só existe uma forma de evitar este risco que é o pro-

cesso de migração reversível proposto pelo modelo OAIS (Open Archive Information Sys-

tem)104,105, como um dos tipos de migração possível de implementar e que são :

1) Refrescamento – operação realizada quando se copia a partir de um suporte para

outro idêntico, o que, em princípio, não danifica o conteúdo

2) Cópia – operação de réplica para outro ou para o mesmo suporte

3) Reempacotamento106 – A migração envolve reempacotamento quando existem al-

terações durante o empacotamento

4) Transformação – A migração que acarreta alteração do conteúdo da informação é

referida no modelo OAIS como transformação e pode ser:

(a) reversível - Diz-se quando uma nova representação define um conjun-

to ou subconjunto de novas entidades que são equivalentes às definidas

pela representação original. Isto quer dizer que existe a possibilidade de

um movimento à retaguarda, passo a passo, até à representação original.

P. ex. uma representação que usa o código ASCII de A a Z substituída por

uma representação que usa o código UNICODE UTF-16 de A a Z. Esta

transformação resulta numa substituição do código de 7-bit pelo de 16-bit.

A operação inversa é conseguida se substituirmos o código UNICODE

UTF-16 de A a Z pelo ASCII de A a Z. Neste caso o original é recuperado.

(b) não reversível – Diz-se quando não é possível reverter com eficácia

toda a operação de transformação. Esta ocorrência pode dar-se quando as

entidades resultantes não são semanticamente equivalentes.

Na gestão dos repositórios é de toda a conveniência que se adopte um pequeno número de

padrões de aceitação para os quais de deve proceder a conversão de todos os recursos

capturados. Por esta via conseguir-se-á a diminuição drástica dos esforços futuros de mi-

gração. Formatos padrão são p. ex: ASCII para texto, TIFF para imagens e PostScript para

apresentação do layout. Uma animação muito sofisticada poderá ser preservada a partir de

uma série de screen-shots (Aschenbrenner, op. cit.). Como consequência, serão necessári-

os menos conversores em qualquer dos ciclos de conversão.

103 WHEATLEY, Paul (2001) – Migration : a CAMiLEON discussion paper. Ariadne, 29 104 O modelo conceptual de referência OAIS é abordado no ponto 4.1.5 desta dissertação 105 http://wwwclassic.ccsds.org/documents/pdf/CCSDS-650.0-B-1.pdf 106 Os termos empacotamento e reempacotamento fazem parte da terminologia própria do modelo

conceptual OAIS

3. QUADRO TEÓRICO DE REFERÊNCIA

59

Outro aspecto a considerar é a existência de formatos proprietários que limitam o acesso

ao software e que aduzem constrangimentos legais.

Uma vantagem da migração é o rápido acesso ao recurso. Dado que o formato é standard

em qualquer altura o documento pode ser acedido. Na maior parte dos casos a conversão

dos recursos digitais dá-se em circunstâncias tidas como suficientes pela comunidade de

utilizadores, mesmo com perda de algum look-and-feel.

3.6.5. Encapsulação

A estratégia da encapsulação tem como objectivo a preservação do formato original. A lin-

guagem XML é tida como capaz de assegurar o encapsulamento dos metadados e das ins-

truções necessárias à interpretação do original, sendo possível combiná-la com outras es-

tratégias, como é o caso da emulação107.

Na presença da existência de uma colecção de metadados previamente determinada, estes

podem ser expressos na forma de esquema XML que pode ser reutilizado em colecções de

recursos que correspondam a essas especificações. Esta normalização torna-se importante

na medida em que facilita o trabalho do repositório digital na opção por esquemas de me-

tadados.

Na Austrália, encontramos o projecto VERS (Victorian Electronic Records Strategy) que im-

plementou esta estratégia com sucesso e no seu relatório final108 apresenta as seguintes

conclusões:

Os recursos, o contexto e informação de autenticação devem ser encapsu-

lados num único objecto e não separadamente

A estrutura dos dados deve permitir a inclusão de metadados em camadas

A linguagem XML deve ser usada para codificação dos recursos a depositar

Cada recurso deve apresentar uma assinatura digital

3.6.6. Software Máquina Virtual (UVC - Universal Virtual Computer)

Opção tida como variante da emulação proposta por Raymond Lorie da IBM em trabalho

conjunto com a Biblioteca Nacional da Holanda (Koninklijke Bibliotheek) em 2001109,110.

107 Digital Preservation Testbed Project (2002) – XML and digital preservation. 108 http://www.prov.vic.gov.au/vers/published/final.htm 109 LORIE, R. A. (2001) The long term preservation of digital information. RLG DigiNews. 5 (3) 110 IBM/KB (2001) – Long term preservation study. DNEP.

3. QUADRO TEÓRICO DE REFERÊNCIA

60

Consiste num software que é aplicado a um recurso no momento do depósito, gerando um

programa executável do qual consta a descrição de todas as características do recurso. Re-

curso e executável são preservados em conjunto. Este executável deve posteriormente

correr num ambiente de interpretação próprio software UVC (Universal Virtual Computer)

que proporciona a reconstituição do original.

A estratégia UVC pode abranger o depósito de programas no sentido do desenvolvimento

de emuladores mesmo no desconhecimento da máquina alvo. Ao invés de depositar o fluxo

de bits e o programa que o descodifica, devem ser depositados o programa original em

conjunto com um emulador da máquina, escritos em linguagem UVC, e também qualquer

ficheiro de dados que seja necessário para correr a aplicação original. Os metadados de-

vem fornecer explicações quanto à forma de correr o programa.

Segundo Lorie, 2001, op. cit, através desta estratégia pretende-se diminuir a dependência

de normas. Ao escrever para cada novo formato um programa UVC que o descodifique as-

segurará segundo este autor a preservação dos dados para o futuro.

3.6.7. XML (Extensible Markup Language)

A linguagem XML pode ser vista como um tipo particular de migração.

É uma linguagem de enriquecimento de informação sobre estruturas e significado. Sendo

independente da plataforma onde vai correr é um padrão aberto. Favorece a interoperabi-

lidade e pode ser usado como formato de criação de documentos. Pode considerar-se como

uma estratégia de preservação por si só.

Por vezes a opção XML e o formato PDF são considerados como disputando o mesmo terri-

tório para a preservação a longo prazo, mas como, na verdade, são bastante complemen-

tares será mais apropriado orientar a estratégia pela utilização dos dois do que optar por

um único111 e desta maneira o risco de perda diminui.

Mas existe uma opção estratégica ?

No contexto de um repositório digital que periodicamente tem que gerir conversões de da-

dos e migrações de hardware para fazer face a obsolências e desactualizações o objectivo

é a preservação da totalidade do conteúdo da informação de cada recurso, por vezes inclu-

indo o look-and-feel, a substituição do velho pelo novo e o controlo total das operações de

transferência.

111 Digital Preservation Testbed Project (2002), op. cit.

3. QUADRO TEÓRICO DE REFERÊNCIA

61

Ao optar pela estratégia da migração o repositório fica impossibilitado de saber o que deixa

em herança. É impossível prever quantas vezes vai ser necessário migrar.

Os standards podem ter uma vida curta no ambiente digital. Cabe também referir que o

nível de corrupção depende em grande parte das boas práticas seguidas durante a criação

dos recursos digitais a preservar, e também das técnicas de reparabilidade usadas e dos

metadados que as documentam.

Os pontos críticos da migração estão relacionados com o muito trabalho que acarreta, a

morosidade do processo, o alto custo devido às sucessivas migrações, a ausência de esca-

labilidade, a perda da forma original e a corrupção do look-and-feel.

A opção estratégica da emulação por outro lado torna-se polémica e motivo de discussão

científica como podemos verificar no trabalho de Granger, 2000 atrás citado 112, onde este

autor questiona as opções de Rothenberg aparecidas em 1999113.

Também Lawrence et al. (op. cit.)114 considera que não existe sistema capaz de manter os

emuladores - manter emuladores obsoletos torna-se tão problemático como manter fichei-

ros em formatos obsoletos.

O projecto CAMiLEON (Creative Archiving at Michigan and Leeds)115 tem como objectivo,

precisamente, aplicar a estratégia da emulação à preservação digital de longo prazo.

Também o projecto NEDLIB (Networkd European Deposit Library)116 manifesta a intenção

de promover o desenvolvimento do estudo da emulação como tecnologia a aplicar.

Digamos que, antes de 2000-2001, a emulação teve expressão nalguns projectos, mas a

Biblioteca Nacional da Austrália117 manifesta a intenção de fazer aplicar ambas as estraté-

gias, migração e emulação e à medida que os resultados forem surgindo e a experiência

aumentar talvez seja possível optar, consoante as variáveis envolvidas, por uma ou outra,

ou pela aplicação de ambas.

Mesmo que o look-and-feel dos recursos tenha sido alterado durante o processo de preser-

vação esse facto pode não ser relevante para as necessidades dos utilizadores. Cabe-nos

por isso atender à natureza dos recursos e às necessidades das comunidades de utilizado-

res do nosso tempo para podermos projectá-las para as comunidades do futuro.

112 GRANGER, S. (2000) – Op. cit. 113 ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. CLIR (Expanded versi-

on) 114 LAWRENCE, et al. (2000) – Op. cit. 115 http://www.si.umich.edu/CAMILEON 116 http://www.kb.nl/coop/nedlib/results/NEDLIBemulation.pdf 117 http://www.nla.gov.au/preserve/pmeta.html

3. QUADRO TEÓRICO DE REFERÊNCIA

62

Seja qual for a estratégia a desenvolver pelo repositório digital, o seu desempenho só terá

sucesso se forem seguidas boas práticas e se a criação de metadados de preservação esti-

ver prevista ao longo de todas as fases do ciclo de vida do recurso digital.

3.7. METADADOS DE PRESERVAÇÃO DE LONGO PRAZO

Definimos metadados de preservação de longo prazo como informação de apoio aos pro-

cessos associados com a preservação digital de longo prazo.

Em ambiente digital, os recursos digitais sofrem transformações, cujos resultados nem

sempre são fáceis de controlar, motivo pelo qual deve ser criado um histórico da mudança

ao longo do tempo com o objectivo, entre outros, de garantir que os mecanismos que

atestam a autenticidade e a integridade dos mesmos possam ser recompostos. De igual

maneira, as tecnologias de acesso aos recursos digitais rapidamente se tornam obsoletas e

por isso haverá que encapsular informação acerca dos suportes de armazenamento, har-

dware, sistema operativo e respectivos softwares utilizados durante o ciclo de vida dos re-

cursos.

Os metadados de preservação devem armazenar informação técnica e administrativa sobre

decisões e acções de preservação, registar os efeitos das estratégias de conversão de da-

dos, assegurar a autenticidade dos recursos digitais ao longo do tempo e registar informa-

ção acerca de gestão de colecções e de direitos.

Em Borbinha (2001)118, encontramos referidos um conjunto de objectivos para os metada-

dos, que são :

Descrição bibliográfica dos recursos

Gestão administrativa dos recursos

Preservação dos recursos

Descrição estrutural e técnica dos recursos

Acesso, uso e reprodução dos recursos

Gestão administrativa dos próprios metadados

Do estrito ponto de vista da preservação digital de longo prazo, apesar de todos os objecti-

vos apresentados serem indispensáveis à boa gestão dos recursos antes e depois de depo-

118 BORBINHA, José (2001) - Metadata – Conceito e sua relevância para as bibliotecas. Actas do 7º

Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas. Porto, 2001

3. QUADRO TEÓRICO DE REFERÊNCIA

63

sitados num repositório, interessa-nos, particularmente, o objectivo de dar informação

acerca dos requisitos e condições, técnicas ou formais de preservação de longo prazo.

Segundo o “OCLC/RLG Working Group on preservation metadata”119 as características fun-

damentais dos metadados de preservação são as seguintes:

Abrangência, i.e., devem ser constituídos por todos os requisitos

informacionais necessários à gestão de um repositório desde a sua

inclusão até à sua disponibilização e acesso.

Estruturação, ou seja, devem apresentar uma descrição de alto nível dos

componentes chave do sistema e das suas funcionalidades. Este ponto

vem complementar o primeiro.

Aplicação alargada, i.e., os metadados de preservação devem poder apli-

car-se a um leque variado de tipos de recursos digitais, de actividades e

de instituições. Uma estrutura de metadados de preservação representa o

consenso de um grupo de trabalho e deve ser imparcial sobre assuntos re-

lacionados com as opções de estratégias de preservação.

Referindo-nos ao ciclo de vida dos recursos e à fase da criação, é importante que da parte

dos repositórios se alertem os criadores para a inserção dos metadados necessários.

Damos como exemplo as linhas orientadoras da AHDS (Arts and Humanities Data Service)

para os produtores de modelos em CAD120.

Enquanto o trabalho está em mãos é muito mais fácil recordar os passos dados para cons-

truir o modelo. A documentação produzida ajudará tanto os próprios membros da equipa

de trabalho como no futuro será uma componente vital no processo de preservação a lon-

go prazo. É desnecessária uma documentação exaustiva de todo o processo criativo mas

fundamental documentar algumas fases do processo dado que cada projecto pode conter

um número alargado de modelos.

Assim, para cada projecto devem ser fornecidos metadados que contenham:

Uma descrição alargada, em diagonal, de todo o projecto

Métodos e normas usados no projecto

119 OCLC/RLG Working Group on preservation metadata (2001) - Preservation metadata for digital

objects : a review of the state of the art : a white paper 120 EITELJORG II, Harrison et al. (2002) - Archaeology Data Service CAD : A Guide to Good Practice.

AHDS

3. QUADRO TEÓRICO DE REFERÊNCIA

64

Descrição individualizada dos modelos no projecto

Para cada projecto deve ser fornecida uma lista dos ficheiros criados que deve incluir :

Nome do ficheiro

Data de criação ou da última actualização

Formato dos dados e número da versão utilizada

Descrição do conteúdo

Copyright associado

De igual modo para cada modelo os criadores devem também dar a conhecer informação

sobre os modelos através de:

Título do projecto

Número de referência

Criador

Título do modelo CAD

Software CAD

Ficheiros usados

E ainda informação para algumas bases de dados associadas, que deve incluir :

Título do projecto

Referência do projecto

Base de dados c/ versão e tipo

Título das tabelas ou ficheiros, assim como número de referência

Campos da tabela

Título do ficheiro CAD que está associado à BD

Formato do ficheiro

Data de criação da BD

3. QUADRO TEÓRICO DE REFERÊNCIA

65

Sem a ajuda destes elementos de metadados não será possível reconstruir os modelos

posteriormente.

Cabe desta forma a cada repositório encaminhar os depositantes para uma conduta basea-

da no seguimento de boas práticas e verificar no acto de depósito se estas foram cumpri-

das.

3.7.1. Comunidades temáticas e respectivas necessidades de metadados

Os inúmeros repositórios de preservação de recursos digitais de longo prazo existentes

têm sido construídos seguindo as necessidades de determinadas comunidades temáticas.

Estas, face à consciência da existência real de perigo da perda de dados científicos de inte-

resse nacional estratégico, desenvolveram os seus próprios modelos de repositórios que

desempenham bem as respectivas funções, mas que dado o seu âmbito restrito contêm

limitações, se usados por comunidades de outros domínios temáticos.

Em CCSDS, 2002121 encontramos referência às exigências de metadados a que estão sujei-

tos os depositantes de alguns repositórios temáticos que passamos a descrever sucinta-

mente

Planetary Data System Archive122

Trata-se um repositório americano, distribuído, que serve a comunidade da NASA relativa

a ciências planetárias.

É constituído por um nó central no Jet Propulsion Laboratory e por sua vez outros nós de

subdivisão temática, para as geociências, atmosfera, interacções planetárias de plasma,

etc. Estes nós estão distribuídos por universidades em todo o país. Os interessado em de-

positar recursos neste espaço de preservação são obrigados a seguir linhas orientadoras.

Os metadados que acompanham os dados no acto de admissão no repositório são cuidado-

samente comparados com os elementos que constam de uma lista de terminologia agre-

gada ao sistema. Também podem ser acrescentados novos elementos se for considerado

oportuno.

Os metadados base para constituição do repositório constam dos seguintes ficheiros :

- AAREADME.TXT : texto resumido do conteúdo dos dados

- VOLDESC.SFD : etiquetas normalizadas dos pacote de dados

121 Consultative Committee for Space Data Systems (2002) – Reference Model for an Open archive

Information System (OAIS), Blue Book (CCSDS 650.0-B-1) 122 http://pds.jpl.nasa.gov/pds-cn-homepage.html

3. QUADRO TEÓRICO DE REFERÊNCIA

66

- VOLINFO.TXT : descrição do conteúdo dos dados

- CATALOG : DATASET.CAT. MISION.CAT, INST.CAT

- INDEX : índice ASCII cobrindo a granularidade de cada pacote de dados

- SOFTWARE : software necessário para interpretar e visualizar os dados

- CALIB : conjuntos de calibração de dados

- BROWSE : permite percorrer a lista dos recursos em cada pacote de dados.

O acesso é possível através de CDs distribuídos a toda a comunidade. Também é possível

aceder via Internet a grande parte dos recursos.

National Archives and Records Administration´s (NARA)123

Este repositório preserva e dá acesso a recursos digitais no âmbito do governo federal dos

EUA. A comunidades de utilizadores é tão ampla quanto os conteúdos o permitem.

Antes de serem integrados no repositório são criados metadados que incluem a origem, a

criação, as características dos dados e os desenvolvimentos administrativos. O NARA cap-

tura ainda para uma base de dados, com o objectivo de uma posterior verificação automá-

tica, metadados acerca dos domínios, das ligações e dos layouts.

Da mesma maneira, outros metadados criados pelo pessoal do NARA incluem descrições

das colecções, resumos, listas de títulos, etc.

Life Sciences Data Archive (LSDA)124

A comunidade alvo deste repositório é constituída por investigadores no âmbito das ciênci-

as da vida no espaço. O LSDA contém dados referentes a experiências biológicas com ani-

mais, plantas e pessoas em ambientes fora da Terra em voo.

Os metadados são os que acompanham originalmente os dados. Excepcionalmente serão

acrescentados outros no caso de existir obsolência dos suportes e ser necessário tranferi-

los para outros de nova geração.

123 http://www.archives.gov/ 124 http://lsda.jsc.nasa.gov/

3. QUADRO TEÓRICO DE REFERÊNCIA

67

3.7.2. Sistemas de metadados aplicáveis à preservação digital

Analisamos, de seguida, alguns sistemas de âmbito mais genérico e que procuram

constituir um standard para a preservação digital, no domínio dos recursos mais ligados

ao mundo das bibliotecas e dos arquivos.

Dublin Core125

O Dublin Core é o formato de metadados para recursos digitais mais divulgado pois é pas-

sível de aplicação alargada a qualquer comunidade temática. Foi projectado tendo como

objectivo a recuperação dos recursos em HTML. Contém uma estrutura simples e flexível

aplicável a recursos complexos. Tem capacidade para ser representado através de variadas

sintaxes e podemos encontrar uma codificação para os elementos do Dublin Core em XML

usando RDF (Beckett, Miller & Brickley 2002)126.

Estabelecido no âmbito da OCLC/NCSA, é composto por um conjunto de 15 elementos pa-

drão, permitindo a inclusão de elementos adicionais para atender às particularidades de

cada comunidade. Foi estabelecido por consenso de um grupo internacional e interdiscipli-

nar de profissionais – bibliotecários, analistas, linguistas, museólogos, entre outros, e é

utilizado para descrever uma variedade de recursos existentes na Internet. Pode ser consi-

derado como um meio de comunicação e de busca de informação para a Internet. O DC

tem sido adoptado por importantes instituições e também como padrão nacional em agên-

cias governamentais americanas. Apresentamos em seguida o conjunto de elementos defi-

nidos para aplicação pelo Dublin Core, 2002127:

Título - título dado ao recurso

Criador - entidade principal responsável pela elaboração do conteúdo do

recurso

Assunto - assunto referente ao conteúdo do recurso

Descrição - descrição do conteúdo do recurso

Editor – entidade responsável pela difusão do recurso

125 http://dublincore.org/ 126 BECKETT, Dave, MILLER, Eric & BRICKLEY, Dan (2002) – Expressing simple Dublin Core in

RDF/XML. Dublin Core Metadata initiative. 127 DCMI (2002) – DCMI elements and element refinements : a current list. Dublin Core Metadata

initiative.

3. QUADRO TEÓRICO DE REFERÊNCIA

68

Outros responsáveis - entidade responsável por contribuições ao conteúdo

do registo

Data - data da criação ou de actividade de preservação no ciclo de vida do

recurso

Tipo - natureza ou género do conteúdo do recurso

Formato - manifestação física ou digital do recurso

Identificador - identificação única não ambígua do recurso

Fonte - referência a um outro recurso do qual deriva o presente

Língua - língua do conteúdo intelectual do recurso

Relação - referência para outro recurso do qual o presente recurso é deri-

vado ou está associado

Cobertura - âmbito espacio-temporal do conteúdo do recurso

Direitos - Informação sobre os direitos legais do recurso e seu uso

Entre as várias organizações que aderiram à implementação de esquemas de metadados

baseados no Dublin Core podemos referir os exemplos da Networked Digital Library of

Theses and Dissertations128, do Nordic Metadata Project129, da Art, Design, Architecture &

Media Information Gateway and Visual Arts Data Service130, do CIMI (Consortium for the

Computer Interchange of Museum Information)131 e do CORC (Cooperative Online Resour-

ces Cataloguing)132.

EAD (Encoding Archiving Description)133

Mais vocacionada para a realidade arquivística encontramos a norma EAD que permite que

a norma ISAD(G) seja descrita numa DTD SGML. Esta norma é mantida no Network Deve-

128 http://www.ndltd.org 129 http://www.lib.heilsink.fi/meta/index.html 130 http://adam.ac.uk 131 http://www.cimi.org 132 http://purl.oclc.org/corc 133 http://lcweb.loc.gov/ead/

3. QUADRO TEÓRICO DE REFERÊNCIA

69

lopment and MARC Standards Office da Biblioteca do Congresso134 em parceria com a So-

ciety of American Archivists135 que é a sua proprietária.

O EAD descreve formalmente o modelo estrutural para um auxiliar de busca e ao mesmo

tempo fornece documentação de apoio. Esta documentação é composta por um conjunto

de etiquetas disponíveis para identificar as componentes lógicas dos auxiliares de busca.

Contém um glossário com a definição do significado das etiquetas, e a linguagem SGML

define a sintaxe para a utilização dessas mesmas etiquetas.

Os benefícios da utilização da linguagem SGML estão relacionados com :

A independência de plataformas de armazenamento - os recursos podem

ser recuperados através da utilização de qualquer equipamento e em

qualquer ambiente de software.

A validação - a estrutura de qualquer auxiliar de busca pode ser validada

contra o modelo definido na DTD do EAD para garantir que a norma está

bem implementada

A reutilização do recurso - um documento codificado em EAD pode ser

transformado numa grande variedade de formatos consoante as necessi-

dades, é o caso de requisitos de ecrã ou de impressão

O processamento – Dado que as etiquetas da DTD EAD identificam conteú-

dos de informação do recurso, tais como datas, nomes de pessoas, etc,

em vez das características de apresentação do recurso, como tipo de letra,

tamanho dos tipos, etc, os conteúdos estão em condições de ser apresen-

tados em qualquer formato ou trabalhados de forma a produzir outro tipo

de acções tais como p. ex., listas ordenadas.

O EAD possui uma variedade de ferramentas e ficheiros de ajuda para as aplicações SGML

e XML136.

De entre as instituições137 que, mundialmente, adoptaram o EAD como modelo de metada-

dos podemos referir o IANTT (Instituto dos Arquivos Nacionais da Torre do Tombo)138.

134 http://www.loc.gov/marc/ndmso.html 135 http://www.archivists.org/ 136 http://jefferson.village.virginia.edu/ead/products.html 137 http://jefferson.village.virginia.edu/ead/sitesann.html 138 http://www.iantt.pt/

3. QUADRO TEÓRICO DE REFERÊNCIA

70

METS (Metadata Encoding and Transmission Standards)139

O esquema de metadados METS é uma norma para codificação de metadados descritivos,

administrativos e estruturais de recursos digitais que utiliza a linguagem XML. A norma é

mantida pelo Network Development and MARC Standards Office da Biblioteca do Congres-

so140 e tem sido desenvolvida como uma iniciativa da DLF141 (Digital Library Federation).

Esta iniciativa pretende construir um formato XML para codificação de metadados necessá-

rios para a gestão de bibliotecas digitais no âmbito de repositórios e também para permitir

a permuta de recursos entre repositórios ou entre repositórios e utilizadores.

Dependendo da sua utilização, um documento METS pode ser usado como SIP (Submission

Information Package), como AIP (Archival Information Package) ou mesmo como DIP (Dis-

semination Information Package no âmbito do modelo de referência OAIS que estudare-

mos no ponto 4.1.5. Um documento METS é constituído por cinco secções :

1) Metadados descritivos – Esta secção pode consistir em apontadores

para esquemas externos de metadados tais como o formato MARC, atra-

vés de um OPAC ou ajudas EAD através de um servidor WWW

2) Metadados administrativos – Fornecem informação acerca da fonte dos

dados e acerca da proveniência, da história do recursos (migrações, trans-

formações, etc.)

3) Grupos de ficheiros – Lista dos ficheiros que compõem o recurso em to-

das as versões.

4) Mapa de estruturas – Estrutura hierárquica dos recursos digitais e das

ligações entre o conteúdo dos ficheiros e os metadados

5) Comportamento – Secção relativa a comportamento que pode ser usada

para associar comportamentos executáveis com o conteúdo de um recur-

so METS. Esta secção contém também um mecanismo modular de um có-

digo executável que implementa e instala comportamentos definidos abs-

tractamente pelo interface.

O METS está a ser analisado como esquema de metadados a utilizar na Biblioteca Nacional

de Portugal.

139 http://www.loc.gov/standards/mets/ 140 http://lcweb.loc.gov/marc/ndmso.html 141 http://www.diglib.org/

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

71

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSI-

TÓRIO DIGITAL

Um repositório de recursos digitais confiável é aquele cuja missão consiste em fornecer

acesso a longo prazo a recursos digitais de uma designada comunidade no presente e no

futuro de forma permanente e garantida.

Neste capítulo vamos dedicar-nos a determinar os aspectos que atribuem confiabilidade

aos repositórios digitais com vista à sua implementação. Os objectos de estudo serão op-

ções consideradas internacionalmente como paradigmáticas.

4.1. CONFIABILIDADE DE UM REPOSITÓRIO DIGITAL

Seja qual for a infraestrutura de base adoptada, para atingir os seus objectivos um reposi-

tório digital deve corresponder às seguintes expectativas:

Existir no âmbito de um sistema organizacional que assegure a viabilidade

a longo prazo do repositório e da informação digital que este pretende

preservar

Aceitar a responsabilidade da manutenção a longo prazo de recursos digi-

tais no interesse dos depositantes e para benefício dos actuais e futuros

utilizadores

Demonstrar responsabilidade fiscal e base de sustentação

Desenhar o seu sistema de acordo com convenções e normas internacio-

nais para que a gestão, o acesso e a segurança dos recursos digitais aí

depositados se mantenham ao longo do tempo.

Estabelecer metodologias para avaliação da qualidade dos sistemas que

vão ao encontro das expectativas da comunidade do ponto de vista da

confiabilidade

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

72

Manter políticas, práticas e desempenhos que possam ser auditados e afe-

ridas por entidades independentes

A atribuição de responsabilidades no processo de preservação de recursos digitais é bas-

tante complicada pois todos os intervenientes no processo: criadores de conteúdos, dese-

nhadores de sistemas, patrocinadores e futuros utilizadores são intervenientes activos e

potenciais.

É também difícil conciliar os interesses de alguns intervenientes i.e., os editores comerciais

investem na preservação dos recursos digitais enquanto estes têm valor comercial enquan-

to que as bibliotecas, arquivos ou museus tendem para objectivos de preservação e de

acesso a longo prazo.

Ambas as filosofias de preservação, como já vimos no ponto referente ao ciclo de vida dos

recursos digitais influenciam decisivamente a futura preservação nos repositórios, especi-

almente no que diz respeito ao acesso à informação. Contudo, se forem impostas práticas

de normalização no que diz respeito tanto a formatos, evitando a utilização de formatos

proprietários, como à introdução de metadados desde a fase de criação, à atribuição de

identificadores persistentes, e também à correcta aplicação de técnicas de reparabilidade

dos ficheiros, muitos dos problemas serão ultrapassados com uma maior facilidade.

Como veremos no ponto 4.1.4, a implementação do modelo de referência OAIS constitui

um enquadramento base importante, que atribui maturidade à definição de um repositório

digital confiável através de uma interessante articulação de metadados administrativos,

descritivos e estruturais.

4.1.1. As questões legais

A determinação da posse dos recursos nem sempre é clara dada a possibilidade da exis-

tência de variadas responsabilidades num só recurso assim como a intangibilidade inerente

às características dos suportes de informação.

Por estas razões assistimos hoje a uma situação em que o acesso a um número crescente

de recursos digitais nas colecções de investigação só é permitido através de onerosos li-

cenciamentos de instituições ou de consórcios de instituições.

Estes acordos dizem respeito tanto aos conteúdos como aos softwares utilizados. A maior

parte dos licenciamentos é ainda muito vaga no que diz respeito à preservação de longo

prazo.

As bibliotecas têm vindo a procurar o acesso a licenciamentos especiais para poderem gerir

a preservação de longo prazo assim como permitir o acesso aos recursos preservados.

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

73

A questão dos direitos de autor no caso da preservação de recursos digitais está ainda

muito pouco esclarecida, dado que os criadores de conteúdos na maior parte das vezes

não detêm os direitos do software e dos sistemas usados para criar os ficheiros digitais.

Deste modo surgem constrangimentos legais no momento de estabelecer o acesso ou

configurar mudanças no sistema. Um repositório terá que empreender acordos com direi-

tos especiais, claramente definidos, para a gestão a longo prazo.

Na pior das hipóteses a preservação ficará comprometida porque não foram conseguidos

acordos claros.

4.1.2. As questões financeiras

O esforço financeiro é potencialmente mais elevado do que o habitualmente efectuado com

a preservação tradicional.

Os custos da preservação digital devem-se especialmente a:

Necessidade de gerir a mudança tecnológica a intervalos regulares ad infi-

nitum.

Necessidade de normalização tanto na gestão dos recursos propriamente

ditos como nos acordos de licenciamento com os criadores e editores

Necessidade de recrutamento e constante reciclagem de pessoal compe-

tente nas áreas tecnológicas em questão.

Considera-se vantajosa a existência de diálogo entre as organizações intervenientes sobre

normalização, critérios e mecanismos necessários para certificação dos repositórios de in-

formação digital e outros assuntos de ordem administrativa e financeira que tendam a me-

lhorar a gestão dos repositórios digitais e, desta forma, contribuir para a sua confiabilida-

de.

Partindo deste pressuposto, convém referir que é da responsabilidade dos repositórios digi-

tais, tentar influenciar os criadores dos conteúdos que vão ser depositados para que cum-

pram as boas práticas propostas pelo repositório desde o início da criação142. Neste senti-

do, devem ser estabelecidas linhas orientadoras que deverão ser dadas a conhecer aos cri-

adores e aos detentores da informação. Esta iniciativa só é possível de concretizar se a se-

lecção e captura dos recursos no repositório não for executada de forma automática.

142 HENDLEY, Tony (1998) – Comparison of methods and costs of digital preservation. British Library

Research and Inovation Report; 106. ISBN 0-7123-9713-2

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

74

Da mesma maneira, se legalmente for possível ao repositório receber os recursos através

de depósito legal, deve ser previamente efectuada larga campanha informativa/publicitária

junto dos criadores de conteúdos para que as linhas orientadoras sejam cumpridas.

A partir deste momento o repositório depara-se com custos relativos à gestão dos recursos

e que dizem respeito à estrutura dos dados, à documentação, ao seu armazenamento e à

sua validação. Existem muitos outros custos associados mas vamos abordar unicamente os

seguintes:

Quanto à estrutura dos dados: Os custos variam em função do formato de

criação do recurso ser proprietário ou aberto.

Quanto à documentação: O repositório deve conferir a documentação que

acompanha o recurso. Se for caso disso, deverá enriquecer essa documen-

tação que vai permitir a posterior recuperação do recursos em condições

favoráveis. A documentação diz respeito à estrutura do recurso, ao seu

conteúdo, à sua proveniência e à sua história. Se o repositório não detiver

as condições técnicas suficientes para colmatar as deficiências de docu-

mentação, deverá rejeitar os recursos. Acompanhando este raciocínio,

quando a documentação que acompanha o recurso é pobre, os custos do

repositório aumentam dramaticamente.

Quanto à validação: O repositório deve cumprir alguns procedimentos que

vão também encarecer o depósito dos recursos. Deve verificar, através do

seu visionamento, se:

o recurso está conforme com a documentação;

o recurso corre nos ambientes de hardware e software que foram

especificados

o recurso tem qualidades de consistência.

Quanto ao armazenamento: Os custos variam em função da quantidade de

recursos armazenados e da quantidade de recursos disponibilizados, e

também da forma de armazenamento e de acesso. Os cenários prováveis

vão desde o outsourcing total do armazenamento até um armazenamento

misto de off-line, processando-se o acesso aos recursos somente através

de protocolos entre os utilizadores e o repositório ou on-line e distribuídos

em tempo real na Web.

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

75

Podemos dividir os custos da preservação propriamente dita em três categorias:

Preservação do fluxo de bites através de cópias e refrescamentos

Interpretação do fluxo de bites através da preservação da documentação

Assegurar que é possível continuar a descodificar os dados no futuro de-

pois de prosseguir uma das estratégias de preservação já referidas

Os custos da gestão dos direitos cobrem todas as fases do processo incluindo a protecção

dos dados e a confidencialidade

4.1.3. A gestão do risco

Muitos dos riscos que ameaçam os recursos digitais já são conhecidos de qualquer reposi-

tório. São eles, as calamidades naturais, pragas de insectos ou micro-organismos que des-

troem os suportes digitais da mesma maneira que destroem livros e edifícios, sabotagens

de qualquer tipo, etc. Por outro lado, os suportes magnéticos ou ópticos contêm, em si

mesmos, vulnerabilidades que lhes são próprias e que podem ser objecto de medidas

profilácticas (ver ponto 3.3.2 onde nos dedicámos às características dos suportes de

armazenamento dos recursos).

Cabe a um repositório digital a implementação de um conjunto de boas práticas que per-

mita cobrir o ciclo de vida dos recursos, preservar os dados e preservar os metadados que

descrevam o ambiente da criação e evolução dos recursos.

Os metadados associados irão facilitar no futuro o acesso ao conhecimento da proveniên-

cia, do contexto e do real significado dos dados dos recursos.

Mas, é sobretudo gerir o risco das estratégias de preservação tais como migração de dados

ou emulação de hardware e software que neste momento congrega os esforços dos projec-

tos de preservação digital em curso. Por exemplo, uma folha de cálculo migrada em ASCII

recupera os valores de todas as células mas perde as fórmulas que lhes deram origem.

Para que uma emulação seja totalmente conseguida é necessário empacotar:

os dados a preservar,

o software da aplicação que gerou os dados,

o sistema operativo no qual a aplicação corre e

uma emulação do ambiente de hardware em software com abundante e

pertinente informação acerca dos atributos desse hardware.

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

76

Este complexo ambiente tenderá a falhar em muitas ocasiões.

Podemos referir o projecto CAMILEON143, mais do que uma vez já citado neste trabalho

como defensor e implementador da aplicação da emulação. De facto, seria a estratégia

perfeita para garantir que as gerações vindouras pudessem usufruir do acesso às criações

de hoje com respeito pela autenticidade. Infelizmente o risco de perda é muito elevado e

para o gerir é necessário o envolvimento de muitas variáveis, das quais citámos apenas

algumas.

Também o risco envolvido no processo da migração de dados pode estar associado aos se-

guintes factores:

à própria gestão de colecções no âmbito do repositório

ao formato dos dados

ao software de conversão dos dados

O software de conversão pode ser mais ou menos provido de ferramentas de reparabilida-

de que garantam a configuração do fluxo de bytes.

Apresentamos a título de exemplo de Lawrence et al., 2000144, um quadro do risco associ-

ado a migrações de ficheiros de imagem

TIPO DE RISCO EXEMPLOS

Reparabilidade (configuração dos bites, incluindo o fluxo de bites, a sua forma e estrutura)

Os bites podem ser corrompidos por bugs do software ou mau manusea-mento dos suportes, ou por falhas mecânicas dos equipamentos

O formato dos dados é acompanhado por nova compressão que altera a configuração dos bites

A informação dos cabeçalhos não mi-gra ou migra parcialmente ou incor-rectamente

A qualidade da imagem é afectada por alterações na configuração dos bites

O novo formato dos ficheiros altera a ordem dos bytes

Segurança A migração afecta as marcas de

143 http://www.si.umich.edu/CAMILEON/ 144 LAWRENCE, Gregory W. et al. (2000) Risk management of digital information : a file format inves-

tigation. CLIR

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

77

água, os selos, ou outras técnicas de autenticação e reparabilidade

Contexto e integridade Relação entre a interacção com ou-tros ficheiros relacionados ou outros elementos no ambiente digital inclu-indo dependências de hardware ou software

O novo ficheiro tem uma nova confi-guração devido às dependências de hardware e software

As ligações a outros ficheiros são al-teradas durante a migração

O novo formato do ficheiro reduz as dimensões do novo ficheiro e causa uma condensação do armazenamento potencialmente causador da alteração da estrutura dos directórios

Os suportes de armazenamento tor-nam-se mais densos o que afecta as etiquetas e a estrutura dos ficheiros

Referência Habilidade para localizar imagens de-finitivamente e de forma confiável ao longo do tempo entre outros recursos

A alteração das extensões dos fichei-ros e o seu efeito nos URLs.

A carência de metadados sobre a ac-tividade da migração causa proble-mas numa futura migração

Custos Imprevisíveis, visto que se desconhe-ce quantas vezes será necessário mi-grar

Pessoal Pessoal pouco especializado

A Imprevisibilidade no número de ve-zes que vai ser necessário migrar torna impossível detectar que recur-sos humanos vão ser necessários

Funcionalidades Características novas introduzidas du-rante a migração podem influenciar a impressão ou outros derivados

Pode ser necessário alterar os inter-faces. P. ex.: estático vs. resolução múltipla ou incapacidade de resposta da Web ao novo formato

Características únicas que não são suportadas por outros formatos de fi-cheiros podem-se perder durante a migração. É o caso do formato GIF.

O valor de artefacto (em contexto de criação) pode-se perder devido a al-terações durante a migração

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

78

Aspectos legais O copyright pode limitar o uso de no-vos derivados criados no novo forma-to

4.1.4. As garantias de acesso continuado aos recursos digitais

Um repositório digital confiável carece de um enquadramento de políticas e procedimentos

largamente testados e bem documentados.

No que diz respeito a repositórios partilhados, isto significa efectivamente articular respon-

sabilidades entre os membros do consórcio.

No caso de repositórios de investigação, a estratégia de preservação deve espelhar a

estratégia de informação como um todo. Mas, acima de tudo, uma política para a

preservação de recursos digitais deve acompanhar a política de preservação de recursos

não digitais que exista na instituição.

Cada recurso digital não deve ser considerado individualmente na altura do depósito. Deve

prevalecer uma atitude baseada nos princípios da gestão de colecções, sendo os procedi-

mentos conduzidos automaticamente.

Estes comportamentos vão ter reflexo na actividade de fornecimento de acesso pois dispo-

nibilizar a informação preservada a uma designada comunidade é da total responsabilidade

do repositório digital. O acesso pode ser facilitado se as suas implicações forem compreen-

didas pela gestão do repositório em si mesmo. O acesso imediato a cada recurso requer

medidas diferentes, tais como p. ex. o estabelecimento de licenciamentos, etc. Devido a

este tipo de constrangimentos, são requeridas medidas de gestão variadas no seio do re-

positório apoiadas na gestão de colecções.

Da mesma maneira, se os recursos só são acessíveis num formato particular a um grupo

específico de utilizadores durante um período determinado, é necessário encontrar e esta-

belecer mecanismos adequados que entrem em acção no momento preciso.

Os acordos de acesso mudam consoante as mudanças de licenças, leis e por vezes tam-

bém devido a constrangimentos relacionados com as tecnologias e os próprios recursos. É

responsabilidade de um repositório assegurar tanto quanto possível que as decisões acerca

das políticas de acesso não limitam acções futuras que comprometam a sua confiabilidade

no que diz respeito a:

Descoberta de recursos: Os utilizadores dos repositórios necessitam des-

cobrir os recursos. Muitas bibliotecas e arquivos fornecem acesso através

dos próprios catálogos. Na prática, muitos dos recursos, chegam ao repo-

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

79

sitório com metadados descritivos associados em MARC ou DC, umas ve-

zes acompanhando o recurso, outras disponibilizando informação existente

noutro sistema.

Autenticidade: Os recursos digitais têm uma evidência menos acentuada

de autoria, proveniência ou mesmo contexto do que os recursos tradicio-

nais existentes nas bibliotecas e arquivos. É necessário proceder a verifi-

cações em todos os níveis funcionais do repositório digital. Por este moti-

vo, no acto de submissão a depósito, devem ser accionados mecanismos

de autenticação que garantam que o que é admitido está conforme o que

foi depositado e manterá essas características. Os recursos armazenados

devem ser sujeitos a controlo de integridade que garanta que as fluxos de

bytes se mantêm inalteradas assim como as versões migradas devem ser

verificadas e os emuladores testados. Finalmente, a informação fornecida

ao utilizador – a cópia do fluxo de bytes, os metadados associados e o

software necessário, em conjunto requerem verificação.

Legalizações: As restrições legais, licenças e legislação, governam o acesso

aos recursos e mudam ao longo do tempo. Por este motivo os repositórios

digitais requerem uma infraestrutura que lide com vários tipos de acordos

para diferentes tipos de utilizadores.

Preços: Os repositórios que gerem o acesso com uma estrutura de taxas a

aplicar aos utilizadores requerem mecanismos de comércio electrónico.

Apoio aos utilizadores: Em grande medida, a maior ou menor dificuldade

de acesso é determinada pela base de conhecimento ou competência téc-

nica das comunidades de utilizadores.

Relatório de acessos: A manutenção de um histórico de acesso é aconse-

lhável como parte das atribuições administrativas do repositório.

O preenchimento dos requisitos para responder às responsabilidades que acabámos de

desenvolver requer :

Um sistema de descoberta de recursos

Mecanismos apropriados para autenticação dos recursos digitais

Mecanismos de controlo de acesso, de acordo com licenças e legislação

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

80

Mecanismos de gestão de comércio electrónico

Programas de apoio a utilizadores

Em conjunto com as medidas que acabámos de expor é absolutamente necessário que se-

jam seguidas boas práticas na fase de criação de recursos digitais.

Se os repositórios digitais aconselharem o uso de normas para a criação de recursos digi-

tais reduzirão os custos e conseguirão óptimas economias de escala, ao mesmo tempo que

asseguram a criação de recursos digitais ricos e capazes de ser preservados a longo prazo.

Um repositório digital confiável é mais do que uma organização responsável por armazenar

e gerir ficheiros digitais, é aquele cuja missão visa assegurar o acesso confiável de recur-

sos digitais a uma designada comunidade, agora e no futuro. Assim, é indispensável que

assuntos como autenticação, uso de identificadores persistentes e metadados sejam cor-

rectamente equacionados para assegurar a viabilidade das colecções digitais.

4.1.5. O Modelo de referência OAIS

No sentido da aplicação dos princípios defendidos pelo grupo de trabalho da OCLC,

RLG/OCLC atrás referidos145, foi criado o modelo de referência OAIS (Open Archival Infor-

mation System Reference Model)146, desenvolvido pelo Consultative Committee for Space

Data Systems (CCSDS)147 no âmbito da NASA. Este modelo, é uma norma ISO com o nº

14721:2002148 que descreve um enquadramento conceptual para um repositório digital

genérico, aberto a todas as comunidades com as garantias de confiabilidade que atrás re-

ferimos. Da norma consta também um léxico próprio que viabiliza a comunicação entre as

comunidades e os repositórios.

Um OAIS opera num ambiente constituído pela interacção de produtores, utilizadores, ges-

tão e o repositório em si mesmo.

Toda a informação submetida a um OAIS por um produtor e toda a difusão estabelecida a

partir do OAIS a um utilizador ocorre numa ou mais sessões discretas através de pacotes

de informação.

Um pacote de informação é um envelope conceptual onde estão encapsulados informação

de conteúdo (recurso digital e metadados de representação) e metadados de preservação.

145 OCLC/RLG Working Group on preservation metadata (2001) – Op. cit. 146 OCLC/RLG Working Group on preservation metadata (2002) – Preservation metadata and the

OAIS Information Model : a metadata framework to support the preservation of digital objects: a report

147 CONSULTATIVE COMMITTEE FOR SPACE DATA SYSTEMS (2002) – Reference Model for an Open archive Information System (OAIS), Blue Book

148 http://ssdoo.gsfc.nasa.gov/nost/isoas/ref_model.html

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

81

Fig. 4. - O OAIS e o seu ambiente149

Em resultado de trabalho desenvolvido na comunidade OAIS para definir as obrigações de

um repositório OAIS surgiu o seguinte conjunto de propostas organizativas e estratégi-

cas150:

Negociar a informação a fornecer pelos produtores e detentores de direitos

Obter controlo suficiente de forma a garantir a preservação a longo prazo.

Determinar, por si próprios ou através de parcerias quais os utilizadores de

uma dada comunidade que estarão em condições de compreender a in-

formação disponibilizada.

Assegurar que a informação a preservar é compreensível por si só na co-

munidade designada, ou seja, que a comunidade compreenderá a infor-

mação sem a necessidade de recorrer à assistência de terceiros.

Seguir políticas e procedimentos documentados que assegurem que a in-

formação é preservada contra quaisquer contingências e assegurar a dis-

149 OCLC/RLG Working Group on preservation metadata (2001) – Op. cit. 150 RLG-OCLC (2002) - Trusted digital repositories : attributes and responsabilities, Mountain

View:Research Libraries Group

Gestão dos dados

Ingestão Repositório Acesso

Administração

Produtor Utilizador

Gestão

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

82

seminação da informação com cópias autênticas a partir do original ou si-

milares ao original.

Assegurar que a informação preservada está disponível para a comunidade

designada.

Trabalhar em conjunto com a comunidade do repositório para conseguir a

utilização de boas práticas na criação dos recursos digitais.

Verificar a qualidade dos metadados: quaisquer metadados que acompa-

nhem o recurso quando este é submetido ao repositório devem ser verifi-

cados e, se necessário, melhorados para suportar a manutenção de longo

prazo ao mesmo tempo que o acesso continuado

Estabelecer identificadores únicos e persistentes para os recursos.

Igualmente importante é a existência de sistema com capacidade para resolução de links

por forma a encontrar inequivocamente um determinado recurso.

O enquadramento OAIS também inclui um modelo chamado de informação onde são des-

critos os requisitos de metadados de preservação de longo prazo.

Podemos considerar o modelo OAIS um enquadramento de metadados de aplicação gené-

rica a partir do momento em que este se encontra inserido numa estrutura de repositório

digital que é independente do recurso digital e da tecnologia usada para o processo de pre-

servação.

Neste contexto recurso digital e metadados mantêm-se separados mesmo que embutidos.

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

83

Fig. 5 - Modelo de informação OAIS151

Num repositório OAIS, a informação pode existir de duas formas como representamos na

figura 5 :

1) como artefacto (representação de documento em papel, amostra de terra,

etc).

2) ou como objecto digital (formato PDF, formato TIFF, etc.)

Ambos os tipos, físico e digital, são definidos no ambiente OAIS como objectos-dados.

Os conteúdos dos objectos-dados podem assumir múltiplas formas : as mais óbvias são as

dos recursos a preservar, tais como um jornal electrónico num formato TIFF. Um objecto-

dados pode também ter a ele associado, p. ex., um registo de metadados DC i.e., se a es-

tratégia de preservação implementada obrigar ao encapsulamento dos metadados.

151 OCLC/RLG Working Group on Preservation Metadata (2001) – Op. cit.

Conteúdo da

informação

Descrição da

Informação

para Preserva-

ção

Empacotamento da

informação

Descrição da

informação

Objecto de informação

Base de Conheci-

mento

Objecto-dados Representação da

Informação

Objecto digital OU Objecto Físico

Depósito

Submissão

Difusão

Pacote de

Informação

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

84

É de realçar que os objectos e os seus metadados são, pelo menos do ponto de vista lógi-

co, objectos separados, mesmo que os metadados estejam inseridos no objecto, o que

pode ser o caso num documento HTML.

A interpretação do objecto pode ser conseguida através da combinação da base de conhe-

cimento dos utilizadores e da representação da informação associando-os ao objecto.

Cada indivíduo ou grupo de indivíduos tem a sua base de conhecimento que é usada para

compreender e interpretar os dados. P. ex. a comunidade dos cidadãos da língua inglesa

deve ter uma base de conhecimento que permita ler em inglês; a comunidade de progra-

madores de Java deve ter uma base de conhecimento na forma de código de Java. A base

de conhecimento é externa ao arquivo, e não é mantida, nem desenvolvida como parte de

qualquer função do arquivo.

A base de conhecimento nem sempre é suficiente para compreender inteiramente o objec-

to-dados. Neste caso o objecto deve estar representado por uma componente chamada

representação da informação, de forma a ser possível a compreensão total dos utilizado-

res.

Num nível muito baixo a representação da informação está contida um fluxo de bits. A re-

presentação da informação indica se um fluxo de bits representa um parágrafo de texto,

um ficheiro de som, uma imagem, etc. Contudo o conhecimento do formato do ficheiro

descrito no fluxo de bits pode não ser suficiente para interpretar o seu conteúdo.

P.ex.: um objecto-dados na forma de um ficheiro ASCII:

04 27 56 01 16 44 02 01 17

A informação ASCII não é suficiente para interpretar o conteúdo do objecto sendo necessá-

ria informação complementar.

Outro exemplo de representação da informação pode envolver um objecto-dados que con-

siste no seguinte :

<?xml:namespace ns = http://www.w3.org/RDF/RDF/prefix =”RDF”?> <?xml:namespace ns = http://purl.oclc.org/DC/”prefix = “DC”?> <RDF:RDF> <RDF:Description RDF:HREF = http://uri-of-Document-1> <DC:Creator>John Smith<DC/CD:Creator> </RDF:Description> <RDF:RDF>

pode ser uma data mas também pode ser outra informação

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

85

Neste exemplo a representação da informação está identificada como metadados que des-

crevem um documento criado por John Smith e que inclui esquemas para XML , RDF e DC

para que os elementos de metadados e a sua sintaxe seja interpretada de forma correcta.

A representação da informação pode assumir duas formas:

1) informação estrutural

2) informação semântica.

A informação estrutural interpreta os bits organizando-nos por tipos de dados, grupos de

tipos de dados e outros significados de alto nível. Esta deve incluir especificação do forma-

to dos dados e uma possível descrição do ambiente de hardware/software em que os da-

dos foram criados e que se torna necessária para o acesso posterior.

A informação semântica, por outro lado, acrescenta significado à estrutura dos dados,

identificada através da informação estrutural. P. ex. a informação estrutural pode identifi-

car um fluxo de caracteres de texto ASCII enquanto a informação semântica pode indicar

que esse texto se encontra escrito em língua inglesa.

No ambiente do modelo OAIS a representação da informação encontra-se ela própria em

formato digital e por esse motivo deve acrescentar-se informação adicional para interpre-

tar o fluxo de bits da representação da informação, é por este motivo, necessária a exis-

tência de uma terceira camada de representação da informação, etc.

O modelo de referência OAIS recomenda que o resultado da rede de representação termi-

ne com a elaboração de um documento físico que dê por finda a construção da rede e dê

início ao processo de interpretação.

Um objecto de informação é definido como um objecto-dados combinado com a represen-

tação da informação. Num ambiente digital isto implica uma sequência de bits, combinada

com todos os dados necessários a torná-la compreensível. Existem quatro classes de ob-

jectos informacionais que, em conjunto, formam um pacote de informação:

Informação acerca do conteúdo

Informação descritiva para preservação

Informação para empacotamento

Informação descritiva

Os pacotes de informação podem ser de três tipos (vide Fig. 5):

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

86

SIP (Submission information package) - Pacote de informação para sub-

missão é enviado do produtor da informação para o depósito.

AIP (Archive information package) - Pacote de informação para depósito -

preparado para ser armazenado pelo depósito.

DIP (Dissemination information package) - Pacote de informação para dis-

seminação - enviado ao utilizador em resposta e uma pesquisa já em con-

texto de acesso.

Num contexto de preservação de metadados, a informação relevante encontra-se no pa-

cote AIP, dado que este é o pacote para preservação de longo prazo.

Um AIP é uma agregação de quatro tipos de objectos informacionais:

1) CI (Content information) - Informação acerca do conteúdo que consiste

na informação que o arquivo tem a obrigação de preservar em conjunto

com a informação de representação.

2) PDI (Preservation description information) - Informação descritiva para

a preservação a qual contém informação necessária para gerir a preserva-

ção da informação sobre o conteúdo, com que está associada. Esta infor-

mação divide-se em quatro tipos :

Informação acerca da referência – enumera e descreve os identificado-

res destinados à informação sobre o conteúdo de tal maneira que se

tornem inequívocos, interna e externamente ao depósito (p. ex : ISBN,

URN)

Informação acerca da proveniência - documenta a história da informa-

ção sobre o conteúdo (p. ex. origem, histórico de custódia, acções e

efeitos da preservação)

Informação acerca do contexto - documenta as relações entre a infor-

mação sobre o conteúdo e o seu ambiente (p. ex. razões pelas quais foi

criado, relações com outras informações de conteúdo, etc.)

Informação acerca da reparabilidade : documenta mecanismos de

reparabilidade e autenticação usados para assegurar que o conteúdo da

informação não foi alterado de forma não documentada (p. ex. che-

cksums ou assinaturas digitais)

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

87

3) PI (package information) - Informação para empacotamento que envol-

ve o objecto digital e os metadados associados numa unidade ou pacote.

4) (DI) Descriptive information - Informação descritiva que facilita o aces-

so à informação sobre o conteúdo através das ferramentas de pesquisa e

recuperação. A informação descritiva serve de input das ajudas à localiza-

ção de depósitos e deriva tipicamente da informação sobre o conteúdo ou

da informação descritiva para preservação.

O modelo OAIS representa uma descrição de alto nível dos tipos de informação gerados e

geridos num contexto global de sistema de depósito digital. Não transmite pressupostos

acerca do tipo de recursos digitais manuseados no depósito nem acerca das especificações

tecnológicas empregadas pelo depósito para atingir os seus objectivos de preservação e

acesso de longo prazo.

Deste modo o modelo fornece uma estrutura útil de desenvolvimento de metadados para a

preservação que vai ao encontro dos requisitos necessários a uma actividade de preserva-

ção digital alargada.

O modelo de referência OAIS é, neste momento, a base de trabalho das instituições de

maior renome internacional na área da preservação digital, através dos projectos NEDLIB,

CEDARS, PANDORA e OCLC/RLG. Estes projectos vão ser objecto de referência detalhada

no ponto seguinte.

Apresentamos em seguida um modelo de um pacote de Informação OAIS152

MODELO - Pacote de Informação para Arquivo

Informação sobre o conteúdo

Objecto-dados

Informação sobre a representação • Informação sobre a estrutura • Informação sobre a semântica

Informação descritiva para a preservação

Informação sobre a referência • Objecto-dados • Informação sobre a representação

• Informação sobre a estrutura • Informação sobre a semântica

Informação sobre o contexto • Objecto-dados • Informação sobre a representação

152 OCLC/RLG (2001) – Op. cit.

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

88

• Informação sobre a estrutura • Informação sobre a semântica

Informação sobre a proveniência da Informação • Objecto-dados • Informação sobre a representação

• Informação sobre a estrutura • Informação sobre a semântica

Informação de autenticação • Objecto-dados • Informação sobre a representação

• Informação sobre a estrutura • Informação sobre a semântica

Informação sobre os pacotes de informação

Objecto-dados

Informação sobre a representação • Informação sobre a estrutura • Informação sobre a semântica

Informação descritiva

Objecto-dados

Informação sobre a representação • Informação sobre a estrutura • Informação sobre a semântica

4.2. AS GRANDES OPÇÕES DE PRESERVAÇÃO

Devido à importância e urgência cada vez maiores atribuídas à preservação de conteúdos

da Internet a longo prazo, estão em curso inúmeros projectos que se debruçam sobre este

assunto. Neste sub-capítulo vamos estudar aqueles que consideramos tecnologicamente

mais avançados e de maior relevância a nível internacional.

4.2.1. Internet Archive153

O Internet Archive é o projecto mais vultuoso e ambicioso na área da preservação digital

de longo prazo. É uma iniciativa americana que consiste em coleccionar e arquivar páginas

Web, na perspectiva de guardar todos os conteúdos relevantes e está sediado no Presídio

de São Francisco. Teve início em 1996 com o objectivo de construir uma biblioteca digital

que pudesse oferecer acesso a conteúdos históricos para um público de investigadores,

historiadores e académicos. Em Março de 2001, a colecção do Internet Archive de páginas

153 http://www.archive.org/

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

89

Web estava compreendida em mais de 43 terabytes (Rauber & Ascenbrenner, 2001)154,

em Janeiro de 2002 já era de mais de 100 (Koman, 2002)155.

Os recursos digitais são encaminhados para o Internet Archive através de terceiros. O mai-

or contribuinte é o motor de busca Alexa Internet. O robot do Alexa Internet captura mais

de 100 gigabytes por dia em toda a Internet. Não existe nenhum tipo de selecção de re-

cursos e não existe violação de direitos uma vez que todos os recursos capturados estão

no domínio público.

Para garantir a preservação de longo prazo são tomados três tipos de acções :

1) manutenção de cópias em diversos locais geográficos

2) migração dos dados para novos suportes regularmente e

3) constituição de uma colecção de emuladores para usar no futuro

Em entrevista dada por Brewster Kale à RLG Diginews (2002)156, este refere que os inter-

valos de tempo das viagens dos crawlers a todo o espaço da Internet é de dois em dois

meses, mas também existe a busca semanal ou mesmo diária de colecções consideradas

importantes.

As orientações seguidas pelo Internet Archive em matéria de aplicação de modelo para a

gestão da preservação são as do RLG/OCLC157, logo, vamos encontrar o modelo de refe-

rência OAIS, ao qual já referimos detalhadamente no ponto 4.1.5.

4.2.2. NEDLIB - Networked European Deposit Library158

O projecto NEDLIB, em curso de 1998 a 2000 foi apoiado pela União Europeia no âmbito

de proposta submetida pelo grupo de bibliotecas nacionais europeias designado por COBRA

(Computorized Bibliographic Record Actions)159. No projecto estiveram envolvidas oito bi-

bliotecas nacionais, um arquivo nacional, duas empresas na área das tecnologias de infor-

mação e três grandes editoras. A Comissão Europeia patrocinou o projecto através do pro-

grama “Telematics for Library Programme of the European Comission” e a coordenação

pertenceu à Biblioteca Nacional da Holanda.

154 RAUBER, Andreas & ASCHENBRENNER, Andreas (2001) - Part of our culture is born digital : on

efforts to preserve it for future generations. Trans-Internet-Zeitschrift für Kulturwissenschaften. 10

155 Koman, Richard (2002) – How the wayback machine works. The O´Reilly Network. 156 KALE, Brewster (2002) – Op. cit. 157 OCLC/RLG Working Group on Preservation Metadata (2002) – Preservation metadata and the

OAIS information model : a metadata framework to support the preservation of digital objects. OCLC

158 http://www.kb.nl/nedlib

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

90

O principal objectivo deste projecto foi a construção de uma infraestrutura básica de apoio

a uma rede europeia de depósito de recursos digitais para preservação de longo prazo

(Deposit System Electronic Publications - DSEP).

O projecto NEDLIB baseia-se no modelo de referência OAIS e o propósito consistiu na iden-

tificação de requisitos funcionais, comuns a todas as bibliotecas de depósito por forma a

chegar a um consenso quanto à construção de um DSEP que servisse de base para imple-

mentações locais. Outros dois objectivos nortearam o projecto, um foi a extensão do depó-

sito à preservação de longo prazo e o outro resultou na construção de um sistema de de-

monstração que cobre todas as funcionalidades do DSEP (Werf-Davelaar, 1999)160.

Um DSEP interage como os sistemas das bibliotecas através de dois interfaces (Fig. 6):

1) Interface de envio e captura

Este interface tem como funcionalidade ajudar na fase de pré-ingestão, orientando os de-

positantes no sentido de serem cumpridas boas práticas sem as quais os recursos não têm

autorização de entrar no depósito.

2) Interface de empacotamento e envio

Neste caso o DSEP pode requerer e aceitar um DIP (Pacote de disseminação da informa-

ção) a partir do módulo de acesso. O DIP consiste na publicação requisitada num dos for-

matos disponíveis, com software acompanhante e respectivos metadados necessários para

instalação e acesso, no sentido da reconstrução do documento original com toda a autenti-

cidade.

O DSEP consiste de seis módulos, cinco são módulos OAIS, acrescidos de um outro para

preservação pois as estratégias de preservação não são contempladas no modelo de refe-

rência OAIS, como já foi referido.

Os módulos são : Ingestão, Armazenamento, Gestão de dados, Acesso, Administração e

Preservação. Apresenta-se de seguida o Modelo Processual.

159 http://www.kb.nl/gabriel/cobra 160 WERF-DAVELAAR, Titia van der (1999) – Long-term preservation of electronic publications : the

NEDLIB project. D-Lib Magazine, 5 (9)

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

91

Fig. 6 – Modelo DSEP (adaptado de WERF-DAVELAAR, Titia van der (1999) op. cit.)

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

92

4.2.3. CEDARS (CURL Exemplars in Digital Archives)161

O projecto CEDARS desenvolve-se no Reino Unido, patrocinado pelo JISC (Joint Informati-

on System Committee)162 através do programa “eLib – The electronic libraries pro-

gramme”163 sob proposta do consórcio de bibliotecas universitárias CURL (Consortium of

University Research Libraries)164, que entendeu inscrever a preservação digital como uma

das suas missões. O projecto teve início em 1998 com a duração de 3 anos.

O projecto CEDARS manifesta como seus objectivos:

Promover a consciencialização da importância da preservação digital no

ambiente das bibliotecas de investigação e académicas e também junto

dos seus utilizadores.

Identificar, documentar e divulgar plataformas estratégicas de gestão de

colecções no sentido da preservação de longo prazo dos recursos digitais

nelas incluídos.

Investigar, documentar e promover métodos apropriados à preservação de

longo prazo para diferentes tipos de recursos digitais existentes nas colec-

ções das bibliotecas e ao mesmo tempo desenvolver modelos devidamente

escalonáveis.

O projecto CEDARS coloca fora do seu âmbito os recursos digitais que tenham a forma de

som ou vídeo e elege como tipos de recursos a preservar :

Recursos digitais fruto de digitalização

Conjuntos de dados

Publicações electrónicas

Bases de dados em linha

Recursos efémeros – pré-impressões, páginas Web, etc.

Recursos digitais onde o conteúdo intelectual se limita a estrutura, forma e

comportamento

161 http://www.leeds.ac.uk/cedars/ 162 http://www.jisc.ac.uk/ 163 http://www.ukoln.ac.uk/services/elib/ 164 http://www.curl.ac.uk/

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

93

Metadados

Um dos produtos resultantes do projecto diz respeito à aplicação do modelo de referência

de metadados OAIS à realidade CEDARS. Apresentamos em seguida a estrutura dos requi-

sitos de metadados para um pacote de informação165.

Pacote de informação

Informação descritiva para preservação

Informação sobre a referência

Descrição do recurso

Metadados existentes

Registos existentes

Informação sobre o contexto

Informação sobre outros objectos informacionais

Informação sobre a proveniência

História da origem

Informação sobre a gestão

Gestão de direitos

Informação sobre a autenticidade

Indicadores de autenticação

Informação sobre o conteúdo

Informação sobre a representação

Objecto-dados

O conjunto de metadados está obrigado a apoiar de forma significativa o acesso aos con-

teúdos do depósito e inclui metadados descritivos, administrativos, técnicos e legais. Os

metadados são aplicados a um leque alargado de objectos digitais na expectativa de que

uma biblioteca digital contenha colecções de variados formatos. Da mesma forma as espe-

cificações devem ser independentes do nível de granularidade aos quais os metadados es-

tão associados.

165 CEDARS Guide to Preservation Metadata (2002)

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

94

Incluímos em seguida a Figura 7, relativa à função de gestão dos dados num ambiente

OAIS, neste caso implementado pelo CEDARS e baseados em Russell & Sergeant, 1999166

Fig. 7. – Ambiente de um depósito CEDARS baseado no OAIS167

4.2.4. PANDORA (Preserving and Accessing Networked Documentary Re-

sources of Australia)168

O Projecto PANDORA desenvolveu-se como iniciativa da Biblioteca Nacional da Austrália169

com a missão de preservar e fornecer acesso a recursos digitais da Internet a longo prazo.

O projecto PANDORA iniciou-se em 1996 tendo como objectivos170 :

Identificar os requisitos funcionais para a gestão de um sistema de

preservação

Identificar, testar e avaliar técnicas, normas e produtos envolvidos no pro-

cesso de preservação incluindo a captura, a catalogação e o depósito

Estimar quais os recursos financeiros, de equipamento e pessoal necessá-

rios

166 RUSSELL, Kelly & SERGEANT, D. M. (1999) – The Cedars Project : implementing a model for dis-

tributed digital archives. RLG DigiNews, 3 (3) 167 RUSSELL, Kelly & SERGEANT, D. M. (1999) – Op. cit. 168 http://pandora.nla.gov.au/index.html/ 169 http://www.nla.gov.au/

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

95

Desenvolver recomendações e estratégias para a preservação de longo

prazo e acesso, incluindo considerações acerca de refrescamentos, migra-

ções, etc.

Desenvolver uma proposta de âmbito nacional para a preservação digital

de longo prazo

A proposta da Biblioteca Nacional da Austrália através do projecto PANDORA não explicita

em detalhe uma estrutura de contexto para o conjunto de metadados, no entanto, sugere-

nos que o conjunto de metadados foi inspirado pelo modelo OAIS.

A prioridade da Biblioteca Nacional da Austrália é tornar pesquisáveis os recursos que fo-

ram seleccionados para integrar o repositório PANDORA. Deverá ser possível aos utilizado-

res satisfazer uma pesquisa através do título e explorar o sítio e as ligações disponíveis. O

acesso é unicamente possível através de metadados dos títulos.

No momento em que um recurso é depositado, são acrescentados metadados sobre o

mesmo. O recurso sofre algumas alterações dado que é alvo duma operação de “limpeza”,

i.e., são desactivadas funções de caracter administrativo, removem-se conteúdos duplica-

dos, apagam-se partes estranhas e desactivam-se os links. É absolutamente necessário

registar todas as alterações, com vista a assegurar que a história da mudança e da prove-

niência possa ser totalmente traçada.

O acesso do utilizador final aos recursos do repositório PANDORA pode ser conseguido,

sempre que possível, sem restrições e de forma gratuita. Poderá haver lugar a algumas

restrições de acesso caso surjam interesses comerciais ou outros que inviabilizem a consul-

ta durante um certo período de tempo.

4.2.5. OCLC/RLG Working Group on Preservation Metadata171

O OCLC/RLG (Online Computer Library Center/ Research Libraries Group), consórcio de

mais de 160 instituições americanas, constituiu-se em Março de 2000 com o objectivo de

colaborar na identificação das melhores práticas para a preservação de recursos digitais a

longo prazo e desenvolver uma estrutura de metadados de aplicação alargada. É pioneiro

no desenvolvimento de soluções cooperativas para os problemas da gestão de colecções,

tais como aquisição, fornecimento e preservação de informação

Este grupo de trabalho recomenda um conjunto de 16 elementos que considerava essenci-

ais para a preservação de ficheiros originais ao longo do tempo172. Estes elementos enqua-

171 http://www.oclc.org/research/pmwg/ 172 OCLC/RLG Working Group on Preservation Metadata (2001) – Op. cit.

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

96

dram-se nas três categorias de metadados já mencionadas : descritivos, administrativos e

estruturais.

Apesar das três categorias estarem cobertas, o foco principal encontra-se nos metadados

administrativos. Por exemplo, as estratégias de preservação tais como a migração, alteram

por vezes a integridade dos bits do objecto arquivado. Estas alterações devem estar docu-

mentadas na “História da mudança”. O facto da integridade dos bits de um objecto digital

ser maleável neste sentido, sugere a necessidade da validação de que esse objecto não foi

corrompido, ou propositadamente ou intencionalmente alterado durante o ciclo da preser-

vação. Um algoritmo para validação automática ou uma assinatura digital registada no

elemento “Chave de validação” satisfaria esta necessidade. Para confirmar a autenticidade

do objecto poderiam ser comparadas as alterações da chave de validação com mudanças

do documento, através da integridade dos bits do objecto registados no elemento “História

da mudança”. Ambos os elementos “História da mudança” e “Chave de validação” cabem

na categoria de metadados administrativos.

Neste exemplo, os metadados de preservação servem a função administrativa, uma vez

que falamos de gestão de depósito do objecto. Os metadados de preservação também po-

dem servir a função estrutural ao detalhar as relações entre diferentes objectos que resi-

dem num repositório digital. Por exemplo, vários objectos depositados podem colectiva-

mente representar um único objecto complexo. Os metadados servem para colocar os ob-

jectos em sintonia. Alternativamente os metadados podem estabelecer ligações entre dife-

rentes versões de um objecto depositado, diferente apenas no formato do ficheiro. Como

um objecto se movimenta em diferentes fases de migração, novas versões do objecto são

produzidas. Os metadados estabelecem a união numa única cadeia lógica.

No que diz respeito aos metadados descritivos, estes estão preferencialmente destinados à

fase do acesso de modo a permitirem a descoberta do recurso como resposta a uma con-

sulta.

Um enquadramento desta natureza, levado a cabo pelo OCLC/RLG deve representar, a um

nível bastante alargado, as necessidades dos tipos de metadados que atribuem consistên-

cia a uma actividade de preservação digital.

Da mesma maneira que os projectos anteriores também o OCLC/RLG pretende aplicar o

modelo de referência OAIS com objectivos reguladores na comunidade que representa e

que são :

a) Fornecer às instituições que pretendam iniciar actividades de preserva-

ção digital um padrão para os requisitos de metadados que assegure que

os recursos digitais são preservados a longo prazo.

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

97

b) Facilitar o consenso numa estrutura de metadados que contribui para a

interoperabilidade entre os repositórios de recursos digitais, facilita a cor-

respondência entre metadados e abre caminho à partilha de recursos.

c) Propor uma estrutura comum que facilitaria a inclusão de informação de

produtores e de outras entidades externas ao repositório, no início do pro-

cesso de criação dos metadados.

4.2.6. FEDORA (Flexible Extensible Digital Object and Repository

Architecture)173

O projecto FEDORA tem sede na biblioteca da Universidade da Virgínia nos Estados Unidos

da América e é desenvolvido no âmbito de uma parceria com a Universidade de Cornell. É

subsidiado pela Andrew W. Mellon Foundation.

O projecto FEDORA não se desenvolveu com base no modelo de referência OAIS e preten-

de ter ao mesmo tempo uma aplicação genérica e específica.

A linguagem utilizada é a WSDL (Web Services Description Language). Esta é uma lingua-

gem XML, desenvolvida no âmbito do W3C que descreve serviços Web baseados em mode-

los abstractos174,175.

As funcionalidades do sistema baseiam-se em duas entidades, uma que diz respeito à ar-

quitectura dos objectos digitais, que comportam dados, metadados e ambiente e a outra

ao repositório propriamente dito.

O ambiente é representado através de ligações distribuídas por serviços Web através da

linguagem WSDL e implementados via HTTP GET/POST ou SOAP (Simple Object Access

Protocol).

Os objectos digitais são codificados e armazenados em XML, utilizando o formato METS.

O repositório gere a longo prazo os recursos digitais, os metadados, as aplicações informá-

ticas e os serviços e ferramentas que os apoiam. Pretende ser um fornecedor OAI (Open

Access Initiative).

A arquitectura dos objectos digitais é composta por vários componentes :

- 1 identificador persistente

173 http://www.fedora.info 174 W3C Publishes Working Drafts for Web Services Description Language (WSDL) 1.2. (2002) Cover

pages, Julho 175 Web Services Description Language (WSDL) Version 1.2 (2002): Bindings. W3C Working Group

Draft Julho

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

98

- Disseminadores que permitem o acesso ao conteúdo do objecto

- Metadados necessários à gestão do objecto ao longo do tempo

- Fluxos de dados que compõem a base do conteúdo do objecto

A linguagem XML que codifica os objectos digitais é usada através duma extensão do

formato METS (vide 3.7.2).

Este formato foi adoptado pois tem potencialidades que aos olhos do projecto FEDORA

se adequam aos seus objectivos e que são :

- A utilização da linguagem XML

- Ser um formato aberto

- Seguir a norma mantida pelo Network Development and MARC Standards Office da

Biblioteca do Congresso176 desenvolvida como uma iniciativa da DLF177 (Digital Li-

brary Federation)

- Deter todas as funcionalidades necessárias ao projecto

4.3. A MOTIVAÇÃO PARA A UTILIZAÇÂO DO MODELO DE REFERÊNCIA OAIS

4.3.1. Os interesses das potenciais comunidades utilizadoras

No ponto anterior indicámos as principais opções de preservação digital a nível mundial

enquadrando-as nas diferentes missões e objectivos das instituições que chamaram a si

essa responsabilidade.

A implementação do modelo de referência OAIS parece ser uma constante, embora na co-

munidade NEDLIB não tenha sido explicitamente referenciada a sua implementação, se nos

reportarmos ao relatório de Lupovici & Masanés, 2000178.

Da aplicação do modelo OAIS resultam conjuntos de boas práticas que são indispensáveis

para a preservação a longo prazo.

Neste ponto vamos abordar a construção do pacote AIP (Archive Information Package) –

Pacote de informação para depósito seguindo as boas práticas referidas pelas comunidades

em estudo.

176 http://lcweb.loc.gov/marc/ndmso.html 177 http://www.diglib.org/ 178 LUPOVICI, Catherine, MASANÈS, Julien (2000) – Metadata for the long term preservation of elec-

tronic publications. Nedlib Report Series; 2

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

99

Este pacote é composto por quatro agrupamentos de metadados, como foi referido anteri-

ormente no ponto 4.1.5. Vamos dedicar-nos especialmente à PDI (Preservation Description

Information) - Informação Descritiva para Preservação, e à CI (Content Information) – In-

formação sobre o conteúdo, ou seja, o objecto-dados e a informação acerca do seu conte-

údo. O pacote PDI é, por sua vez, composto por 4 grupos : Informação sobre a referência,

Informação sobre a proveniência, Informação sobre o contexto e Informação sobre a au-

tenticação e mecanismos de reparabilidade.

Dedicar-nos-emos também à DI (Descriptive information), informação descritiva que per-

mite facilitar o acesso das ferramentas de busca automática. Mais à frente vamos articular

este conjunto de metadados com o OAI-PMH (Open Archives Initiative Protocol for Metada-

ta Harvesting), protocolo de recuperação automática dos metadados. Os metadados des-

critivos podem ser repescados tanto em CI como em PDI.

Não é demais referir que o povoamento que apresentamos, acompanha as necessidades

das comunidades implementadoras, neste caso as comunidades já apresentadas no ponto

4.2 : CEDARS, NLA, NEDLIB e OCLC.

A OCLC, por sua vez, sugere a viabilidade da construção de uma matriz de metadados de

certa maneira consensual, com o objectivo de permitir uma mais ampla interoperabilidade

entre repositórios através da comparação de metadados propostos pelo WG e pelas três já

existentes usando como benchmark a comunidade CEDARS (OCLC/RLG, 2001, 2002)179,180,

por considerar que é a que mais bem se adapta ao modelo de referência OAIS. Também a

comunidade da Universidade de Harvard é referida no relatório da OCLC/RLG de 2001, mas

dado que não implementa o modelo OAIS, não é nossa intenção incluí-la neste trabalho.

Vejamos, no que diz respeito à Informação sobre a Proveniência para um Pacote de infor-

mação para depósito quais as abordagens das três comunidades referidas.

Para cada uma juntamos o respectivo povoamento:

a) A Comunidade CEDARS

O conjunto de metadados da comunidade CEDARS, como o de todas as outras, tem o ob-

jectivo de permitir a preservação digital de longo prazo.

Exige-se destes metadados que permitam o acesso com recuperação pertinente e, tanto

quanto possível, fiel aos recursos digitais e aos seus conteúdos depositados no repositório

digital a longo prazo. Ao mesmo tempo pretende-se que acrescentem valor às condições

de preservação.

179 OCLC/RLG (2001) – Op. cit. 180 OCLC/RLG (2002) – Op. cit.

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

100

O conjunto inclui metadados descritivos, administrativos, estruturais ou técnicos e também

informação legal. Pretende-se aplicar estes metadados a uma classe alargada de objectos

digitais, na expectativa de que uma qualquer colecção contenha vários formatos. Da mes-

ma maneira, pretende-se que a especificação seja independente do nível de granularidade.

A comunidade CEDARS divide o pacote de Informação sobre a proveniência em três sub-

categorias: (1) História da origem, (2) História da gestão e (3) Gestão de direitos.

A História da origem descreve o objecto digital numa fase anterior à ingestão no repositó-

rio. Os metadados relevantes incluem a razão da criação, a cadeia de custódia antes da

ingestão, quaisquer modificações que tivessem tido lugar antes do depósito e o ambiente

técnico utilizado no momento em que o repositório assumiu a responsabilidade da preser-

vação. Isto inclui a especificação do ambiente de hardware e software do objecto como

pré-requisitos, procedimentos para a instalação e operação nesse ambiente e qualquer do-

cumentação adicional de interesse para compreensão do ambiente técnico. Finalmente o

último elemento nesta categoria regista a razão da preservação.

Este grupo de metadados é construído na fase de pré-ingestão no repositório e é funda-

mental para uma boa gestão da preservação e do acesso no futuro. Independentemente

da granularidade o conjunto deve ser obrigatoriamente preenchido. Podemos incluí-los nas

categorias de metadados administrativos e estruturais ou técnicos.

A História da gestão documenta qualquer modificação efectuada ao objecto digital durante

a sua permanência no repositório, contudo também inclui qualquer modificação feita ao

objecto ao prepará-lo para o depósito na fase anterior, de pré-ingestão e modificações

subsequentes durante o armazenamento. A história administrativa, já em ambiente de de-

pósito propriamente dito inclui as estratégias de preservação enquanto decisões adminis-

trativas e enquanto acções de preservação.

A Gestão dos direitos encontra-se, na comunidade CEDARS, no âmbito da informação so-

bre a proveniência, também numa fase de pré-ingestão. Particularmente este grupo de

metadados relata os pormenores de todas as negociações que ocorreram antes da inges-

tão e os direitos de propriedade intelectual associados. Os últimos incluem declarações de

copyright (nome do editor, data de publicação, avisos de direitos e contactos dos detento-

res dos direitos).

No que diz respeito à informação sobre a representação, cuja função é comunicar sentido

ao fluxo de bits que compõem um objecto digital o projecto CEDARS considera fundamen-

tal descrever a estrutura interna do objecto, o que acontece através de metadados relati-

vos às ferramentas que transformam e representam os objectos. Estes estão divididos em

cinco sub-elementos: plataforma, parâmetros necessários para operar o software de repre-

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

101

sentação, ferramentas de representação e análise e formatos de output e de input produ-

zidos pelas ferramentas de representação. Incluímos em seguida o povoamento exemplifi-

cativo (OCLC/RLG, 2001 op. cit.)181

181 OCLC/RLG (2001) – Op. cit.

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

CEDARS

História da origem do recurso Ambiente técnico original Pre-requisitos - PDI A

História da origem do recurso Ambiente técnico original Procedimentos - PDI A

História da origem do recurso Ambiente técnico original Documentação - PDI A

História da origem do recurso Condução do processo - - PDI A

História da origem do recurso História da custódia - - PDI A

História da origem do recurso História da mudança antes do depósito

- - PDI A

História da origem do recurso Notas sobre a origem - - PDI A

História da origem do recurso Razão para preservação - - PDI A

História do Processo - pré-ingestão Datas limite - - PDI A

História do Processo - pré-ingestão Forma de condução do processo - - PDI A

História do Processo - pré-ingestão Linhas orientadoras usadas - - PDI A

História do Processo - pré-ingestão Mudanças nos recursos - - PDI A

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

CEDARS

História do Processo - pré-ingestão Outros - - PDI A

História do Processo - pré-ingestão Razão da forma de apresentação - - PDI A

História do Processo - pré-ingestão Resultados - - PDI A

História do Processo - pré-ingestão Título do processo - - PDI A

História da gestão História administrativa no depósito História dos movimentos - PDI A

História da gestão História administrativa no depósito História das estratégias - PDI A

História da gestão História do processo de ingestão - - PDI A

Gestão de direitos História da negociação - - PDI A

Gestão de direitos Informação sobre os direitos Intervenientes - PDI A

Gestão de direitos Informação sobre os direitos Declaração de copyright Aviso de direitos PDI A

Gestão de direitos Informação sobre os direitos Declaração de copyright Contactos do detentor de direitos

PDI A

Gestão de direitos Informação sobre os direitos Declaração de copyright Data de publicação PDI A

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

CEDARS

Gestão de direitos Informação sobre os direitos Declaração de copyright Editor PDI A

Gestão de direitos Informação sobre os direitos Declaração de copyright Local de publicação PDI A

Gestão de direitos Informação sobre os direitos Acções a tomar Permitidas por lei PDI A

Gestão de direitos Informação sobre os direitos Acções a tomar Permitidas por licenças PDI A

Indicador de autenticação - - - FI A

Resumo da descrição formal - - - CI A,D

Objectos transformadores Ferramentas de análise e representação

- - CI E

Objectos transformadores Formato de input - - CI E

Objectos transformadores Formato de output - - CI E

Objectos transformadores Parâmetros - - CI E

Objectos transformadores Plataforma - - CI E

Objectos de representação, análise e conversão

Ferramentas de análise e representação

- - CI E

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

CEDARS

Objectos de representação, análise e conversão

Formato de input - - CI E

Objectos de representação, análise e conversão

Formato de output - - CI E

Objectos de representação, análise e conversão

Parâmetros - - CI E

Objectos de representação, análise e conversão

Plataforma - - CI E

Render/analyze objects Ferramentas de análise e representação

- - CI E

Render/analyze objects Formato de input - - CI E

Render/analyze objects Formato de output - - CI E

Render/analyze objects Parâmetros - - CI E

Render/analyze objects Plataforma - - CI E

Identificador persistente - - - PDI A,D

Data de criação - - - PDI A,D

Relações externas - - - PDI A

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

106

b) A comunidade NEDLIB

Esta comunidade aborda a informação sobre a proveniência através de metadados sobre a

história da mudança do objecto.

São especificados dois tipos de metadados: metadados do objecto propriamente dito, que

documentam acções de preservação do mesmo e outros metadados relacionados, regis-

tando estes os valores relativos a operações de reparabilidade ou autenticação. A granula-

ridade dos últimos reporta-se unicamente a valor anterior e valor actual.

A informação sobre a representação não se subdivide em estrutural e semântica, tal como

é recomendado pelo modelo de referência e está documentada através de cinco elementos

base: Requisitos específicos de hardware, requisitos específicos de multimedia, requisitos

específicos de periféricos (ex. a utilização de um dispositivo ZIP), requisitos específicos do

sistema operativo, interpretador e compilador, metadados acerca do formato do objecto e

aplicações necessárias para aceder ao conteúdo do objecto, e ainda do nome e versão dos

componentes do sistema.

Verificámos que os metadados para a preservação de longo prazo estão incluídos tanto no

pacote de informação para depósito, como no pacote que se destina à descrição para o

acesso, como ajuda na recuperação. Este facto deve-se a que num DSEP (Deposit System

for Electronic Documents) os metadados existem em grande quantidade e são manipulados

automaticamente. Assim, encontramos incluídas na Informação sobre a representação in-

dicações já referidas no pacote de informação para depósito, que contêm tanto a descrição

do formato do software como os códigos fonte. P. ex. em vez de indicar “HTML 4” os me-

tadados devem também conter um apontador para as especificações do “HTML 4”, assim

como o código fonte que indica o caminho do W3C que contém a DTD (Document type de-

finition) da referida versão182.

Tal como no caso anterior ilustramos o processo com exemplos de povoamento retirados

de OCLC/RLG, 2001 (op. cit.)183

182 Lupovici, Catherine & Masanès, Junlien (2000) – Op. cit. 183 OCLC/RLG (2001) – Op. cit.

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

NEDLIB

História da mudança Metadados associados Valor antigo - PDI A

História da mudança Metadados associados Valor novo - PDI A

História da mudança Metadados associados Inversão - PDI A

História da mudança Metadados associados Data - PDI A

História da mudança Metadados associados Ferramenta Nome PDI A

História da mudança Metadados associados Ferramenta Versão PDI A

História da mudança outros metadados associados Valor novo - PDI A

História da mudança outros metadados associados Valor antigo - PDI A

Checksum Algoritmo - - PDI A

Checksum Valor - - PDI A

Assinatura digital - - - PDI A

Requisitos específicos de hardware Requisitos específicos de periféricos - - CI E

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

NEDLIB

Requisitos específicos de hardware Requisitos específicos de processador

- - CI E

Requisitos específicos de hardware Requisitos específicos multimédia - - CI E

Sistema operativo Nome - - CI E

Sistema operativo Versão - - CI E

Interpretador e compilador Instruções - - CI E

Interpretador e compilador Nome - - CI E

Interpretador e compilador Versão - - CI E

Formato do objecto Nome - - CI E

Formato do objecto versão - - CI E

Aplicação Nome - - CI E

Aplicação Versão - - CI E

Tipo de estrutura - - - CI A

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

109

c) A comunidade da Biblioteca Nacional da Austrália

A Biblioteca Nacional da Austrália através do projecto PANDORA faz incidir uma parte da

informação sobre a proveniência nas acções de autorização de criação de cópias de preser-

vação e documenta a decisão de depositar ou não um determinado objecto. Ao mesmo

tempo introduz um elemento sobre as razões da decisão.

Regista também todas as perdas de funcionalidade ou modificações no look-and-feel da

versão inicialmente depositada em relação à preservada.

O processo de preservação está descrito através de uma série de sub-elementos que do-

cumentam os vários aspectos considerados relevantes e que incluem a descrição do pro-

cesso, o hardware e o software usados, a forma de condução do processo e identificação

das linhas orientadoras para a implementação assim como datas de criação e de finaliza-

ção e ainda o sucesso ou insucesso do processo de preservação.

Além dos metadados já referidos podemos verificar que é também atribuída importância à

história dos metadados através do elemento Criador do registo de metadados, que pode

ser uma pessoa ou uma instituição.

Quanto à informação sobre a representação a Biblioteca Nacional da Austrália ainda propõe

extensões de alguns metadados estruturais para som, vídeo, texto, bases de dados,

software, etc.

Também neste caso incluímos a respectiva matriz de metadados.

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

NLA

Permissão para acções de preservação

- - - PDI A

Mudança ou perda de funcionalidade - - - PDI A

Decisão de depositar (funcional) - - - PDI A

Razão da decisão - - - PDI A

Insituição responsável - - - PDI A

Decisão de depositar (manifestação) - - - PDI A

Razão da decisão (manifestação - - - PDI A

Tipo de intenção - - - PDI A

Processo de preservação Condução do processo - - PDI A

Processo de preservação Datas limite - - PDI A

Processo de preservação Descrição do processo - - PDI A

Processo de preservação Hardware crítico usado no processo - - PDI A

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

NLA

Processo de preservação Instituição responsável pelo processo

- - PDI A

Processo de preservação Linhas orientadoras do processo - - PDI A

Processo de preservação Mudanças nos recursos - - PDI A

Processo de preservação Outros - - PDI A

Processo de preservação Razão do processo - - PDI A

Processo de preservação Resultados - - PDI A

Processo de preservação Software crítico usado no processo - - PDI A

Validação - - - PDI A

Tipo de estrutura - - - CI E

Estrutura técnica dos recursos complexos

- - - CI E

Descrição do ficheiro Audio Compressão - CI E

Descrição do ficheiro Audio Bit rate - CI E

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

NLA

Descrição do ficheiro Audio Resolução - CI E

Descrição do ficheiro Audio Nº da faixa e tipo - CI E

Descrição do ficheiro Audio Formato e versão - CI E

Descrição do ficheiro Audio Encapsulação - CI E

Descrição do ficheiro Audio Duração - CI E

Descrição do ficheiro Bases de dados Tipo dos dados e categoria da representação

- CI E

Descrição do ficheiro Bases de dados Limite mínimo do tamanho dos valores dos dados

- CI E

Descrição do ficheiro Bases de dados Compressão - CI E

Descrição do ficheiro Bases de dados Forma da representação e layout

- CI E

Descrição do ficheiro Bases de dados Limite máximo do tamanho dos valores dos dados

- CI E

Descrição do ficheiro Bases de dados Formato e versão - CI E

Descrição do ficheiro Executáveis Tipo de programa e versão - CI E

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

NLA

Descrição do ficheiro Imagem Dimensões - CI E

Descrição do ficheiro Imagem Espaço de cor - CI E

Descrição do ficheiro Imagem orientação - CI E

Descrição do ficheiro Imagem lookup table - CI E

Descrição do ficheiro Imagem Compressão - CI E

Descrição do ficheiro Imagem Gestão da cor - CI E

Descrição do ficheiro Imagem Resolução tonal - CI E

Descrição do ficheiro Imagem Cor - CI E

Descrição do ficheiro Imagem Formato e versão - CI E

Descrição do ficheiro Imagem Resolução - CI E

Descrição do ficheiro Texto Divisão estrutural - CI E

Descrição do ficheiro Texto Formato e versão - CI E

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

NLA

Descrição do ficheiro Texto Compressão - CI E

Descrição do ficheiro Texto Comnjunto de caracteres - CI E

Descrição do ficheiro Texto DTD associada - CI E

Descrição do ficheiro Video Formato e versão - CI E

Descrição do ficheiro Video Compressão - CI E

Descrição do ficheiro Video Frame rate - CI E

Descrição do ficheiro Video Dimensões das frames - CI E

Descrição do ficheiro Video Duração - CI E

Descrição do ficheiro Video Estrutura de codificação vídeo - CI E

Descrição do ficheiro Video Som - CI E

Requisitos conhecidos do sistema - - - CI E

Requisitos de instalação - - - CI E

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

NLA

Informação de dispositivos de armazenamento

- - - CI E

Inibidores de acesso - - - CI E

Facilitadores do acesso - - - CI E

Criador - - - PDI A,D

Título - - - PDI A,D

Data de criação - - - PDI A,D

Editor - - - PDI A,D

Identificador persistente Agência responsável - - PDI A,D

Identificador persistente Método de construção - - PDI A,D

Identificador persistente Valor - - PDI A,D

URL Data de validação - - PDI A

URL Valor - - PDI A,D

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

116

d) A comunidade OCLC/RLG

Esta comunidade através do grupo de trabalho RLG (Research Libraries Group), já em

1998 mantinha uma matriz de metadados considerados essenciais para uma boa prática

de preservação de longo prazo. Considerava 16 elementos/metadados necessários para

preservar uma matriz digital a longo prazo, com particular incidência em ficheiros de ima-

gem: Data; Operador; Produtor; Dispositivos de captura; Pormenores de captura; História

da mudança; Chave de validação; Encriptação; Marca de água; Resolução; Fonte, Cor;

Gestão da cor; Escala de cor/Escala de cinzentos; Dispositivos de controle.

Podemos verificar a ausência de metadados adequados a recursos digitais multimédia, pá-

ginas Web ou bases de dados, visto que o objectivo desta comunidade era no momento

preservar documentos digitalizados e não nascidos digitais.

Dado que um dos objectivos da OCLC é encontrar abrangência e consenso em simultâneo,

vamos encontrar na actualidade, uma grelha de metadados construída a partir das três em

comparação e também de metadados sugeridos no âmbito do WG (Working Group) propri-

amente dito e a proposta passa, portanto, a contemplar aspectos considerados “lacunas”

duma ou de outra.

Não devemos, contudo, perder de vista o aspecto ideossincrático de cada comunidade que

inibe por vezes a aproximação ao consenso e à interoperabilidade. Como exemplo extre-

mo, podemos referir dificuldades na gestão dos identificadores dentro do próprio repositó-

rio. Os ISBN reportam-se a livros e não a páginas Web ou a imagens digitais e ainda exis-

tem alguns tipos de suportes que não possuem nenhum esquema de identificação associa-

do. Esta situação leva à obrigação da referência de uma grande variedade de esquemas

globais dentro da mesma colecção multimédia, o que é considerado pela comunidade OCLC

como um obstáculo à determinação da identificação do pacote de informação para depósi-

to. Este, idealmente, deveria ter associado um único esquema de identificação local e glo-

bal. Integramos em seguida as matrizes de metadados, tanto da OCLC como do WG tal

como fizémos para as comunidades anteriores.

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

OCLC

Infraestrutura técnica de objectos complexos

- - - CI A,E

Descrição do ficheiro - - - CI A,E

Requisitos de instalação - - - CI A,E

Dimensões do objecto (em bytes) - - - CI A,E

Inibidores de acesso - - - CI A

Facilitadores do acesso - - - CI A

Propriedades significativas - - - CI A

Funcionalidade - - - CI A

Descrição do conteúdo recuperado - - - CI A

Perdas de funcionalidades - - - CI A

Documentação - - - CI A

Programas de representação Processo de transformação Aplicação de acesso Documentação CI E

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

OCLC

Programas de representação Processo de transformação Ferramenta de transformação Documentação CI E

Programas de representação Processo de transformação Ferramenta de transformação Formato de input CI E

Programas de representação Processo de transformação Aplicação de acesso Formato de input CI E

Programas de representação Processo de transformação Ferramenta de transformação Formato de output CI E

Programas de representação Processo de transformação Aplicação de acesso Formato de output CI E

Programas de representação Processo de transformação Aplicação de acesso Localização CI E

Programas de representação Processo de transformação Ferramenta de transformação Localização CI E

Ambiente de hardware Documentação - - CI E

Ambiente de hardware Informação sobre o depósito - - CI E

Ambiente de hardware Localização - - CI E

Ambiente de hardware Requisitos de memória - - CI E

Ambiente de hardware Requisitos de processador - - CI E

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

OCLC

Língua do recurso - - - PDI A

Língua dos metadados - - - PDI A

Códigos de conteúdos - - - PDI A

Tipo de objecto - - - PDI A

Composição do objecto - - - PDI A

Relações entre ficheiros - - - PDI A

Identificador OCLC - - - PDI A

Identificador standard - - - PDI A

Localização dos objectos - - - PDI A

Outros identificadores de metadados - - - PDI A

Título - - - PDI A,D

Criador - - - PDI A,D

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

OCLC

Editor - - - PDI A,D

Data de criação - - - PDI A,D

Descrição do conteudo - - - PDI A,D

Descrição resumida do objecto - - - CI A

Origem do objecto - - - PDI A

Origem do objecto História da custódia - - PDI A

Origem do objecto Notas sobre a origem - - PDI A

Origem do objecto Razão para preservação - - PDI A

História do processo - pré-ingestão Datas limite - - PDI A

História do processo - pré-ingestão Forma de condução do processo - - PDI A

História do processo - pré-ingestão Linhas orientadoras usadas - - PDI A

História do processo - pré-ingestão Mudanças nos recursos - - PDI A

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

OCLC

História do processo - pré-ingestão Outros - - PDI A

História do processo - pré-ingestão Razão da forma de apresentação - - PDI A

História do processo - pré-ingestão Resultados - - PDI A

História do processo - pré-ingestão Título do processo - - PDI A

Copyright - - - PDI A

Notas locais - - - PDI A

Propriedades significativas - - - CI A

Funcionalidades . - - CI A

Descrição do conteúdo representado - - - CI A

Documentação - - - CI A

Programas de representação Documentação - - CI A

Programas de representação Localização - - CI A

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

WG

Aplicação de display/acesso Documentação - - CI A

Aplicação de display/acesso Localização - - CI A

Sistema operativo Documentação - - CI A

Sistema operativo Localização - - CI A,D

Sistema operativo Nome - - CI A,D

Requisitos de memória Documentação - - CI E

Informação de armazenamento Documentação - - CI E

Localização de obtenção do hardware

- - - CI E

Requisitos de periféricos Documentação - - CI E

Identificação local - - - PDI A,D

Identificação global - - - PDI A,D

Relações entre conteúdos de objectos

Identificação - - PDI A,D

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

WG

Relações entre conteúdos de objectos

Manifestação - - PDI A,D

Relações entre conteúdos de objectos

Tipo de relação - - PDI A,D

Relações entre o conteúdo intelectual dos objectos

Identificação - - PDI A

Relações entre o conteúdo intelectual dos objectos

Tipo de relação - - PDI A

Origem do objecto - - - PDI A

Pré-ingestão - - - PDI A

Ingestão - - - PDI A

História da manutenção no repositório

- - - PDI A

Evento Data - - PDI A

Evento Designação - - PDI A

Evento Notas - - PDI A

Evento Procedimento - - PDI A

ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META

WG

Evento Responsabilidade - - PDI A

Evento Resultado - - PDI A

Autenticação - - - PDI A

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

125

4.3.2. Simulação de uma matriz de metadados de preservação

Com base nos modelos de matrizes de metadados apresentados pelas comunidades referi-

das e também no modelo proposto pela Biblioteca Nacional da Nova Zelândia184 já referido

atrás, fazemos uma proposta que pretende enquadrar-se na política de selecção de uma

comunidade nacional, onde o objectivo seja dirigido a publicações electrónicas nacionais,

documentos oficiais em formato digital, teses, dissertações e literatura cinzenta produzida

na comunidade científica nacional.

Qualquer destes recursos digitais pode ser composto por objectos simples e complexos e

vamos tentar articular os metadados associados com o modelo OAIS (vide Anexo 1).

O objectivo é criar um “Pacote de informação para depósito” contemplando a “Informação

sobre o conteúdo” e a “Informação descritiva para a preservação”.

Os critérios de criação dos metadados seguem de perto as comunidades que apresentámos

no ponto anterior. Optámos por considerar três agrupamentos de metadados relativos a:

1) objectos digitais

2) estratégias de preservação

3) ficheiros

Cada conjunto de metadados diz respeito a um único objecto lógico. O objecto pode ser

simples, p. ex., um texto em MsWord ou pode ser constituído por múltiplos ficheiros, p. ex.

uma publicação electrónica com vários ficheiros HTML, GIF, etc.

Através deste conjunto de metadados proposto para um Pacote de informação para

depósito pretende-se armazenar informação que nos permita tomar decisões sobre futuras

acções de preservação, assim como documentar as estratégias já implementadas, tais

como migrações ou emulações. Também se pretende manter informação detalhada sobre

os efeitos das opções estratégicas. Outra das preocupações diz respeito à identificação das

técnicas usadas para manter a autenticidade das matrizes de preservação, considerando

matriz de preservação uma cópia de qualidade que é sujeita a refrescamentos e migrações

assim que surgem problemas de obsolência ao longo do tempo.

Estes blocos de informação existem no âmbito da Informação descritiva para a preserva-

ção nas suas quatro vertentes: Informação sobre o conteúdo, Informação sobre a repre-

sentação, Informação sobre o contexto e Informação de autenticação.

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

126

No que diz respeito à gestão dos próprios metadados, consideramos essencial que exista

identificação de quem executou as acções de preservação, que acções foram executadas e

quando tiveram lugar. Optámos por acrescentar os fundamentos da inclusão de cada um

dos elementos ou sub-elementos.

Para seguir de perto o modelo OAIS optámos pela utilização das abreviaturas AIP (Archive

information package), CI (Content information) e PDI (Preservation description informati-

on) que enquadram os elementos metadados propostos (Vide Anexo 1).

4.4. OS REPOSITÓRIOS DIGITAIS E A DESCOBERTA E CAPTURA DE METADA-

DOS

Um dos objectivos da preservação de recursos que tem sido explicitado ao longo desta

tese, é a preocupação de deixar em herança um determinado espólio científico e cultural às

gerações futuras. Contudo, não é demais referir que dada a incerteza do ambiente tecno-

lógico mesmo as gerações presentes podem ficar inibidas de aceder a qualquer recurso di-

gital se este não tiver sido objecto de boas práticas na sua criação e manutenção.

Para que se encontre um determinado recurso na Internet existem motores de busca que o

procuram e o descobrem. Ao mesmo tempo, os repositórios também devem manter boas

práticas conducentes à viabilização dessa descoberta. É neste contexto que vamos encon-

trar o OAI-PMH (Open Archives Intitative Protocol for Metadata Harvesting) que conside-

ramos dever ser implementado pelos repositórios digitais a montante e a jusante de todo o

processo de preservação.

Não podemos deixar de referir o serviço de acesso já implementado pelo projecto FEDORA

(vide 4.2.6).

4.4.1. O OAI-PMH (Open Archives Inititative Protocol for Metadata Har-

vesting)

Os objectivos da OAI185 (Open Archives Initiative) baseiam-se no desenvolvimento de pa-

drões de interoperabilidade que facilitem a eficiência da disseminação de conteúdos. O OAI

visa melhorar o acesso a repositórios de publicações electrónicas e os seus públicos-alvo

encontram-se no ambiente académico.

184 http://www.natlib.govt.nz/en/whatsnew/4initiatives.html 185 LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) - Open Archives Initiative : frequently

asked questions (FAQ). Protocol version 2.0.

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

127

O protocolo OAI-PMH suporta variados esquemas de metadados. No mínimo, os repositóri-

os devem ser capazes de devolver registos de metadados em formato DC sem qualificado-

res adicionais. Opcionalmente, um repositório pode também disseminar registos em outros

formatos186.

O protocolo OAI-PMH optou por aconselhar a utilização do formato DC por considerar que

os 15 elementos evoluíram ao longo dos últimos anos para um standard que dadas as suas

valências multidisciplinares tem aplicação como um formato comum.

O OAI-PMH e o DCMI mantêm em cooperação um esquema XML para DC sem qualificado-

res187.

4.4.2. O exemplo do serviço de acesso do Projecto FEDORA188

O projecto FEDORA (Flexible Extensible Digital Object and Repository Architecture) é um

repositório digital de sistema aberto (open source) que usa APIs (Application Program In-

terface) na forma de serviços Web. O sistema do repositório FEDORA encontra-se subdivi-

dido em três camadas : Uma camada para o acesso na Web, uma segunda camada que

contém o núcleo do subsistema e uma terceira camada que se destina ao armazenamen-

to189.

Na perspectiva do acesso, a arquitectura do projecto FEDORA define a disseminação como

um fluxo de dados que devolve uma vista do conteúdo do objecto digital e que preenche

duas funções:

Responder tanto no âmbito genérico como específico

Disseminar os conteúdos em função das necessidades do utilizador

Logo, a funcionalidade mais interessante deste serviço de acesso é associar, a montante,

os recursos a determinadas comunidades de utilizadores, o que facilita a disseminação dos

recursos digitais e dos seus metadados, a pedido.

O recurso digital e os metadados são fluxos de dados contidos num objecto modelar. O

conteúdo do fluxo de dados é identificado através de um URL.

Apresentamos na Figura 8 o modelo de objecto do projecto FEDORA extraído da mesma

fonte citada atrás.

186 LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) – The Open Archives Initiative Protocol for

Metadata Harvesting. Protocol version 2.0. 187 http://www.openarchives.org/pipermail/oai-implementers/2001-December/000261.html 188 http://www.fedora.info 189 STAPELS, Thornton, WAYLAND, Ross & PAYETTE, Sandra (2003) – The Fedora Project: an open-

source digital object repository management system. D-Lib Magazine, 9 (4).

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

128

Fig. 8 – Modelo de objecto190

O utilizador, pode ter inserida uma aplicação Web com capacidade para interagir com os

serviços de pesquisa FEDORA, ou pode também ser um Web browser ou ainda qualquer

cliente fora do espaço do projecto.

Dado que o formato de metadados utilizado por este projecto é o METS, que devido às su-

as características consegue facilmente garantir a interoperabilidade entre repositórios, po-

demos antever a rápida indexação automática e consequente descoberta dos recursos.

4.5. BOAS PRÁTICAS DE PRESERVAÇÃO RECOMENDADAS NA IMPLEMENTAÇÃO

DE UM REPOSITÓRIO DIGITAL

O primeiro passo a dar no caminho da criação de um repositório digital é, à semelhança de

um outro qualquer serviço, delimitar a sua missão e objectivos perante uma determinada

comunidade de potenciais utilizadores.

Nesta fase é necessário definir critérios sobre

que tipo de recursos o repositório vai armazenar

durante quanto tempo pretende manter esses recursos

qual o método de captura que pretende empreender

190 STAPELS, Thornton, WAYLAND, Ross & PAYETTE, Sandra (2003) – Op. cit.

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

129

Dependendo destas decisões de carácter político mas também técnico/administrativo e em

função do período de tempo em que se pretende manter os recursos, estes devem ser su-

jeitos a uma triagem e depositados separadamente por

alguns anos

indefinidamente

Em seguida podemos, p. ex., agrupar os recursos por afinidades e armazená-los em con-

junto, segundo características que nos tragam vantagens no armazenamento e também no

acesso.

Consideramos que a metodologia de implementação deve percorrer as seguintes etapas191:

1) Implementação do modelo de referência OAIS (ISO 14721:2002).

2) Durante a fase de selecção dos recursos deve ser assegurado que:

Os recursos detêm condições tecnológicas capazes de manter a sua per-

manência no repositório

Foi efectuada a verificação da ausência de duplicados

Foi carregado o software adicional considerado necessário assim como os

códigos fonte quando for possível

Foi verificada a existência de restrições de copyright e estabelecidos os

contactos necessários com os responsáveis. Se não existir acordo os re-

cursos devem ser preservados com indicação de acesso reservado

3) Fases de ingestão e depósito

Atribuição de um identificador único e persistente (além das suas valências

já referidas, facilitará também a possibilidade de cruzar referências dentro

do próprio repositório)

Criação de uma assinatura digital ou de um digest por forma a detectar

qualquer alteração produzida no fluxo de bytes.

Agrupar os objectos digitais em conjunto com os metadados em formato

ZIP ou TAR192 para assegurar que a sua estrutura se mantém intacta e

191 http://www.lib.ed.ac.uk/ 192 http://www.webopedia.com/TERM/t/tar.html

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

130

que foi criado um fluxo de bytes. Este procedimento conduz à criação de

um pacote de informação para depósito

Envio do pacote para a área de depósito

Dado que os metadados de preservação sustentam todas as fases do processo de preser-

vação é vital para o processo que todos os metadados possíveis sejam capturados durante

a fase de descoberta e captura dos recursos. Os metadados devem ser marcados em XML

e devem dividir-se em duas partes:

Informação descritiva para preservação – Gere a preservação do recurso

(informação sobre a referência + proveniência + contexto + autenticação)

Informação sobre a representação – Assegura que o fluxo de bytes possa

ser representado no futuro (informação sobre o ambiente tecnológico +

informação semântica + informação estrutural)

Deve verificar-se se os metadados sobre a representação que acompanham o recurso são

suficientemente relevantes e manter as seguintes boas práticas:

Depositar sempre que possível cópias de software de fontes abertas (open

source)

Depositar descrições de tipos MIME (Multipurpose Internet Mail Extensions)

em pacotes de informação para depósito separados, para utilização futura

quando necessário

Depositar as actualizações dos sítios Web com intervalos de tempo regula-

res

4. Fase de preservação

Enviar cópias dos pacotes de metadados descritivos para preservação XML

para a área de depósito. Os ficheiros XML serão depositados numa base de

dados específica

Incluir no pacote de metadados descritivos, informação sobre a referência,

contendo campos bibliográficos em DC para assegurar que o recurso possa

ser recuperado. Este procedimento facilita, p. ex., o mapeamento de re-

gistos MARC se for considerado necessário pelo repositório

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

131

Incluir no pacote de metadados descritivos para preservação a informação

sobre o contexto. Esta vai permitir manter a integridade contextual dos fi-

cheiros, isto é, as suas relações com outros ficheiros no repositório

Incluir no mesmo pacote informação pormenorizada sobre a proveniência

de forma a permitir a confirmação de uma correcta aplicação das normas

na fase de ingestão (por vezes é necessário proceder a algumas alterações

dos sítios p. ex. para fazer face a activação automática de palavras passe,

etc.)

Incluir informação sobre a gestão dos direitos e todas as restrições de

acesso

Tal como temos vindo a referir de forma bastante acentuada ao longo de todo o trabalho é

vital que toda a informação acerca do ciclo de vida dos recursos digitais esteja registada e

depositada.

Os metadados devem reportar quando, como e por quem foi criado o recurso, que altera-

ções ocorreram durante a preservação e quem tem a eles acesso depois de depositados.

Todos estes elementos são necessários na perspectiva da implementação sistemática de

um conjunto de boas práticas que conduzam a uma eficaz gestão da preservação e poste-

rior acesso aos recursos.

4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL

132

5. CONCLUSÃO

133

5. CONCLUSÃO

O crescimento da Web na Internet para uma escala global deu-se muito rapidamente. É

talvez na História da Humanidade a difusão mais rápida de uma nova tecnologia que não

deixa de evoluir. Neste momento ocorre ume evolução significativa dado que novas arqui-

tecturas substituem páginas estáticas por páginas dinâmicas, costumizadas, que são gera-

das no momento. Da mesma maneira, dado que a inovação não é linear, o desenvolvimen-

to da Web é imprevisível.

A Web começou por ser software com base em protocolos para troca de documentos entre

cientistas e investigadores, usando a Internet para fins educacionais e de pesquisa. Nos

dias de hoje é quase essencialmente comercial e sujeita a investimentos extraordinários

como suporte tecnológico para a economia digital.

Os intervenientes, perante a constatação da incapacidade de liderar acções futuras em

ambiente tão incerto, tentam pelo menos influenciar o seu direccionamento e o World Wi-

de Web Consortium193 é, nessa perspectiva o forum privilegiado.

Um repositório na Internet é inevitavelmente um novo tipo de organização, com compe-

tências para responder aos problemas do próprio ambiente. Este pode não estar sediado

num espaço físico, pode existir distribuído entre instituições em muitas localidades geográ-

ficas através de uma rede global.

A preservação digital é um problema com características de urgência na sociedade moder-

na e ao tentar assegurar a longevidade de uma herança cultural digital o homem enfrenta

os desafios do novo paradigma relacionados com a efemeridade dos recursos e das tecno-

logias.

Ao longo desta tese abordámos várias questões no âmbito do mesmo problema e enqua-

drámos o estado da arte a nível internacional.

193 http://www.w3c.org

5. CONCLUSÃO

134

Iniciámos o nosso trabalho com a caracterização de uma biblioteca digital quanto à funcio-

nalidade, aos propósitos e ao tempo de vida pretendido e ponderámos as boas práticas de

preservação a ter em conta.

Estudámos em seguida o papel das instituições patrimoniais e a enorme responsabilidade

que detêm ao pretender deixar às gerações futuras uma herança cultural, histórica e cien-

tífica em formato digital.

É no contexto das instituições patrimoniais que verificámos que há sociedades mais avan-

çadas, onde inclusivamente já existem leis de depósito legal para recursos digitais e ou-

tras, tal como a realidade portuguesa, onde isso ainda não acontece. A proposta de diplo-

ma de depósito legal está a ser ultimada no momento em que escrevemos este texto.

Nela, felizmente, já se contempla o depósito digital.

A nível internacional, consideramos que a CDNL (Conference of Directors of National Libra-

ries) e a Unesco têm um papel de liderança de extrema responsabilidade e que a sua ori-

entação e recomendações devem ser tidas em conta também entre nós.

Abordámos em seguida a recolha e selecção dos recursos digitais tendo em conta as suas

características, o seu ciclo de vida e os objectivos do repositório.

No nosso entender, e no âmbito de uma instituição de tipo patrimonial, a selecção de re-

cursos digitais deveria ser de tipo misto, à semelhança do que se passa por exemplo na

Biblioteca Nacional da Austrália. Se por um lado a captura automática de recursos através

da Web é a opção que reclama menos recursos financeiros e que cobre de forma mais

abrangente um determinado espaço geográfico ou temático, por outro, a selecção feita

através do elemento humano, garante menos ruído e maior objectividade. Esta opção con-

sidera-se à partida mais onerosa pois é necessário um maior número de recursos humanos

e ao mesmo tempo as suas competências devem ser de tipo especializado.

Em Portugal, na Biblioteca Nacional, existe uma política definida que visa seleccionar diver-

sos tipos de recursos, tais como documentos oficiais, teses e dissertações e publicações

electrónicas nacionais ou que tenham interesse para o nosso país e outros documentos de

interesse patrimonial.

Voltando às opções de captura de recursos verificamos que ao optarmos por um sistema

misto de selecção e de snapshots cegos teríamos à nossa disposição não só os documentos

considerados mais importantes para a memória do nosso país como um enorme manancial

de conteúdos para estudos sociológicos futuros.

Considerámos também que é absolutamente indispensável que todas as fases do ciclo de

vida dos recursos digitais sejam cumpridas. Só através dessa boa prática se poderá garan-

tir maior longevidade aos recursos digitais.

5. CONCLUSÃO

135

Desta forma, foram passados em revista não só a selecção mas também a identificação

persistente, a descrição, o armazenamento e finalmente a preservação e o acesso.

Na fase final do ciclo de vida dos recursos, considerámos as opções estratégicas de preser-

vação como tópico da maior relevância porque é no seguimento das decisões sobre essa

matéria que os recursos sobreviverão por períodos de tempo mais ou menos longos. As

opções estratégicas de preservação estão, porém, condicionadas pelos orçamentos pois

haverá que despender recursos financeiros de certa forma avultados, consoante a opção.

Terá que se ter em conta que os recursos a preservar devem subsistir também em função

do acesso. Alguém, um dia, vai querer estudar esses recursos, vê-los, usá-los, e nem to-

das as estratégias permitem a recuperação do look-and-feel.

Mais uma vez ainda, vamos ter que procurar um equilíbrio entre a situação financeira do

momento e a forma que vão revestir os recursos digitais que constam da nossa herança.

O investimento no âmbito da preservação digital é muito avultado e deve ser pensado a

contar com a recolha, o processamento, a validação, a gestão e a documentação associa-

das, assim como com o armazenamento no repositório e as estratégias de preservação

adoptadas.

Idealmente, se o valor do recurso existir pelo artefacto teremos que investir em tecnologi-

as de emulação; se não for esse o caso, sendo decidido que não existem problemas por

perdas do look-and-feel, então poder-se-á optar, por exemplo, pela migração ou pelo tipo

particular de migração que é a opção XML. É necessário ter em atenção as comunidades de

utilizadores e a capacidade que cada repositório tem de as projectar no futuro.

Ainda ao abordarmos as boas práticas verificámos que a existência de metadados percorre

todas as fases do ciclo de vida dos recursos digitais.

Considerámos fundamentalmente os metadados de preservação que são de três tipos:

a) descritivos,

b) administrativos

c) estruturais

A incidência sobre os últimos dois é relevante, pois é neste espaço que vamos encontrar as

descrições dos métodos e das estratégias tomadas para preservação. Os metadados des-

critivos destinam-se fundamentalmente às fases de acesso e estão para os recursos digi-

tais como os formatos MARC (Machine Readable Cataloguing) para os recursos bibliográfi-

cos tradicionais.

5. CONCLUSÃO

136

Integrámos no nosso trabalho alguns esquemas de metadados que confirmam a necessi-

dade destes acompanharem as comunidades temáticas. Foge à regra o conjunto de meta-

dados Dublin Core (DC) criado no âmbito OCLC/NCSA para servir um leque alargado de

comunidades. Este é, por assim dizer, o standard mais genérico e simultaneamente mais

aplicável em qualquer situação que não envolva necessidades demasiado específicas.

Pudemos constatar no entanto, ao longo do trabalho, que o DC tem excelente capacidade

descritiva para servir o acesso, mas já o mesmo não se passa no que diz respeito à pre-

servação e ao cumprimento da função dos metadados administrativos e estruturais de do-

cumentar a história do recurso com estratégias de preservação, componentes de hardware

e software, etc.

Ao atribuir-lhe qualificadores em larga escala é possível tornar o conjunto dos elementos

do DC eficiente em relação ao que cada comunidade pretende. É também de referir que

este formato possui enormes valências no que diz respeito à interoperabilidade entre repo-

sitórios.

No que diz respeito às metodologias para implementação de um repositório digital conside-

rámos fundamental o investimento na confiabilidade, a qual só é atingível através da reso-

lução de questões que dizem respeito a:

Aspectos legais onde é necessário ultrapassar a barreira dos direitos de au-

tor e dos direitos de propriedade intelectual. Este assunto apresenta im-

portância acrescida quando abordamos os momentos da disponibilização e

acesso. Cabe ao repositório digital negociar com os detentores dos direitos

os moldes do acesso e preparar a preservação destes recursos sem permi-

tir a sua divulgação se o acordo entre as partes interessadas a isso condu-

zir. Quando os prazos legais previstos para a disponibilização pública fo-

rem atingidos então esses recursos serão libertados para consulta.

Aspectos financeiros provenientes dos altos custos que todo o processo de

preservação acarreta e que são muito difíceis de ultrapassar. Não existin-

do financiamento não existirá seguramente preservação. Esta situação é

idêntica à que vivem as bibliotecas com as necessidades de preservar do-

cumentos tradicionais para o futuro.

Aspectos relacionados com a gestão do risco que ameaça os repositórios

digitais e que se liga à integridade dos dados, à reparabilidade dos fichei-

ros, ao contexto e ligações entre ficheiros dentro do mesmo recurso, às

funcionalidades, ao pessoal e aos aspectos legais.

5. CONCLUSÃO

137

Aspectos relacionados com o acesso que visam a descoberta dos recursos

e a garantia da sua autenticidade.

Ainda em relação às metodologias de implementação de um repositório digital é o modelo

de referência OAIS desenvolvido no âmbito da NASA, que nos garante um enquadramento

genérico, aberto a qualquer comunidade favorecendo a interoperabilidade. Este modelo é

seguido pelos repositórios digitais mais relevantes à escala global. Verificámos que a co-

munidade CEDARS é aquela que pode servir de modelo a outras que, no momento, sabe-

rão detectar as suas divergências locais.

A existência de um bom núcleo de metadados administrativos é fundamental seja qual for

a comunidade em questão e dele vai depender a posterior recuperação dos recursos.

No seguimento desta investigação simulámos um conjunto de metadados preparado para

ajustar ao OAIS na forma de um pacote de informação para depósito enquadrável numa

determinada comunidade. Esta poderia porventura ser do mesmo teor da nacional, dado

que tivemos em vista a tipologia de recursos digitais aí preservados a longo prazo (Vide

Anexo 1).

No que diz respeito ao acesso como um dos objectivos da preservação consideramos a im-

plementação do OAI-PMH um protocolo versátil e ao mesmo tempo uma norma capaz de

fornecer os meios para dar visibilidade aos metadados do próprio repositório e por outro

lado coligir os metadados recuperados de outros repositórios.

Sentimos ainda a necessidade de fornecer algumas orientações para a implementação de

um repositório digital confiável, o que concretizámos através dos seguintes tópicos:

Implementação do modelo de referência OAIS (ISO 14721:2002)

Assegurar que durante a fase de captura e selecção são seguidas as boas

práticas relativas a uma boa ingestão e armazenamento assim como se foi

verificada a existência de restrições de copyright.

Atribuição de identificadores únicos para as fases de ingestão e depósito

Inclusão de metadados de preservação que devem ser relativos a todas as

fases do ciclo de vida dos recursos

5. CONCLUSÃO

138

Ao finalizar este trabalho deparamo-nos com um horizonte de muito trabalho e muita in-

vestigação em qualquer dos pontos do ciclo de vida do recurso. Basicamente há a conside-

rar:

A recolha dos recursos, assunto que é objecto das orientações mais díspa-

res;

As opções dos suportes de armazenamento que para uns autores duram

cinquenta anos ou mesmo mais e para outros a sua duração é de dois ou

três anos;

As opções estratégicas de preservação onde reina a polémica entre os que

defendem incondicionalmente a preservação do look-and-feel e os que en-

frentam a gestão do problema de forma mais moderada, considerando al-

ternativas em função das comunidades de utilizadores, ou dos recursos fi-

nanceiros e tecnológicos;

O acesso, um dos pontos fundamentais de todo este complicado processo,

onde apesar de tudo, encontramos alguma consensualidade, dado que, a

já experimentada interoperabilidade entre os sistemas com a existência do

padrão Z39.50, tem vindo a interligar a comunidade das bibliotecas;

Finalmente o elemento vital que percorre todas as fases e que é a criação

de metadados de preservação, assunto este amplamente tratado nesta

dissertação.

Pensamos que estudos biblio/sociométricos, devem estar na base de qualquer tentativa de

criação de repositórios digitais, de pequeno ou grande porte, e pensamos também que

deve ser amplamente desenvolvido trabalho ao nível da normalização da terminologia pois

esta está muito pouco estabilizada, o que dificulta o entendimento entre sistemas, ao nível

das pessoas e das máquinas.

É nossa profunda convicção que ultrapassadas todas as barreiras que referimos atrás po-

deremos garantir às gerações futuras o conhecimento e a plena fruição da sua memória.

BIBLIOGRAFIA

139

BIBLIOGRAFIA

ABID, Abdelaziz (2001) – Memory of the world : preserving our documentary heritage. 64th IFLA

General Conference, Amsterdam, 1998 http://www.ifla.org/IV/ifla64/099-69e.htm (Acedido em

2001-10-24)

ANSPER, Arne et al. (2001) - Efficient long-term validation of digital signatures. Lecture Notes in

Computer Science, 1992. (Proceedings. 4th International Workshop on Practice and Theory in

Public Key Cryptosystems, PKC 2001, Cheju Island, Korea, February 13-15, 2001)

http://www.cyber.ee/research/publ/longterm.pdf (Acedido em 2003-01-02)

APPS, Ann, MacINTYRE, Ross (2001) – Zetoc : a Dublin Core based current awareness service.

Proc. Int. Conf. On Dublin Core and Metadata Aplications, 2001, p. 227-234

http://jodi.ecs.soton.ac.uk/Articles/v02/i02/Apps/apps-v2.pdf (Acedido em 2003-01-08)

APPS, Ann, MacINTYRE, Ross (2001) – CABRef : Cross-referencing into an abstract database. Fifth

ICCC/IFIF Conference on Electronic Publishing, Canterbury, 2001,

http://epub.mimas.ac.uk/papers/appsmacep2001.pdf (Acedido em 2002-04-08)

ARVIDSON, Allan, PERSSON, Krister & MANNERHEIM, Johan (2000) - The Kulturarw3 Project : the

Royal Swedish Web Archiw3e: an example of "complete" colection of Web pages. IFLA Council

and General Conference, 66th, Jerusalem, 2000 http://www.ifla.org/IV/ifla66/papers/154-

157e.htm (Acedido em 2002-10-16)

ASCHENBRENNER, Andreas (2001) – Long-term preservation of digital material : building na ar-

chive do preserve digital cultural heritage from the Internet. Wien, Institut für Softwaretechnik

und Interaktive System. 110 p. (Diplomarbeit)

AUTENTICITY IN A DIGITAL ENVIRONMENT (2000) - Washington, CLIR, : p. 8-21. ISBN 1-88334-

77-7 http://www.clir.org/pubs/reports/pub92/pub92.pdf (Acedido em 2003-01-08)

BARTEL, J., et al. (2002) – Sygnature syntax and processing : W3C Recommendation. February.

http://www.w3.org/TR/xmldsig-core/ (Acedido em 2003-01-08)

BEAGRIE, Neil, GREENSTEIN, Daniel (1998) – A strategic policy for creating and preserving digital

collections : a report do the Digital Archiving Working Group. British Library Research and Inno-

vation Report N. 167. 1998 http://ahds.ac.uk/strategic.pdf (Acedido em 2003-03-20)

BIBLIOGRAFIA

140

BEARMAN, David & TRANT, Jennifer (1998) – Autenticity of digital resources : towards a statement

of requirements in the research process. D-Lib Magazine, June.

http://www.dlib.org/dlib/june98/06bearman.html (Acedido em 2002-12-27)

BECKETT, Dave, MILLER, Eric & BRICKLEY, Dan (2002) – Expressing simple Dublin Core in

RDF/XML. Dublin Core Metadata initiative. http://dublincore.org/documents/2002/07/31/dcmes-

xml/ (Acedido em 2003-01-28)

BELLINGER, Meg (2002) - Understanding digital preservation : a report from OCLC. CLIR.

http://www.clir.org/pubs/reports/pub107/bellinger.html (Acedido em 2002-12-27)

BOGART, John W.C. Van (1995) - Magnetic tape storage and handling : a guide for libraries and

archives. Washington, The Commission on Preservation and Access & National Media Laboratory

http://www.clir.org/pubs/reports/pub54/ (Acedido em 2002-10-21)

BORBINHA, José (2001) - Metadata – Conceito e sua relevância para as bibliotecas. Actas do 7º

Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas. Porto, 2001

BORBINHA, José Luís et al. (2002) – Manifesto para a preservação digital. Cadernos BAD, N. 2.

CABRAL, Maria Luísa (1998) – Microfilmagem e digitalização : a coexistência pacífica. Páginas a&b,

2, p. 41-52

CABRAL, Maria Luísa (2002) – Preservation and conservation in South Europe : a survey among

national libraries. In : IFLA council and General Conference, 68th, Glasgow, 2002

http://www.ifla.org/IV/ifla68/papers/129-109e.pdf (Acedido em 2003-01-08)

CAMPOS, Fernanda Maria (2001) – Bibliotecas digitais : uma nova perspectiva de valorização e

acesso ao património cultural. In : Actas do 7º Congresso Nacional de Bibliotecários, Arquivistas

e Documentalistas, Porto, 2001.

CDNL (Conference of Directors of National Libraries) (1996) – The legal deposit of electronic publi-

cations. Unesco

http://www.unesco.org/Webworld/memory/Editorial (Acedido em 2002-09-26)

CLAVEL-MERRIN, Genevieve (2000) - NEDLIB list of terms. NEDLIB Report Series Editor., 17p.,

ISBN 906259151-5 (NEDLIB Report Series ; 7)

COMMISSION ON PRESERVATION AND ACCESS AND THE RESEARCH LIBRARIES GROUP – Preserv-

ing digital Information. Report of the Task Force on Archiving of Digital Information. 1996.

http://www.rlg.org/ArchTF/ (Acedido em Dezembro de 2001)

CONSULTATIVE COMMITTEE FOR SPACE DATA SYSTEMS (2002) – Reference Model for an Open

archive Information System (OAIS), Blue Book (CCSDS 650.0-B-1).

http://wwwclassic.ccsds.org/documents/pdf/CCSDS-650.0-B-1.pdf (Acedido em 2003-01-15)

CORDEIRO, Maria Inês (2001) – Tecnologias, bibliotecas e arquitectura de informação : dos siste-

mas aos objectos. In : Actas do 7º Congresso Nacional de Bibliotecários, Arquivistas e Docu-

mentalistas, Porto, 2001

BIBLIOGRAFIA

141

DCMI (2002) – DCMI elements and element refinements : a current list. Dublin Core Metadata ini-

tiative http://dublincore.org/usage/terms/dc/current-elements/ (Acedido em 2003-01-28)

DE NIET, Marco, OSKAMP, Liesbeth (2001) TEL Digital deposits : state of the art. 2nd draft version.

87 p. http://www.europeanlibrary.org/doc/tel_results_d11_v02.doc Acedido em 17 de Abril de

2002)

DIGITAL LIBRARIES : Future directions for a European Research Programme (2001) - DELOS

Brainstorming Report. San Cassiano, 2001. ERCIM-02-W02 http://delos-

noe.iei.pi.cnr.it/activities/researchforum/Brainstorming/

brainstorming-report.pdf (Acedido em 2003-02-18)

DIGITAL PRESERVATION TESTBED WHITE PAPER (2001) – Migration : context and current status.

Den Haag, ICTU. http://www.digitaleduurzaamheid.nl/bibliotheek/docs/Migration.pdf (Acedido

em 2003-06-02)

DURANTI, Luciana (2001) – The long term preservation of authentic electronic records. In : APERS,

M. G. et al. (eds.): VLDB 2001, Proceedings of 27th International Conference on Very Large

Data Bases, September 11-14, 2001, Roma, Italy. Morgan Kaufman, ISBN 1-55860-804-4

http://www.vldb.org/conf/2001/P625.pdf (Acedido em 2003-01-06)

DUREAU, J. M., CLEMENTS, D. W. G. - Princípios para a preservação e conservação de espécies

bibliográficas. – Edição em língua portuguesa por Maria da Conceição Casanova, Maria Fernanda

Casaca Ferreira, Maria Luísa Macedo. Lisboa : Biblioteca Nacional, 1992, 26 p., ISBN 972-565-

155-3. Edição original publicada por IFLA Section on Conservation, Netherlands em 1986.

EITELJORG II, Harrison et al. (2002) - Archaeology Data Service CAD : A Guide to Good Practice.

AHDS.

http://ads.ahds.ac.uk/project/goodguides/cad/ (Acedido em 2002-09—16)

GRANGER, Stewart (2000) - Emulation as a digital preservation strategy. D-Lib Magazine, 6 (10)

http://www.dlib.org/dlib/october00/granger/10granger.html (Acedido em 2003-01-09)

GROUT, Catherine, PURDY, Phill & RYMER, Janine (>2000) - Creating digital resources for the vis-

ual arts : standards and good practice. AHDS/VADS, Guides to good practice

http://vads.ahds.ac.uk/guides/creating_guide/contents.html (Acedido em 2002-06-25)

HENDLEY, Tony (1998) – Comparison of methods and costs of digital preservation. British Library

Research and Inovation Report; 106. ISBN 0-7123-9713-2

http://www.ukoln.ac.uk/services/elib/papers/tavistock/hendley/hendley.html (Acedido em

2003-03-18)

HIRTLE, Peter (2000) – Archival authenticity in a digital age. In : Autenticity in a digital environ-

ment. Washington, CLIR : 8-21. ISBN 1-88334-77-7.

http://www.clir.org/pubs/reports/pub92/hirtle.html (Acedido em 2002-12-31)

BIBLIOGRAFIA

142

HODGE,G.M. (2000) - Best practices for digital archiving : an information life cycle approach. D-Lib

Magazine [em linha], January v. 6, no. 1. [referência de 25 de Junho de 2002]. Disponível na

Internet em :

http://www.dlib.org/dlib/january00/01hodge.html

HODGE,G.M. & CARROLL, Bonnie C. (1999) - Digital electronic archiving : the state of the art and

the state of the practice. International Council for Scientific and Technical Information.

http://www.icsti.org/99ga/digarch99_TOCP.pdf (Acedido em 2002-06-25)

HOEVEN, Hans van der & ALBADA, Joan van (1996) - Lost memory : libraries and archives de-

stroyed in the Twentieth Century. Paris, UNESCO, 70 p.

http://www.unesco.org/Webworld/mdm/administ/pdf/LOSTMEMO.PDF (Acedido 2002.12.10)

IBM/KB (2001) – Long term preservation study. DNEP. http://www.kb.nl/kb/ict/dea/ltp/ltpstudy-

overview.pdf (Acedido em 2003-01-12)

JONES, Maggie & BEAGRIE, Neil (2001) – Preservation management of digital materials : a hand-

book. London, The British library, 139 p. ISBN 0-7123-0886-5

KAHLE, Brewster (2002) – The Internet Archive. RLG Diginews, 6 (2) , p. 1-7

http://www.rlg.org/preserv/diginews/diginews6-2.html (Acedido em 10.12.2002)

KISLOVSKAY, Galina A. (2000) - A good beginning makes a good ending ? In : Preservation

management : between policy and practice. ECPA, The Hague, 1999.

http://www.knaw.nl/ecpa/PUBL/pmc.pdf (Acedido em 2002.09.24)

Koman, Richard (2002) – How the wayback machine works. The O´Reilly Network.

http://www.oreillynet.com/lpt/a/1295 (Acedido em 2003-01-20)

KOVACS, Diane K , ELKORDY, Angela (2000) – Collection development in cyberspace : building an

electronic library collection. Library Hi Tech, 18 (4), p. 335-359

KUNY, Terry (1998) – The digital dark ages? Challenges in the preservation of electronic informa-

tion. International Preservation News, 17.

http://www.ifla.org/VI/4/news/17-98.htm#2 (Acedido em 2002-05-23)

LAGOSE, Carl (2001) – Keeping Dublin Core simple ; cross domain discovery or resource descrip-

tion ? D-Lib Magazine, 7 (1), 13 p.

http://www.dlib.org/dlib/january01/lagoze/01lagoze.html (Acedido 2002-11-29)

LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) - Open Archives Initiative : Frequently

Asked Questions (FAQ). Protocol version 2.0 (Document version 2002/06/10T11:00:00Z)

http://www.openarchives.org/documents/FAQ.html (Acedido em 2003-02-27)

LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) – The Open Archives Initiative Protocol for

Metadata Harvesting. Protocol version 2.0. (Document version 2002/12/19T16:00 :00Z)

http://www.openarchives.org/documents/FAQ.html (Acedido em 2003-02-27)

BIBLIOGRAFIA

143

LAWRENCE, Gregory W. et al. (2000) Risk management of digital information : a file format inves-

tigation. Council of Library and Information Resources

http://www.clir.org/pubs/reports/pub93/contents.html (Acedido em 2003-01-09)

LOR, Peter Johan, SONNEKUS, Elisabeth A. S. (1997) Guidelines for legislation for national library

services. UNESCO.

http://www.unesco.org/Webworld/nominations/guidelines1_h.htm (Acedido em 2002-09-25)

LORIE,R.A. (2001) The long term preservation of digital information. RLG DigiNews. 5 (3)

http://www.rlg.org/preserv/diginews/diginews5-3.html (Acedido em 2002-11-10)

LOPES, Maria Inês (1998) – As bibliotecas e a organização do conhecimento : evolução e perspec-

tivas. Leituras : Rev. Bib. Nac., Lisboa, S. 3, N. 2

LOPES, Pedro Faria, CARDOSO, Gustavo & MOREIRA, Maria Vasconcelos (2002) - Preservação de

publicações electrónicas na Internet: os arquivos imperfeitos. Cadernos BAD, N. 2.

LUNN, Jean (Prep.) (1981) – Guidelines for legal deposit legislation. Paris, General Information

Programme and UNISIST – Unesco. (PGI-81/WS/23)

LUPOVICI, Catherine (1998) – L’information bibliographique des documents electroniques. B.B.F.

43 (4) http://www.enssib.fr/bbf/bbf-98-4/09-lupovici.pdf (Acedido em 2003-03-20)

LUPOVICI, Catherine (2001) – Les besoins et les données techniques de preservation. 67th IFLA

Council and General Conference, Boston, 2001

http://www.ifla.org/IV/ifla67/papers/163-168f.pdf (Acedido em 04.09.2002)

LUPOVICI, Catherine, MASANÈS, Julien (2000) – Metadata for the long term preservation of elec-

tronic publications. Nedlib Report Series; 2. ISBN 906259146-9

LUPOVICI, Catherine & MASANÈS, Julien (eds.)(2001) - What's next for Digital Deposit Libraries?

Preserving online content for future generation. In : 5th European Conference on Research and

Advanced Technology for Digital Libraries. ECDL Workshop. Darmstadt, 2001.

http://bibnum.bnf.fr/ecdl/2001/index.html (Acedido em 2002.12.15)

LYMAN, Peter (2002) - Archiving the World Wide Web. In : Building a national strategy for digital

preservation : issues in digital media archiving. CLIR. ISBN 1-887334-91-2.

http://www.clir.org/pubs/reports/pub106/Web.html (Acedido em 2003-01-21)

LYNCH, Clifford (1999) - Canonicalization : a fundamental tool fo facilitate preservation and man-

agement of digital information. D-Lib Magazine, 5 (9).

http://www.dlib.org/dlib/september99/09lynch.html (Acedido em 2003-01-02)

LYNCH, Clifford (2000) - Authenticity and integrity in the digital environment : an exploratory

analysis of the Central Role of Trust. In: Authenticity in a digital environment. Washington,

CLIR. http://www.clir.org/pubs/reports/pub92/pub92.pdf (Acedido em 2003-01-02)

MIGRATION : context and current status (2001) - The Hague, Digital preservation testbed white

paper, ICTU http://www.digitaleduurzaamheid.nl/bibliotheek/docs/Migration.pdf (Acedido em

2003-01-09)

BIBLIOGRAFIA

144

NLA (2002) – A digital preservation policy for the National library of Australia.

http://www.nla.gov.au/policy/digpres.html (Acedido em 2002-09-29)

OCLC/RLG Working Group on preservation metadata (2001) - Preservation metadata for digital ob-

jects : a review of the satte of the art : a white paper. 49 p.

http://www.oclc.org/digitalpreservation/presmeta_wp.pdf. (Acedido em 16.01.2002)

OCLC/RLG Working Group on preservation metadata (2001) - A recommendation for content in-

formation. 19 p. http://0clc.org/research/pmwg/contentinformation.pdf (Acedido em

14.04.2002)

OCLC/RLG Working Group on preservation metadata (2002) – Preservation metadata and the OAIS

Information Model : a metadata framework to support the preservation of digital objects: a re-

port. 51 p. http://oclc.org/research/pmwg/ (Acedido em 2003-01-09)

PASKIN, Norman (2003) – The DOI handbook. 3rd ed. International DOI Foundation.

http://www.doi.org/handbook_2000/DOIHandbookv3-0-0.pdf (Acedido em 2003-05-28

PHILIPS, Margaret E. (2001) - Ensuring long-term access to online publications. Journal of Elec-

tronic Publishing, 4 (4). 9 p. http://www.press.umich.edu/jep/04-04/phillips.html (Acedido em

2003-02-23)

POLIVY, Daniel J. & TAMASSIA, Roberto (2002) - Authenticating distributed data using Web ser-

vices and XML signatures. Proc. ACM Workshop on XML Security, ACM Press, 2002

http://www.cs.brown.edu/cgc/stms/papers/xmlsec2002.pdf (Acedido em 2003-01-06)

RAUBER, Andreas & ASCHENBRENNER, Andreas (2001) - Part of our culture is born digital : on ef-

forts to preserve it for future generations. Trans - Internet-Zeitschrift für Kulturwissenschaften.

10 http://www.ifs.tuwien.ac.at/~aola/publications/trans10.html (Acedido em 2003-01-20)

RLG-OCLC (2002) - Trusted digital repositories : attributes and responsabilities, Mountain

View:Research Libraries Group. http://www.rlg.org/longterm/repositories.pdf (Acedido em

2003-03-20)

ROSS. Seamus (2000) – Changing trains at Wigan : digital preservation and the future of scholar-

ship. London, National Preservation Office, 44 p.

http://www.bl.uk/services/preservation/occpaper.pdf (Acedido em 2003-03-20)

ROTHENBERG, Jeff (1995) – Ensuring the longevity of digital documents. Scientific American, 272

(1), p. 24-29

ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. CLIR. (Expanded versi-

on) http://www.clir.org/pubs/archives/ensuring.pdf (Acedido em 2002-12-27)

ROTHENBERG, Jeff (1999) - Avoiding Technological Quicksand: Finding a Viable Technical Founda-

tion for Digital Preservation. CLIR http://www.clir.org/pubs/reports/rothenberg/contents.html

(Acedido em 21.10.2002)

ROTHENBERG, Jeff (2000) - An experiment in using emulation to preserve digital publications. Den

Haag, Koninklijke Bibliotheek. 70 p. ISBN 9062-59-1442

BIBLIOGRAFIA

145

RUSSEL,Kelly & SERGEANT,Derek (1999) - The Cedars project : implementing a model for distrib-

uted digital archives. RLG DigiNews, 3 (3) http://www.rlg.ac.uk/preserv/diginews/diginews3-

3.html (Acedido em 2003-01-20)

SHAFER, Keith (s.d.) – Introduction to Persistent Uniform Resource Locators.

http://purl.oclc.org/docs/inet96.html (Acedido em 2002.07.08)

STAPPEL, Johan, DE NIET, Marco, JOCHUM-STARK, Dorothea (2001) – TEL Metadata : state of the

art review. 3rd and final draft review. 81 p.

http://www.europeanlibrary.org/doc/tel_results_d31_v03.doc (Acedido em 2002-09-24)

STAPELS, Thornton, WAYLAND, Ross & PAYETTE, Sandra (2003) – The Fedora Project: an open-

source digital object repository management system. D-Lib Magazine, 9 (4).

http://www.dlib.org/dlib/april03/staples/04staples.html (Acedido em 2003-06-16)

TAMASSIA, Roberto (2001) Efficient low-cost authentication of distributed data and transactions.

Conduit 10 (2) http://www.cs.brown.edu/cgc/stms/papers/conduit2001.pdf (Acedido em 2003-

01-08)

VEEN, Theo van & CLAYPHAN, Robina (2002) – Metadata in the context of the European Library

Project. Proc. Int. Conf. Dublin Core and Metadata for e-Communities. Florence, 2002.

http://www.bncf.net/dc2002/program/ft/paper2.pdf (Acedido em 2003-02-27)

WEBER, Hartmut (1993) - Opto-electronic storage : an alternative to filming ? CLIR - Commission

on Preservation and Access. http://www.clir.org/pubs/reports/Weber/Weber.html (Acedido em

2002-12-27)

WHEATLEY, Paul (2001) – Migration : a CAMiLEON discussion paper. Ariadne, 29

http://www.ariadne.ac.uk/issue29/camileon/ (Acedido em 2003-01-08)

WERF, Titia van der (2000) – CDNL/CENL activities with identifiers. 66th IFLA Council and General

Conference. Jerusalém, 2000, 5 p. http://www.ifla.org/IV/ifla66/papers/033-82e.htm (Acedido

em 2002-12-27)

WERF-DAVELAAR, Titia van der (1999) – Long-term preservation of electronic publications : the

NEDLIB project. D-Lib Magazine, 5 (9)

http://www.dlib.org/dlib/september99/vanderwerf/09vanderwerf.html (Acedido em 2003-01-

30)

WENDLER, R. – Metadata in the library. LDI Update. Harvard University Library Notes, N. 1286,

1999, p. 4-5. http://hul.harvard.edu/publications/library_notes/pdfs/HULN_1286.pdf (Acedido

em 2002-01-16)

ANEXO 1

SIMULAÇÃO DE MATRIZ DE METADADOS

DE PRESERVAÇÃO

Simulação de Matriz de Metadados de Preservação

CINome dado pelo criador/seleccionadorFornece identificação rápidaSimTextoMário de Sá Carneiro, 1890-1916 Entrada manual ou dada pelo sistemaPartilha Metadados descritivosNenhuma

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Nome do objectoGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

CINº existente na origemRelaciona inequivocamente metadados administrativos de preservação e descritivosSimDepende da aplicaçãoBN B 11401VEntrada manual ou dada pelo sistemaPartilha Metadados descritivosNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Nº de referênciaGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

CIIdentificador interno do repositórioCada objecto requer uma identificação inequívoca no repositórioSimNúmero sequencial500Entrada manual ou dada pelo sistemaPartilha Metadados descritivosNenhuma

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

ID do ObjectoGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

Página 1 de 22

Simulação de Matriz de Metadados de Preservação

CIIdentificação internacional para objectos digitaisCada objecto requer uma identificação inequívoca a nível global enão localSimPURLhttp://purl.pt/1Entrada manual ou dada pelo sistemaPartilha Metadados descritivosNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Identificador persistenteGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

CILocalização do objecto depositado no file systemNecessário para gerir e fornecer acesso administrativo no repositórioSimTexto...\objectos\preservação\Entrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Localização no file systemGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

CIData em que a matriz de preservação entrou no repositórioA data relacionada com outros metadados demonstra a responsabilidade do repositórioSimaaaammdd20030205Entrada manual ou dada pelo sistemaNenhumaA data deve ser expressa num formato normalizado

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Data criação matriz preserv.Grupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

Página 2 de 22

Simulação de Matriz de Metadados de Preservação

CIDescreve aspectos técnicos do objecto. Inclui o nº de ficheiros e onº total de ficheiros MIMEGerir a preservação obriga a que se conheça o estrutura do objecto lógico assim como os componentes individuaisSimTextoComposto por 20 ficheiros - 14 gif, 3 audio/wav, 3 texto e 2 .exeEntrada manual ou dada pelo sistemaNenhumaIdentifica o objecto como simples ou complexo

AIP:Definição:

Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Composição técnicaGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

CIO tipo de objecto a descrever no registo de metadadosA determinação da estratégia de preservação depende do conhecimento da estrutura do objectoSimTextoImagem, Recurso interactivoEntrada manual ou dada pelo sistemaPartilha Metadados descritivosLista de tipos do DCMI pode ser útil

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Tipo de estrutura do objectoGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

CIAmbiente de hardware necessário para a preservação da matrizIdentificação do mínimo de requisitos de hardware para a matriz de preservação correrSimTextoIBM PentiumIII PC com 256 MB RAMEntrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Ambiente hardwareGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

Página 3 de 22

Simulação de Matriz de Metadados de Preservação

CIAmbiente de softwareIde necessário para a preservação da matrizIdentificação do mínimo de requisitos de software para a matriz de preservação correrSimTextoWindows 2000 Versão 5 - Build 2195 Pack 2Entrada manual NenhumaPode-se acrescentar se a última versão é compatível com a anterior. Também se são necessários plugg-ins ou requisitos especiais de memória, etc.

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Ambiente softwareGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

CIRequisitos especiais necessários para instalar o objecto. Instruções ou nºs de série, etc.Fornecer acesso a objectos com requisitos especiais de instalaçãNãoTextoNºs de série, ou ficheiros readme.txtEntrada manual NenhumaEsta informação é particulamente importante para futuras operações de migração de dados

AIP:Definição:

Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Requisitos de instalaçãoGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

CIMétodos utilizados para restringir o acesso, tais como encriptação que podem ter impacto nos procedimentos de preservaçãoNa ausência desta informação pode não ser possível aceder ao objecto ou migrá-loNãoTextoPasswords. Chaves de encriptação, etc.Entrada manual NenhumaNenhuma

AIP:Definição:

Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Inibidores de acessoGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

Página 4 de 22

Simulação de Matriz de Metadados de Preservação

CIMétodos utilizados para favorecer o acesso à matriz de preservação que devem ser preservados ao longo do tempoPossibilitar a activação dos facilitadores de acesso em qualquer acção de preservaçãoNãoTextoO objecto contém links entre os ficheirosEntrada manual NenhumaNenhuma

AIP:Definição:

Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Facilitadores de acessoGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

CIQuaisquer características do original que podem parecer perdas de funcionalidade ou mudança do look-and-feel numa matriz de preservaçãoEvitar o desperdício de tempo com problemas inerentes ao originaNãoTextoNos objectos produzidos nas versões HTML anteriores à versão 4, a etiqueta do formato texto já não é suportadaEntrada manualNenhumaNenhuma

AIP:Definição:

Fundamento:Obrigatório:Formato:Exemplo:

Fonte:Sobreposição:Notas:

QuirksGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

PDIMeios técnicos de autenticação de objectosVerificar e manter a integridade dos dadosSimTextoAplicação de checksumEntrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

AutenticaçãoGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

Página 5 de 22

Simulação de Matriz de Metadados de Preservação

PDINome da pessoa ou organização criadora dos metadadosRegistar a história da responsabilidade da criação dos metadadosSimTextoLurdes Saramago, FCULEntrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Criador dos metadadosGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

PDIData da criação do registo de metadadosFornece possibilidade de saber quando o registo foi criadoSimaaaammdd20030306Entrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Data criação registo metadadosGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

PDIQualquer informação considerada pertinente para a preservação do objecto ou ficheirosCobrir qualquer informação que pode não caber nas outros camposNãoTextoEste objecto pode ser aberto unicamente através de uma drive localEntrada manualNenhumaNenhuma

AIP:Definição:

Fundamento:

Obrigatório:Formato:Exemplo:

Fonte:Sobreposição:Notas:

ObservaçõesGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

Página 6 de 22

Simulação de Matriz de Metadados de Preservação

PDIIdentificador interno do repositórioCada objecto requer uma identificação inequívoca no repositórioSimNúmero sequencial

Entrada manual ou dada pelo sistemaPartilha Metadados descritivosNenhuma

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

ID do objectoGrupo Metadados

ESTRATÉGIA DE PRESERVAÇÃO

Elementos Metadados:

Sub-elementos:

PDIDescrição do processoIdentificação de cada tipo de processo de preservação de uma matrizSimTextoMigração por obsolênciaEntrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Qual a estratégiaGrupo Metadados

ESTRATÉGIA DE PRESERVAÇÃO

Elementos Metadados:

Sub-elementos:

PDIMotivação para aplicação da estratégiaMotivação da decisão sobre a estratégiaSimTextoCriação de uma matriz num formato actualEntrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Motivo da estratégiaGrupo Metadados

ESTRATÉGIA DE PRESERVAÇÃO

Elementos Metadados:

Sub-elementos:

Página 7 de 22

Simulação de Matriz de Metadados de Preservação

PDINome da pessoa ou organização que levou a cabo a operaçãoFornece informação acerca da pessoa/ organização que levou a cabo a operaçãoSimTextoLurdes Saramago, FCULEntrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

OperadorGrupo Metadados

ESTRATÉGIA DE PRESERVAÇÃO

Elementos Metadados:

Sub-elementos:

PDINome da pessoa ou organização responsável pela aprovação da estratégiaFornece informação acerca da pessoa/ organização que tomou a decisãoSimTextoLurdes Saramago, FCULEntrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:

Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

AutorizaçãoGrupo Metadados

ESTRATÉGIA DE PRESERVAÇÃO

Elementos Metadados:

Sub-elementos:

PDIData da autorização da estratégiaFornece possibilidade de saber quando for autorizado o processo de conversãoSimaaaammdd

Entrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Data da autorizaçãoGrupo Metadados

ESTRATÉGIA DE PRESERVAÇÃO

Elementos Metadados:

Sub-elementos:

Página 8 de 22

Simulação de Matriz de Metadados de Preservação

PDITodo o hardware usado na operaçãoFornece a história do hardware usado para executar a operação eidentifica os componentes necessários a reter para uso futuroNãoTextoDrive de disketes de 5 1/4''Entrada manualNenhumaNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Hardware usadoGrupo Metadados

ESTRATÉGIA DE PRESERVAÇÃO

Elementos Metadados:

Sub-elementos:

PDITodo o software usado na operaçãoFornece a história do software usado para executar a operação e identifica os componentes necessários a reter para uso futuroNãoTextoMS Word 2000Entrada manualNenhumaNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Software usadoGrupo Metadados

ESTRATÉGIA DE PRESERVAÇÃO

Elementos Metadados:

Sub-elementos:

PDIDescrição completa das acções de preservaçãoFornece informação que permite reverter o processo ou repeti-loSimTextoDoc. em Wordstar/Migração do doc. Para MS Word 2000/Mudança de nome do ficheiro/Testes de fidelidade/Colocação da matriz de preservação do repositório digitalEntrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:

Fonte:Sobreposição:Notas:

EtapasGrupo Metadados

ESTRATÉGIA DE PRESERVAÇÃO

Elementos Metadados:

Sub-elementos:

Página 9 de 22

Simulação de Matriz de Metadados de Preservação

PDIResultados da estratégiaFornece um registo de resultados resultantes da estratégia de preservação. Inclui a confirmação das mudanças pretendidasSimTextoMigração bem sucedidaEntrada manualNenhumaNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

ResultadoGrupo Metadados

ESTRATÉGIA DE PRESERVAÇÃO

Elementos Metadados:

Sub-elementos:

PDITodas a normas utilizadas durante as acções de preservaçãoFornece consistência ao processoSimTextoManual de Operações de preservação digital XEntrada manualNenhumaNenhuma

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Linhas orientadorasGrupo Metadados

ESTRATÉGIA DE PRESERVAÇÃO

Elementos Metadados:

Sub-elementos:

PDIData e hora da conclusão do processoIdentifica a sequência das acções de preservação significantes para a história do objectoSimaaaammdd

Entrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Data de conclusão do processoGrupo Metadados

ESTRATÉGIA DE PRESERVAÇÃO

Elementos Metadados:

Sub-elementos:

Página 10 de 22

Simulação de Matriz de Metadados de Preservação

PDIQualquer informação considerada pertinente para a preservação do objecto ou ficheirosCobrir qualquer informação que pode não caber nas outros camposNãoTextoA migração foi complicada pelo nº elevado de links de ficheiros degráficos Entrada manualNenhumaNenhuma

AIP:Definição:

Fundamento:

Obrigatório:Formato:Exemplo:

Fonte:Sobreposição:Notas:

ObservaçõesGrupo Metadados

ESTRATÉGIA DE PRESERVAÇÃO

Elementos Metadados:

Sub-elementos:

PDIIdentificador interno do repositórioCada objecto requer uma identificação inequívoca no repositórioSimNúmero sequencial

Entrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

ID do objectoGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos:

PDIIdentificador interno do repositórioCada objecto requer uma identificação inequívoca no repositórioSimNúmero sequencial

Entrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

ID do ficheiroGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos:

Página 11 de 22

Simulação de Matriz de Metadados de Preservação

PDIInformação acerca da localização de um ficheiro no contexto do objecto lógicoFornece um registo acerca das principais relações entre objectos complexos ou grupos de objectosNãoTexto

Entrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:

Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Contexto estruturalGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos:

PDINome e extensão do ficheiroPermite identificar o ficheiro em conjunto com o ID do objectoSimTexto100_20.docEntrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Nome do ficheiro e extensãoGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos:

PDIEspaço ocupado por um ficheiro no servidor, expresso num formato normalizadoFacilita o planeamento de depósito no repositórioSimAbreviaturas normalizadas

Entrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:

Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Dimensão do ficheiroGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos:

Página 12 de 22

Simulação de Matriz de Metadados de Preservação

PDIData e hora em que o ficheiro foi criado, retirada dos cabeçalhos do ficheiroFornece informação de autenticaçãoNãoaaaammdd

Entrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:

Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Data e hora da criação do ficheiroGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos:

PDITipo de ficheiro ou formato, em regra um formato MIMEFornece informação sobre as ferramentas que podem abrir o ficheiro e ajuda a identificar os ficheiros de tipos particularesSimTextoImagem/gif ; aplicação/mswordEntrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Tipos e formatos MIMEGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos:

PDIVersão do formato do ficheiroFornece informação sobre as ferramentas que podem abrir o ficheiro e ajuda a identificar os ficheiros de tipos particularesNãoTextoMSWord 2000Entrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

VersãoGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos:

Página 13 de 22

Simulação de Matriz de Metadados de Preservação

PDINo caso do objecto ser complexo, é o ficheiro globalIdentifica qual o ficheiro necessário para representar um objecto complexo integralmenteNãoTextoIndex.html / Start.exeEntrada manualNenhumaNenhuma

AIP:Definição:Fundamento:

Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Indicador globalGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos:

PDIResolução especial da imagem expressa em pixels por cm ou dots por cm

600 dpi ; 1500 d/cm

AIP:Definição:

Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

IMAGEMGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Resolução

PDIDimensões da imegem expressa em pixels na vertical e na horizontel

4096x6144 pixels

AIP:Definição:

Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

IMAGEMGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Dimensões

Página 14 de 22

Simulação de Matriz de Metadados de Preservação

PDIO bit depth de cada pixel

1;8;24

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

IMAGEMGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Resolução tonal

PDIO espaço de cor usado na imagem

Escala de cinzentos ; RGB

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

IMAGEMGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Espaço de cor

PDIQualquer sistema usado para acrescentar consistência de cor ao longo da captura, display e output da imagem

PhotoCD; OptiCal; Profile/80; Softproof (Pfotoshop pug-in)

AIP:Definição:

Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

IMAGEMGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Gestão de cor

Página 15 de 22

Simulação de Matriz de Metadados de Preservação

PDILocalização e codificação para todos os CLUT usados para mapear desde o depth bais maixo ao mais alto

Residente (se o CLUT se encontra no ficheiro de imagem), Base64 (Se o CLUT estiver codificado em binário)

AIP:Definição:

Fundamento:Obrigatório:Formato:Exemplo:

Fonte:Sobreposição:Notas:

IMAGEMGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Lookup table

PDIComo a imagem digitalizada é armazenada relativamente ao topoda imagem

000 (se a orientação é alinhada com o topo da imagem): 090 (se o topo da imagem está 90 graus desviado, seguindo os ponteiros do relógio)

AIP:Definição:

Fundamento:Obrigatório:Formato:Exemplo:

Fonte:Sobreposição:Notas:

IMAGEMGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Orientação

PDIO tipo e o nível de compressão

ITU Grupo 4

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

IMAGEMGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Compressão

Página 16 de 22

Simulação de Matriz de Metadados de Preservação

PDIA frequência da amostra em kHz

44.1kHz

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

AUDIOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Resolução

PDIO tempo de gravação audio em minutos e segundos ou minutos, segundos, 100ºs de segundo e frames

67 minutos 12 segundos; 03:12:24:20

AIP:Definição:

Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

AUDIOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Duração

PDIWord length used to encode the audio. Consequentemente uma indicação de uma série dinâmica

16 bit, 24 bit

AIP:Definição:

Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

AUDIOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Bit rate

Página 17 de 22

Simulação de Matriz de Metadados de Preservação

PDIO tipo e o nível de compressão

MPEG 3

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

AUDIOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Compressão

PDIO formato de saída e a versão

Real Audio II

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

AUDIOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Encapsulação

PDINº de pistas e realações umas com as outras

1.2 pista stereo;2.single track;3.5 canal surround

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

AUDIOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Nº e tipo de pista

Página 18 de 22

Simulação de Matriz de Metadados de Preservação

PDIResolução em pixels de uma única frame

640 pixels x 480 pixels

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

VÍDEOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Dimensões das frames

PDIO tempo de gravação vídeo em minutos e segundos ou minutos, segundos, 100ºs de segundo e frames

67 minutos 12 segundos; 03:12:24:20

AIP:Definição:

Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

VÍDEOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Duração

PDIO frame rate normalizado para vídeo por segundo

25 fps

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

VÍDEOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Frame rate

Página 19 de 22

Simulação de Matriz de Metadados de Preservação

PDIO tipo e o nível de compressão

MPEG 3

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

VÍDEOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Compressão

PDIO tipo de estrutura de codificação e a versão

MPEG 3

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

VÍDEOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Estrutura de codificação

PDIParâmetros de som incorporados numa estrutura simples de ficheiro de vídeo. Pode incluirtodos os campos especificados em audio

AIP:Definição:

Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

VÍDEOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Som

Página 20 de 22

Simulação de Matriz de Metadados de Preservação

PDIO tipo e o nível de compressão

ficheiro .zip

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

TEXTOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Compressão

PDIJogo de caracteres usado no documento

ASCII; Unicode

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

TEXTOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Jogo de caracteres

PDINome da DTD aplicada à estrutura do texto

EAD

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

TEXTOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: DTD associada

Página 21 de 22

Simulação de Matriz de Metadados de Preservação

PDIDivisões lógicas num ficheiro de texto estruturado

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

TEXTOGrupo Metadados

FICHEIROS

Elementos Metadados:

Sub-elementos: Divisões estruturais

PDIDocumenta relações dos objectos ao ambienteIdentifica as relações existentes entre o objecto e ambienteNãoTexto

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Relações dos objectosGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

PDIRestrições de acesso aos utilizadoresPermite dar ou não acesso aos utilizadoresSimTexto

Entrada manual ou dada pelo sistemaNenhumaNenhuma

AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:

Gestão de direitosGrupo Metadados

OBJECTO

Elementos Metadados:

Sub-elementos:

Página 22 de 22

ANEXO 2

GLOSSÁRIO

GLOSSÁRIO

ARQUITECTURA PEER-TO-PEER

Tipo de rede em que cada estação de trabalho tem capacidades e responsabilidades equi-

valentes. Difere de uma arquitectura de cliente-servidor na qual existem computadores

que estão dedicados ao serviço de outros computadores.

http://www.webopedia.com/TERM/p/peer_to_peer_architecture.html (acedido em 2003-

03-21)

API (APPLICATION PROGRAM INTERFACE)

Conjunto de rotinas, protocolos e ferramentas para construção de aplicações de software.

http://www.webopedia.com/TERM/A/API.html (acedido em 2003-06-16)

CDWA (CATEGORIES FOR THE DESCRIPTION OF WORKS OF ART)

Esquema de metadados criado no âmbito da Art Information Task Force (AITF). Define um

conjunto de campos para a descrição de objectos de arte. Com efeito, tem paralelismo com

o Dublin Core, mas é muito mais especializado no âmbito e na função.

Distingue entre informação intrínseca do item (objecto de arte, arquitectura ou conjunto de

itens) e informação extrínseca, tal como informação sobre pessoas lugares e conceitos re-

lacionados com o trabalho. Tal como o DC não está ligado a nenhuma DTD mas pode ser

incorporado em sistemas XML.

Existe outro sistema similar ao CDWA que é o Visual Resources Association Core Categori-

es, que tenta definir campos fulcrais para a descrição de recursos visuais e também acres-

centa informação sobre cópias tais como imagens digitais. Ainda está em testes.

http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)

CHECKSUM

Esquema de detecção de erros que consiste em acompanhar cada mensagem por um valor

numérico baseado no conjunto de bits que compõem a mensagem. O receptor aplica a

mesma fórmula e verifica se o valor numérico é o mesmo. Se isso não acontecer, a men-

sagem pode considerar-se corrompida.

http://www.webopedia.com/TERM/c/checksum.html (acedido em 2003-06-16)

DIGEST

Representação de um texto na forma de um conjunto de dígitos, criados usando uma fór-

mula intitulada one-way hash function.

http://www.webopedia.com/TERM/m/message_digest.html (acedido em 2003-05-25)

DUBLIN CORE (DC)

Esquema de metadados composto por uma lista de 15 campos desenhados inicialmente

para descrever recursos com base na Web, de tal forma que permitisse aos motores de

busca encontrá-los. Não é uma aplicação XML mas desenha elementos que podem ser in-

corporados nesse tipo de aplicações (como p. ex. METS). Devido ao seu âmbito genérico os

seus elementos podem ser qualificados de forma a limitar o seu campo de acção, o que

limita as suas funcionalidades de pesquisa cruzada mas aumenta a precisão. ODC tem um

grande potencial como conjunto de metadados para recursos digitais, mas na maior parte

das vezes tem que ser acrescentado por informação mais específica adequada às necessi-

dades dos objectos. Como não contém nele próprio uma DTD ou um Esquema XML neces-

sita ser usado em conjunto ou embutido numa aplicação XML.

http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)

EAD (ENCODED ARCHIVAL DESCRIPTION)

DTD XML aplicada na comunidade arquivistica. Devido à sua grande facilidade de ligar ob-

jectos digitais é capaz de descrever colecções digitais da mesma maneira que análogos

tradicionais. É também desenhado por forma a mapear padrões chave tais como MARC,

que permite que os registos EAD sejam pesquisados no seguimento de outros formatos

estabelecidos. O formato EAD tem capacidade para descrever uma colecção digital e a sua

estrutura interna, desde o mais alto nível da colecção até aos itens individuais. As suas

descrições individuais são todavia limitadas.

http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)

ESQUEMA DE METADADOS (METADATA SCHEME)

Fornece a estrutura formal desenhada para identificar a estrutura de conhecimento de uma

dada disciplina e para proceder à sua interligação com a informação da disciplina. Desta

forma é criado um sistema de informação que orienta a identificação, descoberta e uso da

informação no contexto da disciplina.

http://www.ala.org/alcts/organization/ccs/ccda/tf-meta3.html (acedido em 2002-06-02)

GRID

Tipo de arquitectura de rede. Ao contrário das redes convencionais que têm o seu ponto

fulcral nas comunicações entre dispositivos, a arquitectura GRID aproveita os ciclos de não

processamento de todos os computadores na rede para resolver problemas de excessiva

intensidade de tráfego para máquinas stand-alone.

http://www.webopedia.com/TERM/g/grid_computing.html (acedido em 2003-02-22)

IMS

Esquema de metadados que se destina à gestão de recursos de ensino on line. É uma DTD

para XML e inclui componentes que fornecem metadados descritivos e administrativos e foi

desenhado para mapear DC. Enquanto indiscutivelmente potente já foi criticado como mui-

to complexo e não é muito usado nas bibliotecas digitais.

http://www.odl.ox.ac.uk/metadata.htm acedido em 2002-06-02

INTEROPERABILIDADE

Capacidade de dois ou mais sistemas ou componentes trocarem informação e a manipula-

rem sem apoio de outros sistemas.

http://www.ala.org/alcts/organization/ccs/ccda/tf-meta3.html (acedido em 2002-06-02)

MARC (MACHINE READABLE CATALOGUING)

Padrão estabelecido para a criação de registos para catálogos em linha. Tem características

para descrição de informação bibliográfica mas tem fraca capacidade para a descrição de

metadados administrativos ou estruturais. É também limitado quanto à descrição de incu-

nábulos ou manuscritos que podem estar incluídos numa colecção digital. Mapeamentos ao

formato MARC existem em quase todos os sistemas de metadados.

http://www.odl.ox.ac.uk/metadata.htm acedido em 2002-06-02

LOOK-AND-FEEL

Forma, aspecto e características externas de usabilidade.

METADADOS

Informação estruturada, que pode estar inserida num cabeçalho e que descreve os recur-

sos a que se reporta. Exemplos de metadados são os elementos do catálogo de uma biblio-

teca. Enquanto os recursos interessam ao utilizador final os metadados interessam às pes-

soas ou aos programas que têm que manusear a informação. Os metadados estão presen-

tes no processo de recuperação da informação ao proporcionar aos utilizadores a descober-

ta da existência dessa informação, que a localizem e que sirva para a identificar. Frequen-

temente os metadados descrevem o conteúdo, a descrição física, a localização, o tipo, a

forma da informação, e também que informação é necessária para a sua gestão: migra-

ções, datas de expiração, segurança, autenticação e formato dos ficheiros.

CLAVEL-MERRIN, Genevieve. NEDLIB list of terms. NEDLIB Report Series Editor. 2000,

17p., ISBN 906259151-5 (NEDLIB Report Series ; 7)

http://info.wgbh.org/upf/glossary.html (acedido em 2002-06-02)

Metadados são dados estruturados, codificados que descrevem características da informa-

ção e que ajudam na sua identificação, acesso e gestão.

http://www.ala.org/alcts/organization/ccs/ccda/tf-meta3.html acedido em 2002-06-02

Tipos de metadados :

1) Metadados descritivos: informação que descreve o conteúdo intelectual de um

recurso, tal como o formato MARC ou um esquema similar

2) Metadados administrativos: informação que permite a manipulação dos recursos

por um repositório: pode incluir informação acerca da forma da sua digitaliza-

ção, do formato de armazenamento, etc. informação de copyright e licencia-

mentos e informação necessária para a preservação de longo prazo (metada-

dos de preservação)

3) Metadados estruturais: informação que liga objectos a outros objectos para

formar unidades lógicas (p. ex. informação que relaciona imagens ou páginas

de um livro a outras e dessa forma se constrói o livro)

Em geral só os metadados descritivos são visíveis para o utilizador final.

http://www.odl.ox.ac.uk/metadata.htm acedido em 2002-06-02

Num contexto de preservação digital, os metadados identificam o recurso, determinam a

sua responsabilidade, pormenorizam o conteúdo, estabelecem as relações contextuais com

outros recursos, fornecem os pormenores técnicos e o conhecimento da cadeia de bites de

forma a que seja possível recuperar o recurso e fornecem informação legal.

METS (METADATA ENCODING & TRANSMISSION STANDARD)

Standard desenhado especificamente para codificar metadados descritivos, administrativos

e estruturais de recursos de uma biblioteca digital. Surge no seguimento do MOA (Making

of America II). É escrito em Esquema XML e por isso necessita de recorrer a software que

lide com este novo formato. O formato METS depende de um sistema complicado de refe-

rências cruzadas entre documentos e é gerado automaticamente em vez de ser editado

manualmente.

http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)

MIME (MULTIPURPOSE INTERNET MAIL EXTENSIONS)

Formatação específica para mensagens em formato não ASCII de forma a que estas pos-

sam ser enviadas através da Internet. Permite enviar e receber ficheiros de gráficos, áudio,

ou vídeo através de sistemas de email. Adicionalmente comporta outros conjuntos de ca-

racteres além de ASCII. Existem alguns tipos MIME predefinidos, p. ex.: GIF ou PostScript

http://www.webopedia.com/TERM/M/MIME.html (acedido em 2003-03-02)

OBJECTO DIGITAL (TERMINOLOGIA OAIS)

Qualquer recurso que pode ser armazenado ou recuperado, i.e., tornado significativo, por

um computador.

Definição retirada de :

Russel, Kelly & Sergeant, Derek (1999) – The Cedars Project: Implementing a model for

distributed digital archives. RLG Diginews, 3 (3)

http://www.rlg.ac.uk/preserv/diginews/diginews3-3.html (acedido em 2003-01-20)

ONE-WAY HASH FUNCTION

Algoritmo que permite transformar mensagens ou textos numa sequência de dígitos com o

propósito de garantir a gestão da segurança. One way significa que é praticamente impos-

sível afastar o texto original da sequência.

http://www.webopedia.com/TERM/O/one-way_hash_function.htm (acedido em 2003-05-

25)

ONIX

Aplicação XML desenhada para proporcionar aos editores e livreiros a troca de metadados

essenciais. Como consequência traz muitas facilidades de descrição bibliográfica, preços e

informação de stoks, mas é muito limitado em termos de metadados administrativos ou

estruturais. Tem também capacidade limitada para descrever outros recursos que não li-

vros impressos.

http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)

OPEN ARCHIVAL INFORMATION SYSTEM (OAIS)

Modelo conceptual para um repositório digital desenvolvido sob os auspícios do CCSDS

(NASA Consultative Committee for Space Data Systems).

Este modelo determina terminologia e esclarece conceitos importantes para o repositório

digital, identifica os componentes chave e os processos comuns à maioria da actividade de

depósito digital e propõe um modelo informacional para objectos digitais e metadados as-

sociados. Este modelo pode ser aplicado a um leque alargado de objectos nascidos digitais

ou mesmo objectos com existência física e não comporta assunções acerca de estratégias

de preservação.

O modelo OAIS é entendido no âmbito duma organização de pessoas e sistemas cuja res-

ponsabilidade é preservar a informação e disponibilizá-la a uma determinada comunidade.

http://info.wgbh.org/upf/glossary.html (acedido em 2003-03-21)

OPAC (ONLINE PUBLIC ACCESS CATALOG)

Catálogo bibliográfico das colecções acessíveis em linha.

PLUG-AND-PLAY

Capacidade de um sistema informático automaticamente configurar mecanismos de expan-

são a novos serviços e dispositivos. Deve ser possível acrescentar funcionalidades sem re-

correr a mais elementos de configuração ou à utilização de dip-switches ou jumpers.

http://www.webopedia.com/TERM/p/plug_and_play.html (acedido em 2003-02-22)

PRESERVAÇÃO DIGITAL

Conjunto de operações de gestão a empreender capazes de assegurar a manutenção a

longo prazo de uma cadeia de bytes e o acesso continuado ao seu conteúdo.

http://oclc.org/research/pmwg/ (acedido em 2003-03-21)

PURL (PERSISTENT UNIFIED RESOURCE LOCATION)

Funcionalmente um PURL é um URL que não aponta directamente para a localização do

recurso mas sim para um serviço de resolução intermédio. Este associa o PURL com o URL

e retorna o URL para o cliente. Em gíria da Web é um padrão http para redireccionamento.

http://www.purl.oclc.org (acedido em 2003-03-21)

RDF (RESOURCE DESCRIPTION FRAMEWORK)

Aplicação de XML que não é um esquema de metadados de per si, mas um sistema para os

codificar através de um enquadramento padronizado. Desenhada inicialmente para descre-

ver recursos da Internet, fornece um caminho normalizado de descrição dos nomes dos

elementos e a troca de informação sobre eles. RDF expressa-se usualmente em XML e

pode ser usado como enquadramento para muitos esquemas de metadados.

http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)

REGISTO

Contexto de arquivo

Item informacional gerado, coligido ou recebido desde o início no âmbito de uma activida-

de individual ou institucional, que contenha suficiente conteúdo, contexto e estrutura que

forneça prova da existência dessa actividade

Contexto de base de dados

Colecção de itens relacionados tratados como um todo numa base de dados

REPOSITÓRIO DIGITAL CONFIÁVEL

Um repositório digital confiável é aquele cuja missão é assegurar a manutenção e o acesso

continuado a uma designada comunidade a recursos digitais confiáveis, agora e no futuro.

Os repositórios confiáveis podem assumir diferentes formas : algumas instituições podem

optar por construir os seus próprios repositórios enquanto outras podem optar por contra-

tar serviços externos.

http://oclc.org/research/pmwg/ (Acedido em 2003-01-09)

TEI (TEXT ENCODING INITIATIVE)

Norma para codificar textos electrónicos. Sistema modular, integra um conjunto de etique-

tas às quais podem ser acrescentadas outras para adequação a aplicações particulares tais

como transcrições de manuscritos. Inclui facilidades para metadados descritivos, a maior

parte dos quais está localizada no cabeçalho TEI, comporta também a parte do documento

que contenha informação acerca do documento electrónico propriamente dito e da fonte de

onde foi extraído. O cabeçalho foi desenhado para mapear o formato MARC. O formato TEI

é muito usado em projectos com uma grande componente textual.

http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)

XML (EXTENSIBLE MARKUP LANGUAGE)

Linguagem desenhada inicialmente para marcar texto electrónico, mas devido às suas

propriedades de robustez, à sua independência face a softwares e à fácil intercomunicabili-

dade entre sistemas, a sua estrutura mapeia facilmente objectos digitais.

Um sistema XML pode ser aplicado de duas maneiras:

1. DTD (Document type definition) método antigo que lista quais as etique-

tas (tags) que devem ser utilizadas num documento XML assim como o

seu conteúdo e relações entre elas

2. Um método mais recente de codificar XML é um esquema XML, que de-

fine as regras que um documento XML deve seguir num outro documento

XML. O esquema XML é mais potente que o DTD.

http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)

Z39.50

Protocolo (ANSI/NISO Z39.50-1950/ISO23950) que define a interoperabilidade entre clien-

te e servidor (origem e alvo) e permite ao cliente pesquisar a base de dados, identificar os

recursos segundo determinados critérios e recuperá-los.

http://www.loc.gov/z3950/agency/ (acedido em 2003.05.25)

ANEXO 3

DESDOBRAMENTO DE SIGLAS E ACRÓNIMOS

DESDOBRAMENTO DE SIGLAS E ACRÓNIMOS

AHDS : Arts and Humanities Data Service

AIP : Archive information package

API : Application Program Interface

ASCII : American Standards Code for Information Interchange

CAMiLEON : Creative Archiving at Michigan & Leeds : Emulating the Old on the New

CCSDS : Consultative Committee for Space Data Systems

CEDARS : CURL Exemplars in digital archives project

CLIR : Council on Library and Information Resources

COBRA : Computorized Bibliographic Record Actions

CURL : Consortium of University Research Libraries

DC : Dublin Core

DCMI : Dublin Core Metadata Inciciative

DIP : Dissemination information package

DOI : Digital object identifier

DSEP : Deposit System Electronic Publications

DSP : Digital Services Project (NLA)

DSTC : Distributed Systems Technology Centre (NLA)

DTD : Document Type Definition

EAD : Encoding Archival Description

EPCA : European Comission on Preservation and Access

EVA : Elinkeinoelämän Valtuuskunta (the acquisition and archiving of electronic network

publications)

FEDORA : Flexible Extensible Digital Object and Repository Architecture

HTML : Hypertext Modelling Text

IFLA : International Federation of Library Associations

InterPARES : International Research on Permanent Authentic Records in Electronic Sys-

tems)

ISAD(G) : International Standard for Archive Description

JISC : Joint Information Systems Committee of the Higher and Further Education Councils

Kulturarw3 : The Royal Swedish Web Archiv3

LDI : Library Digital Initiative

METS : Metadata Encoding and Transmission Standard

MIME : Multipurpose Internet Mail Extensions

NASA : National Aeronautics and Space Administration

NBN : National Bibliographic Name

NEDLIB : Networked European Deposit Library

NLA : National Library of Australia

OAI : Open Archives Initiative

OAI-PMH : Open Archives Initiative – Protocol for Metadata Harvesting

OAIS : Open Archival Information System Reference Model

OCLC : Online Computer Library Center

PAC : Preservation and Conservation

PADI : Preserving Access to Digital Information

PANDORA : Preserving and Accessing Networked DOcumentary Resources of Australia

PDF : Portable document format

PURL : Persistent Uniform Resource Locator

RDF : Resource Description Framework

RLG : Research Libraries Group

SGML : Standard Generalized Markup Language

SIP : Submission Information Package

SOAP : Simple Object Access Protocol

STMS : Secure Transaction Management Systems

UML : Unified Modeling Lanuage

UNESCO : United Nations Educational, Scientific and Cultural Organization

URI : Uniform Resource Identifier

URL : Uniform Resource Locator

URN : Uniform Resource Name

UVC : Universal Virtual Computer

VEO : VERS Encapsulated Object

VERS : Victorian Electronic Record Strategy

W3C : World Wide Web Consortium

WIPO : World Intellectual Property Organization

WSDL : Web Services Description Language

XML : Extensible Markup Language

ANEXO 4

SÍTIOS RECOMENDADOS NA ÁREA

DA PRESERVAÇÃO DIGITAL

SÍTIOS RECOMENDADOS

CAMiLEON : Creative Archiving at Michigan & Leeds : Emulating the Old on the New

http://www.si.umich.edu/CAMILEON/about/aboutcam.html

Projecto conjunto das universidades de Michigan (USA) e Leeds (UK). Desenvolve e avalia

estratégias de preservação digital de longo prazo, com especial interesse na estratégia de

emulação.

CEDARS : Curl Exemplars in Digital Archives Project

http://www.leeds.ac.uk/cedars/

Projecto conjunto das universidades de Leeds, Cambridge e Oxford no Reino Unido. Dedi-

ca-se a estudar metodologias e boas práticas no campo da preservação digital. Financiado

pelo JISC, teve início em 1998 e terminou em 2002.

CLIR : Council on Library and Information Resources

http://www.clir.org/

Organização não lucrativa patrocinada por mais de 160 instituições americanas, a maioria

universidades. Através de projectos, programas e publicações tenta aperfeiçoar e garantir

o acesso à informação a gerações futuras.

CURL : Consorcium of University Research Libraries

http://www.curl.ac.uk/about/

Consórcio que promove a investigação em ciências documentais e da informação, assim

como o ensino e a aprendizagem em bibliotecas universitárias no Reino Unido. Composto

pelas seguintes universidades :

Aberdeen, Birmingham, Bristol, British Library, Cambridge, Dublin (Trinity), Durham, Edin-

burgh, Glasgow, Leeds, Liverpool, London (Senate House), LSE, Imperial, KCL, UCL,

JRULM, National Library of Scotland, National Library of Wales, Newcastle, Nottingham, Ox-

ford, Southampton, Sheffield e Warwick.

DC : Dublin Core

http://dublincore.org/

Conjunto de 15 elementos de metadados para descrição de recursos digitais na Internet.

A iniciativa Dublin Core é também um polo de discussão, aberto, com interesse no desen-

volvimento da interoperabilidade de esquemas de metadados.

DELOS : Network of Excellence on Digital Libraries

http://delos-noe.iei.pi.cnr.it/

Iniciativa da Comissão Europeia aberta à participação e contribuição de investigadores, vi-

sando a promoção de investigação em bibliotecas digitais na Europa.

DLF : Digital Library Federation

http://www.diglib.org/

Consórcio de bibliotecas e outras organizações pioneiras no uso das tecnologias de infor-

mação digital. Através dos seus membros orienta as bibliotecas na identificação de padrões

e boas práticas para a gestão das colecções digitais e para o acesso em rede.

DPC : Digital Preservation Coalition

http://www.dpconline.org/graphics/

Consórcio criado em 2001 para fazer face aos desafios urgentes da preservação de recur-

sos digitais no Reino Unido e internacionalmente de forma a poder garantir a existência

futura de uma memória digital global.

DSP : Digital Services Project

http://www.nla.gov.au/dsp/

Projecto da Biblioteca Nacional da Austrália que visa assegurar a gestão das colecções digi-

tais assim como a sua preservação e acesso ao longo do tempo.

ECPA: European Commission on Preservation and Access

http://www.knaw.nl/ecpa/

Plataforma europeia para discussão e cooperação de instituições patrimoniais nas áreas da

preservação e acesso. Promove o intercâmbio de conhecimentos e experiências. Organiza

encontros de trabalho e conferências.

EVA : the acquisition and archiving of electronic network publications

http://www.lib.helsinki.fi/eva/english.html

Projecto conjunto de bibliotecas, editores e organizações especializadas no âmbito de pro-

grama estratégico do Ministério da Educação da Finlândia. Visa criar metodologias e ferra-

mentas para capturar, registar e arquivar recursos digitais distribuídos através da Internet

e investigar as condições para a sua preservação nas bibliotecas.

FEDORA : Flexible Extensible Digital Object and Repository Architecture

O projecto FEDORA tem sede na biblioteca da Universidade da Virgínia nos Estados Unidos

da América e é desenvolvido no âmbito de uma parceria com a Universidade de Cornell. É

subsidiado pela a Fundação Andrew W. Mellon.

IFLA : International Federation of Library Associations

http://www.ifla.org

Organização que lidera internacionalmente os interesses das bibliotecas e serviços de in-

formação. É ao mesmo tempo fonte de informação de referência em todas as áreas relaci-

onadas com as ciências da documentação e informação.

JISC : Joint Information Systems Committee of the Higher and Further Education Councils

http://www.jisc.ac.uk/

Promove o uso de sistemas e tecnologias da informação no ensino superior e de pós-

graduação no Reino Unido.

KULTURARW3 : The Swedish Archive

http://www.ifla.org/IV/ifla66/papers/154-157e.htm

Projecto que investiga métodos de recolha, preservação e acesso aos recursos digitais sue-

cos, através da Internet.

NEDLIB : Networked European Deposit Library

http://www.kb.nl/coop/nedlib/

Projecto conjunto das bibliotecas nacionais europeias. Visa construir uma infraestrutura

básica na qual uma rede europeia de bibliotecas de depósito possa operar. O seu objectivo

é assegurar que os recursos digitais do presente sejam acessíveis no futuro.

NLC : Electronic Collections Coordinating Group - Networked Electronic Publications Policy

and Guidelines

http://www.nlc-bnc.ca/9/8/index-e.html

Grupo de trabalho da Biblioteca Nacional do Canadá. Coordena, entre outros, o problema

da preservação digital de longo prazo

OCLC : Online Computer Library Center, Inc.

http://www.oclc.org/digitalpreservation/about/archive/

Consórcio que apoia cerca de 41000 bibliotecas em 82 países. Além de muitos outros ser-

viços fornece acesso a recursos digitais a longo prazo, assim como procede à sua preser-

vação.

PADI : Preserving Access to Digital Information

http://www.nla.gov.au/padi/

Portal temático australiano totalmente vocacionado para a preservação digital

PANDORA : Preserving and Accessing Networked Documentary Resources of Australia

http://pandora.nla.gov.au/

Projecto de depósito de recursos digitais no âmbito da Biblioteca Nacional da Austrália que

visa dedicar-se à preservação digital de longo prazo.

Consórcio formado pelas State Library of Victoria, ScreenSound Australia, State Library of

South Australia, State Library of New South Wales, State Library of Western Australia,

Northern Territory Library and Information Service, State Library of Queensland e National

Library of Australia.

RLG : Research Libraries Group

http://www.rlg.org/rlg.html

Consórcio de mais de 160 instituições, em todo o mundo, pioneira no desenvolvimento de

soluções cooperativas para os problemas da gestão de colecções, tais como aquisição, for-

necimento e preservação de informação.

TEL : The European Library

http://inf2.pira.co.uk/factsheets/inform/digicult/tel.html#consortium

Consórcio europeu que acompanha o desenvolvimento de bibliotecas digitais com vista à

criação de uma futura biblioteca digital europeia baseada em colecções digitais distribuí-

das. Tem nas suas funções, além de outras, o desenvolvimento de um conjunto consensual

de abordagens para as bibliotecas nacionais nas suas relações com os editores ao nível do

depósito legal.

VERS : Victorian Electronic Record Strategy

http://www.prov.vic.gov.au/vers/

Projecto australiano. Congrega um conjunto de padrões, linhas orientadoras e projectos de

implementação cujo objectivo é a autenticidade dos recursos digitais em arquivo criados e

geridos pelo governo australiano.