estado da arte e boas práticas em repositórios...
TRANSCRIPT
1.1.1.1 DEPARTAMENTO DE CIÊNCIAS E TECNOLOGIAS DA INFORMAÇÃO
PRESERVAÇÃO DIGITAL DE LONGO PRAZO
Estado da arte e boas práticas em repositórios digitais
Maria de Lurdes Tainha Saramago Rodrigues
(Licenciada em Línguas e Literaturas Modernas
Variante Estudos Portugueses)
Dissertação para a obtenção do Grau de Mestre em
Estudos de Informação e Bibliotecas Digitais
Orientador: Drª Fernanda Maria Guedes de Campos
Co-Orientador: Prof. Doutor Pedro Faria Lopes
Lisboa, 20 de Julho de 2003
i
AGRADECIMENTOS
O meu primeiro e mais sentido agradecimento vai para a minha orientadora Sra. Dra. Fer-
nanda Maria Guedes de Campos que de forma sábia me acompanhou ao longo da elabora-
ção desta dissertação.
Agradeço ainda ao Sr. Prof. Doutor Pedro Faria Lopes por ter aceite ser co-orientador da
dissertação, pelos seus bons conselhos e orientações finais.
Agradeço à minha família pela paz de espírito que me proporcionou durante estes dois
anos de trabalho intenso e em especial ao meu marido pela sua presença e apoio, muitas
vezes técnico.
Agradeço às minhas colegas Dra. Isabel Goulão e Dra. Margarida Meira pela companhia e
amizade constantes.
Agradeço também ao meu colega Dr. Paulo Leitão pela paciência de me ter ouvido e pelas
boas sugestões que me apresentou.
ii
“… much as monks of times past, it falls to librarians
and archivists to hold to the tradition which reveres his-
tory and the published heritage of our times”
Terry Kuny, 1998
iii
RESUMO
Aborda-se o estado da arte da preservação de recursos digitais na perspectiva da sua pre-
servação de longo prazo. São enunciadas as práticas e as diversas metodologias tidas ac-
tualmente como as mais adequadas para se obviar à fragilidade física dos suportes e à
vulnerabilidade do meio digital, assim como a perdas inerentes à preservação de recursos
nos mais diversos meios e formatos.
A recolha e selecção de recursos a preservar são também pontos que desenvolvemos. Co-
ligimos exemplos reais que espelham as abordagens das comunidades que consideramos
mais avançadas nesta matéria.
São focados os aspectos tecnicamente mais inovadores do ponto de vista da utilização de
metadados e a sua relação com as diversas estratégias implementáveis, nomeadamente a
emulação, a migração, a encapsulação, a aplicação do UVC (Universal Virtual Computer) e
o XML. São ainda referidas as boas práticas quanto a metadados de preservação e são
integrados alguns esquemas que confirmam o acompanhamento das respectivas comuni-
dades em que se inserem, as quais partem de um esquema padrão que elegem, e evoluem
numa perspectiva de adaptação ao próprio ambiente.
A metodologia de implementação de repositórios digitais à qual nos dedicámos é baseada
no modelo de referência OAIS desenvolvido no âmbito da NASA. Este modelo encontra-se
em vias de ser implementado pelos repositórios digitais mais relevantes à escala global.
Verificámos que a comunidade CEDARS é aquela que, dadas as suas características pode
servir de modelo.
No seguimento desta investigação simulámos um conjunto de metadados preparado para
ajustar ao OAIS na forma de um pacote de informação para depósito passível de ser adap-
tado a uma comunidade com características similares às da comunidade nacional.
Acrescentámos de forma sistematizada as boas práticas que devem ser mantidas pelas ins-
tituições que pretendem implementar repositórios ou bibliotecas digitais.
Palavras chave : Preservação digital; Boas práticas; Metadados; Estratégias de preserva-
ção; Migração; Emulação; OAIS
v
ABSTRACT
The long-term digital preservation is focused paying special attention to the state of the art
of the practices and methodologies that can tackle the physical fragility of supports and the
vulnerability of the digital environment. The minimization of information loss during the
preservation process through the various formats and platforms is addressed.
The selection of resources to preserve is pointed out, as well as real life cases depicted
from the most up-to-date approaches of several communities.
We have stressed the most promising techniques of metadata usage and their relationship
with the various strategies available, e.g. emulation, migration, encapsulation, “Universal
Virtual Computer” and XML.
The good practices of preservation metadata are stressed alongside some metadata
schema.
The digital repositories methodology that we have adopted is based upon the OAIS refer-
ence model developed within NASA. This model is about to be implemented by the world
most relevant digital repositories.
We have studied with care the most important digital preservation communities in the
world and we have considered the CEDARS community as it is one that can be looked as a
standard.
On the aftermath of our investigation we have simulated a subset of metadata to be im-
plemented within the OAIS model in the form of a deposit information package. The area
of application should be the national community.
We have included, in a systematic way, the good practices that must be object of mainte-
nance by the various institutions that want to implement digital repositories and digital li-
braries.
Keywords :
Digital preservation; Good practices; Metadata; Preservation strategies; Migration; Emula-
tion; OAIS
vii
ÍNDICE
RESUMO ............................................................................................................ iii
ABSTRACT........................................................................................................... v
1. INTRODUÇÃO...................................................................................................1
1.1. DELIMITAÇÃO DO TEMA ..............................................................................1
1.2. MOTIVAÇÃO PARA A ESCOLHA DO TEMA........................................................6
1.3. APRESENTAÇÃO DO PROBLEMA E DOS SEUS PONTOS CHAVE ...........................7
1.4. QUESTÕES FUNDAMENTAIS .........................................................................9
1.5. OBJECTIVOS ............................................................................................ 12
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS...................................... 15
2.1. CARACTERÍSTICAS DE UMA BIBLIOTECA DIGITAL ......................................... 16
2.2. A PRESERVAÇÃO DOS RECURSOS E A GESTÃO DAS BIBLIOTECAS DIGITAIS .... 17
2.2.1. Alguns aspectos tecnológicos básicos das bibliotecas digitais..................... 17
2.2.2. A tecnologia do acesso ....................................................................... 19
3. QUADRO TEÓRICO DE REFERÊNCIA................................................................... 23
3.1. A PRESERVAÇÃO DA MEMÓRIA DOS POVOS ................................................. 23
3.2. O PAPEL DAS INSTITUIÇÕES PATRIMONIAIS ................................................ 26
3.2.1. Os recursos digitais e o depósito legal ................................................... 28
3.2.2. Modo de aquisição dos recursos ............................................................ 30
3.3. CARACTERIZAÇÃO DO AMBIENTE TECNOLÓGICO .......................................... 32
3.3.1. Características dos recursos ................................................................. 32
3.3.2. Características dos suportes de armazenamento dos recursos ................... 33
3.3.3. Obsolência dos dispositivos de leitura .................................................... 37
viii
3.4. CICLO DE VIDA DOS RECURSOS DIGITAIS................................................... 37
3.4.1. Criação dos recursos........................................................................... 37
3.4.2. Selecção dos recursos ......................................................................... 38
3.4.3. Identificação persistente dos recursos ................................................... 40
3.4.4. Descrição e acesso dos recursos ........................................................... 42
3.4.5. Armazenamento dos recursos .............................................................. 42
3.4.6. Preservação de longo prazo e recuperação da informação ........................ 43
3.5. INTEGRIDADE, AUTENTICIDADE E AUTENTICAÇÃO DE RECURSOS DIGITAIS .... 44
3.5.1. Integridade ....................................................................................... 44
3.5.2. Autenticidade..................................................................................... 46
3.5.3. Autenticação...................................................................................... 49
3.6. ESTRATÉGIAS DE PRESERVAÇÃO DIGITAL ................................................... 54
3.6.1. Preservação tecnológica e impressão em papel ....................................... 55
3.6.3. Emulação .......................................................................................... 56
3.6.4. Migração ........................................................................................... 57
3.6.5. Encapsulação..................................................................................... 59
3.6.6. Software Máquina Virtual (UVC - Universal Virtual Computer) ................... 59
3.6.7. XML (Extensible Markup Language)....................................................... 60
3.7. METADADOS DE PRESERVAÇÃO DE LONGO PRAZO ....................................... 62
3.7.1. Comunidades temáticas e respectivas necessidades de metadados ............ 65
3.7.2. Sistemas de metadados aplicáveis à preservação digital........................... 67
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL.............. 71
4.1. CONFIABILIDADE DE UM REPOSITÓRIO DIGITAL .......................................... 71
4.1.1. As questões legais .............................................................................. 72
4.1.2. As questões financeiras ....................................................................... 73
4.1.3. A gestão do risco................................................................................ 75
4.1.4. As garantias de acesso continuado aos recursos digitais........................... 78
4.1.5. O Modelo de referência OAIS ............................................................... 80
ix
4.2. AS GRANDES OPÇÕES DE PRESERVAÇÃO..................................................... 88
4.2.1. Internet Archive ................................................................................. 88
4.2.2. NEDLIB - Networked European Deposit Library ....................................... 89
4.2.3. CEDARS (CURL Exemplars in Digital Archives) ........................................ 92
4.2.4. PANDORA (Preserving and Accessing Networked Documentary Resources of
Australia) .......................................................................................... 94
4.2.5. OCLC/RLG Working Group on Preservation Metadata................................ 95
4.2.6. FEDORA (Flexible Extensible Digital Object and Repository
Architecture).................................................................................... 97
4.3. A MOTIVAÇÃO PARA A UTILIZAÇÂO DO MODELO DE REFERÊNCIA OAIS ........... 98
4.3.1. Os interesses das potenciais comunidades utilizadoras ............................. 98
4.3.2. Simulação de uma matriz de metadados de preservação ........................ 125
4.4. OS REPOSITÓRIOS DIGITAIS E A DESCOBERTA E CAPTURA DE METADADOS.. 126
4.4.1. O OAI-PMH (Open Archives Inititative Protocol for Metadata Harvesting) .. 126
4.4.2. O exemplo do serviço de acesso do Projecto FEDORA............................. 127
4.5. BOAS PRÁTICAS DE PRESERVAÇÃO RECOMENDADAS NA IMPLEMENTAÇÃO DE UM
REPOSITÓRIO DIGITAL ........................................................................... 128
5. CONCLUSÃO ................................................................................................ 133
BIBLIOGRAFIA ................................................................................................. 139
ANEXO 1 – SIMULAÇÃO DE MATRIZ DE METADADOS DE PRESERVAÇÃO
ANEXO 2 – GLOSSÁRIO
ANEXO 3 – SIGLAS E ACRÓNIMOS
ANEXO 4 – SÍTIOS RECOMENDADOS NA ÁREA DA PRESERVAÇÃO DIGITAL
1. INTRODUÇÃO
1
1. INTRODUÇÃO
1.1. DELIMITAÇÃO DO TEMA
Em 1986 J. M. Dureau e D. W. G. Clements1 no âmbito da IFLA (International Federation of
Library Association) definiam a preservação de espécies bibliográficas como :
“Preservação engloba todos os aspectos financeiros e de gestão incluindo a armazenagem em todos os seus aspectos, questões de pessoal, política, técnicas e métodos envolvidos na preservação das espécies bibliográficas e a informação que elas contenham”
Nesta definição apontam-se dois grandes objectivos, sendo um a preservação do conteúdo
intelectual da informação, transferindo-o de um para outro suporte, p. ex. papel para mi-
crofilme e o outro a preservação da integridade física original da espécie bibliográfica tão
intacta e utilizável quanto possível.
Como nem todas as bibliotecas ou arquivos teriam condições nem manifesto interesse para
assegurar a integridade física de todas as espécies que possuíam, deveria ser estabelecida,
no âmbito da gestão de colecções, uma política de prioridades.
Estes conceitos, mantêm actualidade para documentos que não são exclusivamente livros
e manuscritos mas também filmes, fotografias, gravuras, mapas, registos de som e ima-
gem, etc.
Em Portugal, Luísa Cabral (1998)2 manifesta a sua preocupação ao constatar que no virar
do século XX as bibliotecas e arquivos portugueses ainda não encararam com conhecimen-
to de causa e seriedade a extensão do problema que têm em mãos, dado que o estado das
colecções nunca foi diagnosticado.
Não existem, de facto, práticas instaladas de gestão das colecções onde se insira a selec-
ção dos documentos a preservar, uns pela simples transmissão do conteúdo intelectual,
1 DUREAU, J. M., CLEMENTS, D. W. G. (1992) - Princípios para a preservação e conservação de espé-
cies bibliográficas. – Edição em língua portuguesa por Maria da Conceição Casanova, Maria Fer-nanda Casaca Ferreira, Maria Luísa Macedo. Lisboa : Biblioteca Nacional.
2 CABRAL, Maria Luísa (1998) – Microfilmagem e digitalização : a coexistência pacífica. Páginas a & b, 2, p. 41-52
1. INTRODUÇÃO
2
outros ainda acrescentando o valor do artefacto, e outros unicamente pelo valor do arte-
facto.
No que diz respeito aos recursos digitais, não obstante as enormes barreiras a ultrapassar,
particularmente nos campos económico e financeiro devido aos custos altos que acarreta,
preservar e facilitar o acesso aos recursos electrónicos a longo prazo tornou-se um objecti-
vo que deve ser inscrito no plano de gestão de colecções das bibliotecas digitais, para que
a persistência a longo prazo do acesso aos recursos possa ser efectivamente gerida e mo-
nitorizada. É que, no domínio digital e ao contrário do recurso em papel, a informação e o
seu suporte são muito mais perecíveis e voláteis.
Em ambiente arquivístico propriamente dito estes factores são normalmente objecto de
legislação específica para evitar a perda irremediável de informação.
A criação e desenvolvimento de uma colecção, digital ou tradicional deve, por conseguinte,
submeter-se a alguns parâmetros, tais como :
1) Missão da instituição e da biblioteca detentoras dos recursos
2) Estratégia e política de desenvolvimento das colecções
3) Caracterização da própria colecção articulando as necessidades de po-
tenciais utilizadores com os limites temáticos e também com compromis-
sos em termos de cooperação com outras instituições e bibliotecas.
É indispensável a existência de um documento escrito que explicite a política de desenvol-
vimento das colecções e dele devem constar:
1) Uma introdução com enquadramento e âmbito da política de desenvol-
vimento
2) As missões da instituição e da biblioteca e o resumo das necessidades e
prioridades
3) Parâmetros das colecções: grupos de utilizadores, programas e requisi-
tos, limites genéricos dos temas, inclusões e exclusões em termos gerais,
compromissos de cooperação, etc.
A estes pontos devem ser acrescentados outros relacionados com necessidades de preser-
vação a fim de obviar a perdas irrecuperáveis.
É o caso da selecção, ponto fulcral no ciclo de vida dos recursos digitais a preservar, que
deve estar inscrita no âmbito da gestão de colecções.
1. INTRODUÇÃO
3
Infelizmente não existem ainda ferramentas electrónicas de selecção que possam substituir
o elemento humano de forma eficaz durante esta fase. O lado positivo da questão é que o
desempenho humano vem acrescentar qualidade e consistência à decisão sobre as colec-
ções a preservar.
Atendendo à orientação do trabalho que nos propomos apresentar, deixando de lado os
aspectos da preservação dos documentos com suporte físico, é necessário atingir e ultra-
passar uma nova meta com base em aspectos tecnológicos, dadas as especificidades dos
documentos enquanto unicamente digitais. As tecnologias introduzem factores de mudança
na arquitectura dos recursos digitais com repercussões ao nível dos serviços a desenvolver,
tais como a pesquisa, a recuperação ou a preservação dos recursos.
Surgem dificuldades de preservação que podemos considerar diferentes e novas, que di-
zem respeito ao ambiente de mudança permanente, à obsolência tecnológica, à vulnerabi-
lidade do ambiente digital, etc.
Os factores mais preocupantes da era digital, que assustam pelos riscos que acarretam
são:
1) A natureza efémera dos recursos digitais
a) Efémera para os suportes de armazenamento
Discos, bandas, etc, cujos formatos podem ser substituídos e se tornam obso-
letos (caso, p. ex., das disketes de 5 ¼” substituídas pelas de 3,5” ainda há
relativamente poucos anos). A deterioração dos suportes pode também consti-
tuir um alto factor de risco se a exposição ao calor, humidade, calamidades ou
actos terroristas, não for acautelada.
b) Efémera para as tecnologias de armazenamento
- Sistemas operativos e software que aparecem com novas versões em espa-
ços de tempo muito curtos dando origem a ambientes hostis, onde os recursos
deixam de ser reconhecidos à medida que envelhecem;
- Para os formatos dos ficheiros ou esquemas de compressão com base em
sistemas proprietários.
c) Efémera devido ao fraco envolvimento institucional e à ausência de polí-
ticas e procedimentos de preservação definidas para o efeito.
1. INTRODUÇÃO
4
2) A dependência da tecnologia
É impossível ter acesso a recursos digitais sem assegurar a existência de sistemas de har-
dware e software compatíveis pois ao contrário do documento impresso, o documento
electrónico para ser lido necessita de apoio tecnológico.
A combinação destes factores torna impossível a sobrevivência dos recursos digitais sem
uma atenção constante. Um texto digital não pode ser deixado ao abandono durante anos
e voltar a ser lido sem intervenção humana.
Os meios de edição e impressão estão relativamente normalizados à escala internacional.
Um físico na Finlândia e um poeta em Portugal esperam que a sua produção científi-
co/cultural mantenha a sua integridade no essencial. Já o ambiente digital proporciona va-
riantes dos recursos digitais e encoraja grupos diferentes a prosseguir diversos objectivos
e normas. Acrescente-se ainda vários tipos de recursos e vários tipos de hardware e
software que as diversas disciplinas podem produzir e para os quais se espera que sejam
preservados.
Todas as variáveis devem, pois, ser equacionadas face à mudança tecnológica:
a) A rapidez da mudança é uma característica das tecnologias da informa-
ção digital. Esta rapidez significa que todos os passos dados na busca da
estabilidade e permanência estão também em risco de se tornarem obso-
letos, até mesmo antes de serem adoptados.
b) Os regimes de propriedade intelectual encorajam privatizações de vários
tipos, incluindo a restrição do acesso à informação, p. ex., através da cria-
ção de sistemas proprietários que permitem encriptar e esconder a infor-
mação a utilizadores que não estão autorizados a aceder ao sistema, até
que a informação perca o seu valor comercial.
c) A quantidade de trabalho criado na forma digital ameaça ultrapassar as
nossas práticas tradicionais de gestão.
d) O conjunto dos factores já apresentados ameaça atingir custos de ges-
tão imprevisíveis.
e) Finalmente, a efemeridade da natureza dos meios de armazenamento e
transmissão impõe a maior urgência na tomada de medidas.
Contra esta lista de tendências impõe-se uma enorme expectativa. Existem padrões com-
portamentais na comunidade das bibliotecas e também na editorial no que diz respeito à
1. INTRODUÇÃO
5
preservação, permanência, e difusão. Estes valores emergem com grande vitalidade pe-
rante os riscos envolvidos na instabilidade do ambiente digital.
Face aos novos desafios colocados pela Internet que, de igual modo, facilitam os acessos e
os contactos entre instituições congéneres, é fundamental ou mesmo condição de sobrevi-
vência pensar em termos de cooperação entre arquivos, bibliotecas, museus, grandes edi-
tores, produtores de informação em geral, criadores de software, etc. Os altos custos a ul-
trapassar, por um lado, e a distribuição generalizada dos recursos em redes, por outro,
facilitam a emergência de parcerias. A título de exemplo podemos referir a utilização do
modelo de referência OAIS (Open Archive Information System) criado sob os auspícios da
NASA (National Aeronautics and Space Administration) pelo CCSDS (NASA Consultative
Committee for Space Data Systems) que será desenvolvido em detalhe no ponto 4.1.5. Os
projectos de preservação digital CEDARS (Curl Exemplars in Digital Archives Project),
PANDORA (Preserving and Accessing Networked DOcumentary Resources of Australia) e
NEDLIB (Networked European Deposit Library) adoptaram este modelo de referência e po-
demos considerá-los verdadeiras instituições virtuais de partilha de recursos, tanto no
campo tecnológico como na gestão do conhecimento.
Para fazer face aos elevados custos da preservação deve, portanto, pré-existir discussão e
consenso ao mais alto nível das instituições que pretendam levar a cabo a criação de repo-
sitórios digitais. Entenda-se aqui por repositórios digitais, arquivos ou bibliotecas digitais
que decidiram manter e preservar os próprios recursos ou ainda com a capacidade de ar-
mazenar recursos alheios, acessíveis ou não a utilizadores externos.
Os resultados dos projectos implementados devem estar documentados de forma transpa-
rente e ser amplamente divulgados. No seguimento de trabalho pluridisciplinar devem sur-
gir linhas orientadoras de selecção de recursos. A título de exemplo, podemos referir-nos
às linhas orientadoras da Biblioteca Nacional do Canadá e também da Biblioteca Nacional
da Austrália.
Durante a selecção dever-se-á verificar se os recursos digitais a preservar são cópias de
documentos com existência física ou nascidos digitais. A sua forma original poderá influen-
ciar as opções de selecção para preservação, tendendo a deixar para um segundo plano,
as cópias de documentos com existência física que não estão em risco de desaparecimento
ou não têm valor acrescentado pelo suporte físico. Os recursos nascidos digitais ao serem
sujeitos ao crivo da selecção, terão à partida o seu suporte electrónico como alerta para
um possível desaparecimento.
1. INTRODUÇÃO
6
No decurso deste trabalho vamos procurar:
1. Abordar a perspectiva da criação de bibliotecas digitais e das opções de gestão da
preservação, assumidas com vista a prevenir o desaparecimento dos recursos a longo
prazo.
2. No âmbito do quadro teórico de referência, fazer o ponto da situação da preservação
digital a nível mundial.
3. Discutir as estratégias a implementar com vista a ultrapassar os problemas da obso-
lência tecnológica.
4. Ir ao encontro das boas práticas utilizadas e dos sistemas de metadados de uso mais
corrente utilizando, como metodologia, o benchmarking. Os projectos seleccionados
para comparação são o CEDARS, o PANDORA, o NEDLIB e o OCLC/RLG-WG.
5. Simular uma matriz de metadados adaptada a uma determinada comunidade de
utilizadores.
6. Enumerar as boas práticas conducentes à eficaz implementação de um repositório
digital confiável.
1.2. MOTIVAÇÃO PARA A ESCOLHA DO TEMA
A motivação para a escolha do tema e do problema desta dissertação surge da experiência
do exercício profissional de bibliotecária. A conservação e preservação de documentos é
uma disciplina querida dos profissionais da documentação em geral, bibliotecários ou ar-
quivistas e alicerça-se em épocas distantes, com muitos séculos de permeio.
Com a emergência das novas tecnologias e a utilização alargada da Internet surgem ele-
mentos novos, como a possibilidade de gerar e difundir recursos criados em computador
baseados em múltiplos meios, aos quais chamamos multimedia digital e surge também, a
possibilidade de digitalizar documentos em suporte papel, documentos sonoros, artefactos
museológicos, etc. Estes recursos, uns nascidos digitais, outros cópias de documentos com
existência física, dadas as suas características, possuem enormes potencialidades do ponto
de vista da difusão e acesso à informação e ao conhecimento, mas possuem também al-
guns factores de alto risco para a sua sobrevivência a longo prazo. Estes serão detalhada-
mente estudados ao logo desta dissertação.
1. INTRODUÇÃO
7
Diz-nos Fernanda Campos em intervenção no Congresso da BAD (Associação Portuguesa
de Bibliotecários Arquivistas e Documentalistas) de 20013 que:
“Uma das mais importantes qualidades da informação em formato digital consiste no facto de não ser fixa pela sua própria natureza, ao contrário do que sucede com os textos impressos. Os textos digitais não são finais nem finitos nem são fixos, quer na essência quer na forma (...)”
Por um lado, nós, bibliotecários, lidamos com ferramentas electrónicas que aumentam a
capacidade de gerir o conhecimento, de forma a que a difusão da informação se alargue a
um número de utilizadores da vez maior, não só da nossa comunidade mas de comunida-
des à escala planetária. Por outro, corremos o risco de perder todas as mais valias acres-
centadas pelo nosso trabalho, assim como os recursos digitais propriamente ditos devido à
vulnerabilidade do ambiente digital e à obsolência tecnológica.
É o elevado sentido do risco de perda que nos dá a motivação para nos dedicarmos a esta
investigação sobre preservação de recursos digitais a longo prazo.
1.3. APRESENTAÇÃO DO PROBLEMA E DOS SEUS PONTOS CHAVE
O problema que iremos explorar ao longo deste trabalho de tese é muito complexo e diz
respeito à preservação de recursos digitais, nomeadamente quando vista sob a perspectiva
biblioteconómica, isto é, pelo gestor de colecções. Tencionamos abordá-lo pelas seguintes
vertentes:
a) Deterioração e obsolência de hardware e suportes de armazenamento
- Qualquer peça de hardware deteriora-se com o tempo, por vezes até ao
ponto de já não poder voltar a ser usada. Mas é acima de tudo a sua de-
sactualização / obsolência e não a sua deterioração que preocupa os res-
ponsáveis pela preservação dos recursos digitais.
- A longevidade dos suportes de armazenamento é outra variável a ter em
conta. A titulo exemplificativo referimos que se estima que a duração de
uma banda magnética seja de 10 a 20 anos4 e que a de um CD-ROM seja
de 50 a 100 anos. Enumeraremos estas referências no ponto 3.3.2 assim
como outras, relativas a outros suportes.
3 CAMPOS, Fernanda Maria (2001) – Bibliotecas digitais : uma nova perspectiva de valorização e
acesso ao património cultural. In: Congresso Nacional de Bibliotecários, Arquivistas e Documen-talistas. Porto, 2001.
4 Aschenbrenner, A. (2001) - Long-term preservation of digital material : building an archive do pre-serve digital cultural heritage from the Internet. Institut für Softwaretechnik und Interaktive Sys-teme der Technischen Universität Wien
1. INTRODUÇÃO
8
b) Obsolência de software
Preservar o fluxo de bites, não garante que a informação seja preservada. É necessário
software que a leia de forma inteligível. Essas peças de software são desenvolvidas de
modo contínuo por parte dos produtores comerciais de software ou mesmo em instituições
sem fins lucrativos. Assiste-se, por este motivo a uma frenética aparição de produtos no-
vos, ou novas versões, que tomam conta do mercado e obrigam a actualizações no seio
dos próprios repositórios que estão destinados a receber e armazenar recursos a longo
prazo.
c) Boas práticas usadas na criação e manutenção dos recursos digitais
O conceito “boas práticas” é encarado neste trabalho essencialmente como criação de me-
tadados. Em Borbinha (2001)5 encontramos a seguinte definição para metadados:
“informação estruturada sobre ou representativa de um recurso (documento ou obra em geral)”.
A normalização nesta área do conhecimento tem sido objecto de estudo alargado e este
mesmo trabalho dá-nos uma comparação entre biblioteca tradicional e biblioteca digital
bem como a caracterização dos metadados relacionados. Mais à frente nesta tese aborda-
remos de modo detalhado o assunto metadados, no entanto podemos desde já acrescentar
que:
A gestão efectiva da preservação digital é facilitada pela criação, manuten-
ção e evolução de metadados de apoio à preservação. Estes podem docu-
mentar os processos técnicos associados à preservação, especificar os di-
reitos da gestão da informação e estabelecer a autenticidade dos conteú-
dos digitais.
Diversas iniciativas foram desenvolvidas no que diz respeito a metadados
para preservação. Estes desenvolvimentos, existem de forma independen-
te e respondem a necessidades particulares de instituições e projectos.
Existem pontos comuns, mas também muitas diferenças. A uns e a outros
nos referiremos ao longo do desenvolvimento do trabalho.
Iniciativas tais como o Dublin Core Metadata Initiative (DCMI) demonstram
o valor do consenso no campo das boas práticas a implementar. Dentro
5 BORBINHA, J. (2001) - Metadata: conceito e sua relevância para as bibliotecas. In : Congresso Na-
cional de Bibliotecários, Arquivistas e Documentalistas, 7º, Porto, 2001.
1. INTRODUÇÃO
9
deste espírito a OCLC/RLG Working Group em metadados de preservação6
(Online Computer Library Center/ Research Libraries Group) foi criada
para iniciar um processo de construção consensual de metadados para
preservação
d) Confiabilidade de um repositório digital
A preservação a longo prazo, em larga escala, capaz de responder às necessidades dos in-
vestigadores e académicos do futuro, carece de infra-estruturas profundas, capazes de su-
portar sistemas distribuídos de repositórios digitais.
Um dos pontos críticos para a criação de infra-estruturas de repositórios digitais é a inexis-
tência de número suficiente de organizações avalizadas, capazes de armazenar, migrar e
assegurar o acesso às colecções digitais.
Neste contexto, um elemento da maior importância será a existência de um processo de
certificação de repositórios digitais que assegure um clima de segurança no que diz respei-
to ao futuro da preservação digital.
O problema no caso português surge quando :
Instituições que se lançam na criação de bibliotecas digitais estão apenas
parcialmente habilitadas à passar à sua concretização, tanto do ponto de
vista de conhecimentos teóricos como tecnológicos.
A vertente preservacionista é simplesmente ignorada. Ressalvamos o caso
da manutenção e permanência dos recursos, que ao longo do tempo tem
vindo a sensibilizar as instituições e mesmo os particulares.
A preservação de recursos digitais é pois, um assunto que deve ser encarado como sendo
de importância estratégica nacional, sob pena de vermos desaparecer pedaços da nossa
História.
1.4. QUESTÕES FUNDAMENTAIS
Ao longo desta tese tentaremos aprofundar algumas questões por nós consideradas fun-
damentais.
6 OCLC/RLG Working Group on preservation metadata (2001) - Preservation metadata for digital ob-
jects: a review of the state of the art: a white paper. http://www.oclc. org/ digitalpreserva-
1. INTRODUÇÃO
10
a) A preservação da memória dos povos
Conscientes que estamos do crescimento acelerado da criação de recursos digitais à escala
planetária e consequente proliferação destes através de redes, tais como, Internet, Intra-
net, Extranet, etc, e também conscientes da vulnerabilidade do ambiente digital, surgem-
nos as seguintes questões :
- A produção intelectual dos dias de hoje, nascida digital, estará em dias futuros mais
ou menos longínquos, depositada em repositórios digitais confiáveis e bem protegidos?
Ou desaparecerá, deixando as nações irremediavelmente empobrecidas?
b) A preservação de recursos digitais
Com o surgimento da tecnologia digital muitos criadores produzem directamente em com-
putadores. Alguma dessa informação pode ser impressa, mas a maior parte, com ênfase
em bases de dados, recursos multimedia, informação geográfica, páginas da Internet, etc.,
existe unicamente em formato digital, ainda com a possibilidade da existência simultânea
de formatos diversos no mesmo recurso e de versões diferentes do seu conteúdo. Surge-
nos de imediato a questão da selectividade.
- Será que toda essa informação é importante para o futuro ?
- Que herança vamos deixar ?
- Quem decide que recursos preservar perante o cenário preocupante da questão ante-
rior ?
- Os responsáveis pelas unidades documentais?
- Os profissionais da informática?
- Os decisores políticos?
c) Sensibilização para a criação de bibliotecas digitais
Uma biblioteca digital é uma colecção de recursos electrónicos de informação proveniente
de uma variedade de fontes, incluindo a Web. Fisicamente, uma biblioteca deste tipo apa-
rece como um sítio Web ou uma compilação de ligações a sítios num ou mais servidores
que podem ser acedidos através da Internet (Kovaks, 2000)7.
Manter uma biblioteca digital é um compromisso entre a gestão da qualidade das colecções
e a administração dos sítios na Web.
tion/presmeta_wp.pdf. (acedido em 16.01.2002) 7 KOVACS, Diane K , ELKORDY, Angela (2000) – Collection development in ciberspace. Library Hi
Tech, 18 (4), p. 335-359.
1. INTRODUÇÃO
11
- Quais os factores que devem ser tidos em consideração pelos intervenientes na criação
de bibliotecas digitais quanto à manutenção dos conteúdos e sua preservação a longo pra-
zo?
d) Estratégias de preservação
A preservação de recursos digitais consiste numa mediação técnica entre o objecto e a in-
formação que veicula (Lupovici, 2001)8. Num contexto tradicional, não digital, a simples
preservação do objecto físico, p. ex., um livro constitui o essencial do trabalho e ao mesmo
tempo são conservados alguns dados (ou metadados) sob a forma de catálogos, onde se
descreve o conteúdo da obra e a sua contextualização.
Temos também o exemplo mais recente de documentos sonoros analógicos para os quais
existe a necessidade de mediação técnica de um aparelho que transforme uma vibração
física em ondas sonoras e para o qual as características técnicas de transformação muda-
ram com o desaparecimento de materiais substituídos por outros de novas gerações in-
compatíveis. Neste último caso, a preservação concentra-se no suporte e na obsolência do
material que o constitui. Haverá que transferi-lo para novos suportes compatíveis com os
materiais em uso.
No contexto informático, as soluções existentes passíveis de implementação, migração de
dados ou emulação de máquinas e sistemas operativos, entre outras, incidem ou sobre os
dados ou sobre as tecnologias envolventes. Que estratégias implementar ?
- Preservação tecnológica ?
- Migração ?
- Emulação ?
- Encapsulação ?
- XML ?
e) A necessidade da existência de boas práticas
A existência de boas práticas é uma necessidade imperiosa para atingir a preservação e
recuperação da informação tal qual ela foi produzida.
8 LUPOVICI, Catherine (2001) – Les besoins et les données techniques de préservation. 67th IFLA
Council and General Conference, Boston, 2001
1. INTRODUÇÃO
12
Em ambiente digital os recursos são mutáveis, por este motivo deve ser mantido ao longo
do tempo um historial por forma a garantir as suas qualidades de autenticidade e integri-
dade (Lupovici, 1998)9.
As tecnologias de acesso aos recursos digitais rapidamente se tornam obsoletas e por isso
haverá que encapsular juntamente com o recurso informação acerca do hardware, do sis-
tema operativo e respectivo software usados para o criar.
Os metadados de preservação devem ser usados para:
Armazenar informação técnica sobre decisões e acções de preservação;
Documentar estratégias de conversão de dados;
Registar os efeitos das estratégias de conversão de dados;
Assegurar a autenticidade dos recursos digitais ao longo do tempo;
Registar informação acerca de gestão de colecções e de direitos.
- Com vista à criação de metadados de preservação que sistema escolher ? Haverá um sis-
tema de eleição ?
1.5. OBJECTIVOS
Os recursos digitais em bibliotecas, arquivos e museus vão desde ficheiros de simples texto
até bases de dados de recursos multimedia altamente complexos.
A informação digital é composta por uma crescente parte da nossa herança cultural e inte-
lectual e oferece enormes benefícios aos utilizadores. Ao mesmo tempo, a preservação e o
acesso a esta informação dependem de meios pouco estáveis, da tecnologia, da criação de
metadados na origem e da determinação da autenticidade dos recursos.
Quando uma biblioteca ou um arquivo cria os seus próprios recursos, seja por digitalização
de colecções existentes seja com documentos unicamente digitais, é possível decidir sobre
normas, formatos, controlo de qualidade e metadados associados que vai usar. Quando o
mesmo acontece com recursos capturados através da Internet essa capacidade de controlo
não existe.
Acontece que, por vezes por puro desconhecimento, outras por falta de fundos ou qualquer
outra razão, os organizadores de bibliotecas digitais não têm preocupações preservacionis-
9 LUPOVICI, Catherine (1998) – L’information bibliographique de douments electroniques. Paris, BBF,
43 (4)
1. INTRODUÇÃO
13
tas nem utilizam as chamadas boas práticas oferecidas pela normalização e não integram a
criação de metadados específicos para a preservação dos recursos. O mesmo se verifica no
que diz respeito a normas instituídas para a criação e manutenção dos sítios.
Passado algum tempo, todo o investimento, tanto a nível financeiro como intelectual per-
de-se, o que dá lugar a frustrações do utilizador final e a empobrecimento do património
cultural e científico.
A preservação dos recursos digitais é, por conseguinte, uma missão que deve ser conside-
rada estratégica pelos estados e por isso endossada, na sua parte fundamental às institui-
ções patrimoniais: bibliotecas nacionais, arquivos nacionais ou grandes bibliotecas acadé-
micas. Estes devem ser apetrechados de todos os meios, humanos, tecnológicos e finan-
ceiros para fazer face à complexidade dos problemas que decorrem da própria natureza
dos recursos e do meio ambiente digital.
A instabilidade do ambiente da Internet obriga a uma constante presença do elemento
humano. Damos os exemplos, entre outros, da criação de ferramentas de indexação, pes-
quisa e captura em larga escala, que percorrem e perscrutam a Internet sem cessar des-
cobrindo recursos que vão de encontro às necessidades de selecção ou ainda ferramentas
que lhes associam metadados. No caso da preservação digital de longo prazo, serão meta-
dados específicos para preservação.
Os recursos digitais tornam-se ilegíveis e inacessíveis se os mecanismos de leitura neces-
sários se tornarem obsoletos. A fragilidade física dos suportes, a obsolência tecnológica e a
plasticidade do meio ambiente digital são obstáculos a ultrapassar na preservação digital
de longo prazo.
Consideramos como preservação digital de longo prazo, o armazenamento, a manutenção
e o acesso continuado aos recursos digitais, usualmente consequência da aplicação de uma
ou mais estratégias de preservação digital incluindo migração de dados ou emulação
tecnológica (Russel & Sergeant, 1999)10.
Adoptámos a definição de repositório digital confiável como aquele cuja missão é assegurar
o acesso continuado aos recursos digitais de forma persistente e estável a uma designada
comunidade agora e no futuro (RLG-OCLC, 2002) 11.
No seguimento dos pressupostos enunciados passamos a apresentar os nossos objectivos
para esta tese :
10 RUSSEL,Kelly & SERGEANT,Derek (1999) - The Cedars project : implementing a model for distrib-
uted digital archives. RLG DigiNews, 3 (3). 11 RLG-OCLC (2002) – Trusted digital repositories : attributes and responsibilities. Mountain View:
Research Libraries Group.
1. INTRODUÇÃO
14
1) Estudar os conceitos teóricos da preservação digital.
2) Verificar o “estado da arte” a nível mundial, incluindo no nosso país, em matéria
de preservação de recursos digitais a longo prazo.
3) Comparar as melhores práticas utilizadas pelos projectos mais importantes na
área da preservação digital.
4) Apresentar linhas orientadoras para o ciclo de vida dos recursos digitais, baseadas
em projectos existentes, de apoio às instituições que manifestam intenções de
criação de repositórios digitais confiáveis.
5) Contribuir, ao longo de todo o trabalho, para dar pistas e alertar a consciência da-
queles que, no nosso país, a nível institucional, têm o poder decisório sobre a cri-
ação e organização de bibliotecas ou repositórios digitais.
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
15
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
“As bibliotecas digitais devem permitir o acesso a todo o conhecimento hu-mano por parte de qualquer cidadão, em qualquer hora e em qualquer lu-gar, num ambiente amigável, multi-modal, eficiente e efectivo ultrapassan-do as barreiras da distância, da língua e da cultura através de dispositivos ligados à Internet”
DELOS Brainstorming Report, San Cassiano, Itália, 2001
As bibliotecas digitais e as suas infraestruturas tecnológicas encontram-se em rápido ama-
durecimento. Do ponto de vista da preservação digital, é na fase do estudo das opções de
criação das infraestruturas que deve ser decidido quais os recursos a preservar e durante
quanto tempo.
O acesso e a preservação sempre mantiveram uma forte interacção, sendo objectivo pri-
meiro da preservação da informação o de a tornar acessível a futuras gerações (Jones &
Beagrie, 2001)12.
Partindo deste pressuposto e no que diz respeito a recursos digitais, as decisões quanto à
preservação e acesso devem ser tomadas, de preferência, em simultâneo. São contudo
distintas pois a preservação do acesso aos recursos requer uma atenção mais activa na
gestão do seu ciclo de vida (vide 3.4).
Existem motivos para a separação de cópias para o acesso e para a preservação no que diz
respeito a aspectos tecnológicos, funcionais e legais, tendo em vista as fases de armaze-
namento e segurança, da escolha de suportes e da abordagem do problema da escalabili-
dade.
12 JONES, Maggie & BEAGRIE, Neil (2001) – Preservation management of digital materials : a hand-
book. London, The British library
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
16
2.1. CARACTERÍSTICAS DE UMA BIBLIOTECA DIGITAL
Ao analisarmos a citação que introduzimos no início do capítulo verificamos que os objecti-
vos de uma biblioteca digital estão muito bem definidos.
Podemos referir-nos a estruturas de bibliotecas digitais criadas à luz das bibliotecas con-
vencionais, de museus digitais, de arquivos digitais, também espelhados nos modelos tra-
dicionais e também a repositórios digitais, que podem armazenar qualquer tipo de recurso
digital e que cumpre da mesma maneira as funções de divulgação e acesso por um período
de tempo que se pretende longo.
Apresentamos algumas orientações que definem uma biblioteca digital quanto aos seus
objectivos13, propósitos e tempo de vida:
1. Os objectivos são a oferta de serviços integrados que permitem ter acesso a recursos
em colecções culturais ou científicas, por vezes indo ao encontro dos sistemas tradici-
onais na sua essência, outras vezes, em estruturas totalmente novas aproveitando as
potencialidades do ambiente tecnológico. A funcionalidade dos serviços integrados as-
senta nos seguintes pressupostos :
Necessidades de informação de grande qualidade
Informação relacionada em fontes diversas e dispersas
Informação heterogénea
Fontes de informação ricas e fiáveis
Informação multimédia
Comunidade de utilizadores definida
Utilizadores motivados
Orientação por domínios do conhecimento
Acessos em línguas variadas
Colaboração / Cooperação
13 DIGITAL LIBRARIES : Future directions for a European Research Programme (2001) - DELOS
Brainstorming Report. San Cassiano, 2001. ERCIM-02-W02
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
17
2. Quanto aos propósitos, é possível referir que as bibliotecas digitais são procuradas
sobretudo para investigação e aprendizagem.
3. O tempo de vida aponta para que as bibliotecas digitais possam fornecer acesso a in-
formação preservada por períodos de tempo mais ou menos longos, consoante as ne-
cessidades das comunidades de utilizadores.
2.2. A PRESERVAÇÃO DOS RECURSOS E A GESTÃO DAS BIBLIOTECAS DIGITAIS
No que diz respeito à preservação de longo prazo convém referirmos as boas práticas que
determinam o tempo de vida e a confiabilidade dos sistemas e dos recursos, sem os quais
qualquer biblioteca digital, seja ela repositório ou simples espaço de comunicação e de di-
vulgação da informação perdem as suas potencialidades de referência aos olhos das suas
comunidades de utilizadores e que são :
1) As estratégias de preservação
Falamos aqui de tomadas de decisão sobre o tipo de conversão de dados que a biblioteca
vai prosseguir e da sua posterior descrição e documentação. A história da mudança ao lon-
go do tempo deve estar totalmente documentada através de metadados.
Dado que as tecnologias evoluem e a obsolência vive em permanência no horizonte, de-
vem ser desenvolvidas técnicas que automaticamente ou em parte migrem os conteúdos e
os processos de uma biblioteca digital para os novos ambientes tecnológicos. Este passo
deve ser dado de forma transparente para as comunidades de utilizadores, obviando à
privação do acesso sempre que possível.
2) As técnicas de reparabilidade que dão suporte à autenticidade dos recursos
Sempre que se procede a qualquer estratégia de conversão de dados, existe perda de in-
formação. Para que seja possível reconstruir ficheiros e evitar perdas muito graves são uti-
lizados mecanismos de reparabilidade que podem ser conseguidos através de chaves de
autenticação, check-sums, digests (cf. Anexo 3 – Glossário), etc.
2.2.1. Alguns aspectos tecnológicos básicos das bibliotecas digitais
Seguindo ainda o relatório DELOS (2001)14 existem alguns componentes das bibliotecas
digitais, do âmbito da gestão de sistemas, que são considerados pontos chave para traba-
lho de investigação na próxima década e do nosso ponto de vista destacamos aqueles que
são indispensáveis à saudável preservação dos recursos ao longo do tempo:
14 DIGITAL LIBRARIES : Future directions for a European Research Programme (2001) – Op. cit.
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
18
1) Sistemas de arquitectura básicos
A arquitectura cliente-servidor baseada na dependência de computadores dedicados ao
serviço de outros computadores e de três camadas deixou de ser adequada e deve ser
substituída por arquitecturas de orientação a objectos ou de múltiplas camadas.
2) Sistemas abertos
Uma arquitectura aberta obriga a que todas as funcionalidades da biblioteca digital estejam
compartimentadas em sistemas muito bem definidos e prevê o desenvolvimento de linhas
de investigação nas áreas da flexibilidade dos módulos de plug-and-play15 ou seja a capa-
cidade que um sistema informático tem de automaticamente configurar mecanismos de
expansão a novos serviços e dispositivos. Deve ser possível acrescentar funcionalidades
sem recorrer a mais elementos de configuração ou à utilização de dip-switches ou jumpers.
3) Interoperabilidade e metadados
A interoperabilidade é um dos requisitos mais importante do sistema e apesar do trabalho
árduo existente nesta área deveria ser desenvolvido estudo suplementar sobre
mapeamento de formatos de dados e esquemas de metadados e também de ferramentas
de conversão de dados. Estas deveriam ser colocadas em acesso aberto a todas as
bibliotecas digitais um pouco à semelhança da conversão entre formatos MARC que as
bibliotecas desenvolveram para permitir o reconhecimento e a troca de dados entre
sistemas automatizados.
4) Escalabilidade
Dada a propensão para o crescimento desmesurado de qualquer biblioteca digital, a esca-
labilidade deve ser considerada tanto no que diz respeito aos conteúdos, como aos compo-
nentes do sistema, como à quantidade de utilizadores, o que requer arquitecturas descen-
tralizadas. Estas podem ser, entre outras, do tipo peer-to-peer16, tipo de rede em que cada
estação de trabalho tem capacidades e responsabilidades equivalentes, diferindo de uma
arquitectura de cliente-servidor na qual existem computadores que estão dedicados ao
serviço de outros computadores, ou GRID17 onde ao contrário das redes convencionais que
têm o seu ponto fulcral nas comunicações entre dispositivos, esta, aproveita os ciclos de
não processamento de todos os computadores na rede para resolver problemas de exces-
15 http://www.webopedia.com/TERM/p/plug_and_play.html 16 http://www.webopedia.com/TERM/p/peer_to_peer_architecture.html 17 http://www.webopedia.com/TERM/g/grid_computing.html
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
19
siva morosidade para máquinas stand-alone, isto é, para máquinas que não se intercomu-
nicam com outras máquinas18.
5) Segurança
Podemos considerar a segurança como um ponto crítico na manutenção de bibliotecas digi-
tais especialmente ao nível da integridade dos conteúdos, da confidencialidade e dos direi-
tos de propriedade intelectual.
Qualquer destes pontos irá ser desenvolvido ao longo deste trabalho.
2.2.2. A tecnologia do acesso
Existem alguns aspectos tecnológicos da maior importância no que diz respeito ao para-
digma de acesso integrado a bibliotecas digitais. Estes estão relacionados com a variedade
de sistemas de dados em operação conjunta que vão desde bases de dados relacionais a
documentos não estruturados ou baseados em multimedia.
Correntemente, a forma mais utilizada de descobrir recursos em bibliotecas digitais é atra-
vés dos catálogos bibliográficos das colecções acessíveis em linha, vulgarmente conhecidos
como OPACs (Online Public Access Catalog), das instituições detentoras de conteúdos ou de
bases de dados nacionais ou ainda através dos motores de busca mais comuns, isto se es-
tes possuírem boas ferramentas de indexação automática.
No caso, p. ex. da Biblioteca Nacional da Austrália, o utilizador tem acesso aos títulos dos
recursos electrónicos depositados, tanto através do OPAC como da base de dados de bibli-
ografia nacional. Também é possível aceder aos títulos dos recursos electrónicos deposita-
dos através da página do projecto PANDORA19 (Phillips, 2001)20.
Existe, portanto, uma aproximação de estratégias de acesso para os recursos tradicionais e
para os recursos electrónicos o que significa uma mais-valia para a comunidade de utiliza-
dores que acede de forma integrada à informação, independentemente do suporte em que
a mesma se encontra.
Em contexto pan-europeu, o projecto TEL – The European Library Project21 é um sistema
cooperativo de partilha de recursos constituído por 10 bibliotecas nacionais europeias que
têm como objectivo desenvolver um sistema de acesso às colecções de que são proprietá-
rias. A British Library lidera o projecto e os outros parceiros participantes são: a Biblioteca
18 http://www.webopedia.com/TERM/s/stand_alone.html 19 http://pandora.nla.gov.au/index.html/archive.html 20 PHILIPS, Margaret E. (2001) - Ensuring long-term access to online publications. Journal of Elec-
tronic Publishing, 4 (4) 21 http://www.europeanlibrary.org
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
20
Nacional de Portugal (BN), a Biblioteca Nacional de Itália (BNCF), a Conferência de biblio-
tecas nacionais europeias (CENL), a Biblioteca Alemã (DDB), a Biblioteca Nacional da Fin-
lândia (HUL), o Instituto Central do Catálogo Único, Itália (ICCU), a Biblioteca Nacional da
Holanda (KB), a Biblioteca Nacional da Eslovénia (NUK) e a Biblioteca Nacional Suíça
(SNL).
Este projecto pretende desenvolver um conjunto de boas práticas que agrupa em seis mó-
dulos:
a) Relações com as editoras
As negociações com as principais editoras devem ser estabelecidas em parceria
tendo em vista aspectos técnicos, financeiros, de licenciamento e de direitos de
autor. Também se pretende estabelecer alguma normalização no que diz respeito
ao depósito legal e às condições de depósito de longo prazo.
b) Planos de negócio
Este módulo pretende incluir estudos de mercado assim como cenários para even-
tuais modelos de custos.
c) Metadados
O projecto TEL tem em vista desenvolver protocolos e modelos de dados que in-
cluem a normalização de metadados descritivos, estruturais, técnicos, de preser-
vação, de direitos, ou ainda outros, de acordo com esquemas para recursos digi-
tais ou não, utilizados pelos parceiros envolvidos22.
d) Interoperabilidade
Os parceiros seleccionam um ou mais serviços bibliográficos que contenham in-
formação acerca das suas colecções, digitais ou impressas. Estas destinam-se a
ser testadas através de Z39.50 ou XML (cf. Anexo 3 – Glossário). O grupo de tra-
balho deverá procurar as melhores soluções de interoperabilidade.
22 No capítulo 3 deste trabalho iremos encontrar desenvolvidos aspectos relativos aos metadados de
preservação.
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
21
e) Disseminação e acesso ao projecto
O plano de disseminação e acesso encontra-se definido desde o início e pretende
operacionalizar o relacionamento entre as diferentes bibliotecas participantes as-
sim como organizar os eventos necessários à divulgação de resultados.
f) Gestão do projecto
A gestão do projecto pretende coordenar e supervisionar os prazos e a qualidade
dos deliverables, assim como os aspectos financeiros.
O papel a desenvolver pelas bibliotecas digitais no que diz respeito à preservação dos re-
cursos deve manter os mesmos padrões de exigência sempre defendidos para os recursos
em suporte tradicional, assim como promover o desenvolvimento de novas competências
do pessoal envolvido.
As bibliotecas devem desenvolver políticas, procedimentos e infraestruturas adequadas a
colecções de diversos tipos de recursos digitais e integrá-los em sistemas de descrição, ca-
talogação, acesso e preservação, ao mesmo tempo que devem considerar a possibilidade
de partilhar tecnologias e experiências, reduzindo esforços e custos.
3. QUADRO TEÓRICO DE REFERÊNCIA
23
3. QUADRO TEÓRICO DE REFERÊNCIA
3.1. A PRESERVAÇÃO DA MEMÓRIA DOS POVOS
A preocupação com o problema da preservação e conservação de colecções de documentos
é tão antiga como a sua existência.
Preservar a memória é preservar a identidade cultural; é ligar passado e presente e dessa
forma preparar o futuro. Ora, precisamente, é nas bibliotecas e nos arquivos que podemos
encontrar uma grande parte dessa memória.
Tradicionalmente, a História liga a biblioteca à preservação de textos. Na Idade Média as
bibliotecas monásticas desenvolviam um trabalho de cópia. Os bibliotecários coevos tinham
consciência da necessidade de transmitir à posteridade os verdadeiros tesouros que possu-
íam, assim como todo o conhecimento contido nesses artefactos. A técnica de cópia era a
única possível para assegurar a preservação e o acesso aos textos.
Com o advento da imprensa de caracteres móveis em meados do século XV, as bibliotecas
constituem-se em torno de colecções de livros impressos, depois publicações periódicas,
literatura cinzenta, etc. No início do Séc. XXI, as colecções das bibliotecas são ainda maio-
ritariamente texto e papel, algumas devidamente preservadas, outras condenadas a exis-
tência mais efémera.
Fazer face às diferentes missões de preservação das colecções contidas em bibliotecas
constituiu até há bem pouco tempo a principal preocupação do bibliotecário, pelo menos o
das bibliotecas patrimoniais.
Todos os anos, documentos preciosos, verdadeiros tesouros património da humanidade
desaparecem devido a causas naturais que vão desde a simples negligência humana a ca-
tástrofes naturais. A guerra e os actos de terrorismo são, da mesma maneira constantes
ameaças para a nossa herança colectiva.
3. QUADRO TEÓRICO DE REFERÊNCIA
24
Abdelaziz Abid em “Memory of the World – preserving our documentary heritage”23 des-
creve as linhas de orientação do programa “Memory of the World” da responsabilidade da
UNESCO iniciado em 1992 com o objectivo de salvaguardar documentação histórica e ao
mesmo tempo democratizar o seu acesso assim como divulgar produtos que possam ser
criados a partir desses documentos.
Em relatório que o mesmo responsável prefacia (Hoeven & Joava, 1996)24 afirma-se, sem
pretender fazer um monumento funerário, que mais de 100 bibliotecas e colecções foram
destruídas, por motivos alheios à vontade do homem, ao longo do Séc. XX. É um facto
verdadeiramente preocupante dado que o vazio ocupou o espaço da memória e as comu-
nidades empobreceram.
Esta situação é relativa às bibliotecas tradicionais. Quanto às emergentes bibliotecas digi-
tais, são também elas agora objecto de preocupação pela necessidade da sua preservação.
O propósito da preservação digital a longo prazo, pode ser estabelecido segundo Beagrie e
Greenstein em 199825 como uma questão que começa quando o impacto da mudança tec-
nológica necessita de ser encarado de forma sucessiva indefinidamente no tempo e acres-
centamos, seguindo o pensamento de Seamus Ross (2000)26 quando começa a haver uma
crescente dependência da informação digital.
Esta dependência, por si só contém alguns efeitos comportamentais de mudança tanto do
ponto de vista tecnológico como sociológico, tais como:
A forma de documentar e armazenar factos históricos e culturais está a
mudar, dado que, já não existe obrigatoriamente uma relação directa en-
tre a forma de armazenamento físico, a estrutura lógica da representação
no armazenamento e a sua interpretação.
A nossa cultura propriamente dita está a mudar. A Internet criou um am-
biente no qual novas comunidades e grupos sociais podem existir e evolu-
ir. Ao mesmo tempo emergem protocolos e formas de relacionamento que
regem as interacções sociais virtuais.
23 ABID, Abdelaziz (1998) – Memory of the World Preserving our documentary heritage. In : IFLA
General Conference, 64, Amsterdam. 24 HOEVEN, Hans van der & ALBADA, Joan van (1996) - Lost memory : libraries and archives de-
stroyed in the Twentieth Century. Paris, UNESCO, 70 p. 25 BEAGRIE, Neil & GREENSTEIN, Daniel (1998) – A strategic policy for creating and preserving digital
collections : a report do the Digital Archiving Working Group. British Library Research and Inno-vation Report N. 167.
26 ROSS. Seamus (2000) – Changing trains at Wigan : digital preservation and the future of scholar-ship. London, National Preservation Office.
3. QUADRO TEÓRICO DE REFERÊNCIA
25
Parece ser evidente que os alvos de interesse de preservação estão relacionados com as-
pectos probatórios, reutilização académica ou comercial ou ainda valor histórico de institui-
ções ou memória nacional, p. ex., os emails de personalidades públicas, etc.
Em Portugal, e segundo o relatório TEL (The European Library) (J. Stapel 2001)27, as preo-
cupações são de facto do mesmo teor porque verificamos que estão seleccionados à parti-
da para preservação, documentos oficiais, teses e dissertações, publicações periódicas
electrónicas no domínio .pt e documentos em outros domínios que tenham manifesto inte-
resse cultural e histórico para o nosso país.
Tradicionalmente, para reconstruir o passado, os historiadores recorrem a uma grande di-
versidade de fontes. Devemos reconhecer que para sabermos quem somos e qual vai ser o
impacto do nosso passado no nosso futuro, precisamos de conhecer as nossas origens.
Desse modo, os historiadores do futuro irão procurar transcrições de sessões de chat,
newsgroups, correio electrónico, câmaras web e sítios que ao mesmo tempo integram do-
cumentação diversa, p. ex. de empresas ou organismos oficiais, de bancos ou de institui-
ções de saúde.
Quando nos anos 30 do Séc. XX, arqueólogos encontraram o arquivo de Persepolis, sobre-
vivente do incêndio do palácio depois da queda de Alexandre, verificaram que o material
de suporte à informação, as placas de argila, tinham conseguido a sobrevivência ao fogo.
Contudo, o conteúdo de muitas dessas placas ainda não foi transcrito e mesmo a sua
transcrição, quando possível, não é 100% fiável. Da mesma forma, migramos a informa-
ção digital de um suporte para outro ou de um formato que se tornou obsoleto para outro
e permanece a dúvida quanto ao nível de confiabilidade.
Há, pois, uma certa semelhança ao que acontece com o suporte e o conteúdo das placas
de argila. O seu conteúdo e estrutura devem ser estudados e interpretados da mesma ma-
neira, ao nível da durabilidade, inteligibilidade, metadados, recuperação de dados e obso-
lência tecnológica. Os equipamentos de depósito digital, por seu lado, podem fornecer pe-
quenas pistas sobre os formatos dos dados que contêm mas, por enquanto, só ocasional-
mente possuem alguma indicação de hardware necessário para aceder a esses dados28.
27 STAPPEL, Johan, DE NIET, Marco, JOCHUM-STARK, Dorothea (2001) – TEL Metadata : state of the
art review (3rd draft and final version). 28 ROSS. Seamus (2000) – Changing trains at Wigan : digital preservation and the future of scholar-
ship. London, National Preservation Office.
3. QUADRO TEÓRICO DE REFERÊNCIA
26
3.2. O PAPEL DAS INSTITUIÇÕES PATRIMONIAIS
Segundo a UNESCO (Lor & Sonnekus,1997)29 uma biblioteca nacional, como instituição
cultural, deve espelhar a sociedade onde está inserida e dessa forma consoante as diver-
sas nações, aparecem bibliotecas nacionais também elas com algumas variantes.
Muitas bibliotecas nacionais, bibliotecas académicas, arquivos nacionais e outras organiza-
ções detentoras de enormes quantidades de documentos têm vindo a desenvolver traba-
lhos de microfilmagem e digitalização em larga escala com vista a preservação e divulga-
ção de documentação de interesse nacional. Os investigadores das gerações futuras terão
à sua disposição valiosos fundos de conteúdo histórico, os quais darão lastro para um nú-
mero infinito de investigações, e produção de conhecimento.
Tomando como exemplo a política de desenvolvimento de colecções da Biblioteca do Con-
gresso30 dos EUA que nos diz ter, como objectivo, servir o governo, a escola e o público
em geral verificamos que no que diz respeito à preservação de colecções que o propósito
é, não só conservar, mas também proporcionar a consulta do público a documentos de na-
tureza precária e de interesse nacional ou seja garantir o acesso31. Nessa perspectiva a
microfilmagem convive, em paralelo com a digitalização.
A digitalização dos documentos existentes, está em curso tendo em conta a necessidade
urgente de divulgação das obras. Em paralelo com a preocupação da preservação de colec-
ções encontramos a da eliminação.
G. E. Gorman & B. R. Howes em 198932 dizem-nos que preservação e eliminação estão es-
treitamente ligadas mas que a preservação é antes de tudo um problema nacional e não
local, raciocínio que podemos trazer para o campo das colecções nascidas digitais pois toda
a atenção sobre a sua preservação a longo prazo está a ser considerada por bibliotecas e
arquivos nacionais de todo o mundo.
Passando para outra realidade, em 2002 M. L. Cabral33, no âmbito de Congresso da IFLA
faz um breve resumo dos resultados de uma pesquisa baseada em questionários apresen-
tados a bibliotecas nacionais na Europa do Sul sobre as condições de preservação de do-
cumentos em qualquer suporte e os resultados não são animadores:
Os problemas existentes são sobretudo a nível organizacional e não técnico:
29 LOR, Peter Johan, SONNEKUS, Elisabeth A. S. (1997) - Guidelines for legislation for national library
services. UNESCO. 30 http://lcweb.loc.gov/acq/devpol/cps.html 31 http://lcweb.loc.gov/preserv/prd/presdig/presintro.html 32 GORMAN, G. E. & Howes, B. R. (1989) – Collection development for libraries. London, Bowker-
Sauer
3. QUADRO TEÓRICO DE REFERÊNCIA
27
Existe uma deficiente definição de objectivos, logo, ausência de estratégi-
as.
A prevenção surge em segundo plano quando deveria aparecer em primei-
ro, lugar que é ocupado pela acções de tratamento propriamente dito.
A partilha de recursos é inexistente o que enfraquece ainda mais as já de-
bilitadas políticas de preservação quando estas existem.
Uma realidade felizmente diferente é a política de preservação digital da Biblioteca Nacio-
nal da Austrália34, que identifica as entidades que devem preservar a herança cultural na-
cional e torná-la acessível e que são:
Biblioteca nacional
Bibliotecas universitárias
Algumas bibliotecas públicas
Arquivos de organizações estatais
Museus
Criadores e editores
Utilizadores de informação
O Governo e a comunidade em geral
E refere ainda os objectivos do trabalho conjunto a desenvolver relacionados com:
Identificação dos parceiros com competências apropriadas para contribuir
para o esforço nacional
Estabelecimento de protocolos sobre as responsabilidades e os papéis a
desempenhar
Explicitação dos acordos de cooperação financeira que garantam uma base
confiável de acessos ao longo do tempo
33 CABRAL, Maria Luísa (2002) – Preservation and conservation in South Europe : a survey among
national libraries. In : IFLA council and General Conference, 68th, Glasgow, 2002 34 NLA (2002) – A digital preservation policy for the National library of Australia
3. QUADRO TEÓRICO DE REFERÊNCIA
28
Cooperação na identificação, desenvolvimento e promoção de políticas,
procedimentos e ferramentas que sustentam tais princípios
Trabalho com os criadores, editores e utilizadores dos conteúdos digitais
no sentido de promover a utilização de boas práticas com vista a preser-
vação
Trabalho com os legisladores e órgãos de poder no sentido de desenvolver
enquadramentos legais que garantam uma boa relação custo-benefício aos
sistemas de preservação
3.2.1. Os recursos digitais e o depósito legal
No nosso país, o depósito de recursos digitais ainda não é sujeito a obrigatoriedade legal.
Encontra-se, por esse facto, limitada a missão da Biblioteca Nacional de Portugal na pre-
servação da memória colectiva nacional.
Parece-nos pertinente aproveitar os princípios de depósito legal dos documentos tradicio-
nais, no nosso país e aplicá-los aos recursos digitais, com o óbvio alargamento às especifi-
cidades próprias do meio digital, nomeadamente para efeitos de acesso e preservação.
Para que seja possível preservar os recursos digitais depositados, estes devem ser acom-
panhados de metadados no sentido de garantir a sua reprodução posteriormente.
Citamos os objectivos do depósito legal que encontramos em página da Internet da res-
ponsabilidade da Biblioteca Nacional de Portugal35:
1) Constituição e conservação de uma colecção nacional (todas as publicações
editadas no país);
2) Produção e divulgação da bibliografia nacional corrente;
3) Estabelecimento de estatísticas nacionais;
4) Enriquecimento de bibliotecas dos principais centros culturais do país;
5) Assegurar a constituição de importantes e riquíssimos fundos bibliográficos
para as gerações futuras.
São objecto de depósito legal as seguintes publicações :
35 BIBLIOTECA NACIONAL – Serviço de Depósito Legal - Serviços: Serviços para Editores: Depósito
Legal, A Constituição de uma Colecção Nacional. http://www.bn.pt/servicos-ao-publico/sp-deposito-legal.html
3. QUADRO TEÓRICO DE REFERÊNCIA
29
Livros, brochuras, revistas, jornais e outras publicações periódicas, separa-
tas, atlas e cartas geográficas, mapas, quadros didácticos, gráficos
estatísticos, plantas, planos, obras musicais impressas, programas de
espectáculos, catálogos de exposições, bilhetes - postais ilustrados, selos,
estampas, cartazes, gravuras, fonogramas e videogramas, obras
cinematográficas, microformas e outras reproduções fotográficas;
Obras impressas no estrangeiro que tenham indicação do editor domicilia-
do em Portugal e que são equiparadas às obras portuguesas, para cum-
primento de Depósito Legal;
Teses de mestrado e doutoramento, trabalhos de síntese, estudos e disser-
tações e outros trabalhos relativos às carreiras docentes do ensino univer-
sitário e do ensino superior politécnico estão abrangidas pela obrigatorie-
dade de Depósito Legal;
As reimpressões e as novas edições são consideradas como obras diferen-
tes, sujeitas à obrigação de depósito, desde que não se trate de simples
aumentos de tiragens. Obras publicadas há menos de um ano, apenas se
exige um exemplar ou cópia.
Actualmente, este serviço é regulado pelos Decreto-Lei nº 74/82 de 3 de Março e o Decre-
to-Lei nº 362/86 de 28 de Outubro36
Não podemos deixar de referir o trabalho conjunto entre a CDNL (Conference of Directors
of National Libraries) e a UNESCO com o objectivo de desenvolver orientações para as bi-
bliotecas nacionais, com vista à preparação de legislação de depósito legal específica para
recursos digitais37. Este documento complementa as linhas orientadoras preparadas em
1981 por Jean Lunn38. No que diz respeito à preservação dos recursos digitais, considera-
se que, dada a longevidade curta e obsolência dos suportes e dos meios, é importante que
através do depósito legal os repositórios tenham cobertura legal para copiar, refrescar ou
migrar as publicações depositadas com o objectivo de as preservar para o futuro. Estas
garantias devem constar da legislação de cada país.
36 Portugal, leis, decretos - Decreto-Lei nº 74/82 de 3 de Março ; Decreto-Lei nº 362/86 de 28 de
Outubro 37 CDNL (Conference of Directors of National Libraries) (1996) – The legal deposit of electronic publi-
cations. Unesco. 38 LUNN, Jean (Prep.) (1981) – Guidelines for legal deposit legislation. Paris, General Information
Programme and UNISIST – Unesco. (PGI-81/WS/23)
3. QUADRO TEÓRICO DE REFERÊNCIA
30
Cada biblioteca detentora de depósito legal, no seu ambiente legal, deve trabalhar no sen-
tido de facilitar o acesso dos recursos digitais no mais breve espaço de tempo.
No caso da lei portuguesa, como referido acima, ainda não existe qualquer referência ex-
plícita a documentos electrónicos, mas um novo diploma legal encontra-se já em discus-
são39. Este, a ser aprovado, estende-se às imagens em movimento para preservação e
acesso e ainda às publicações electrónicas com suporte físico. Os recursos digitais sem su-
porte físico serão objecto de depósito legal selectivo em termos a estabelecer entre a Bibli-
oteca Nacional e os respectivos produtores.
No que diz respeito aos recursos electrónicos sem suporte físico deve ser tido em conside-
ração que estes podem estar distribuídos por vários servidores em vários países. Por outro
lado, os meios utilizados para a sua criação podem ser vários e também distribuídos.
A orientação do CDNL vai no sentido da abrangência das publicações electrónicas com ou
sem suporte físico para que a integridade do acesso à informação fique garantida, inde-
pendentemente do suporte.
Apesar da herança digital dos portugueses nossos contemporâneos estar, por enquanto,
sem regulamentação própria, existe vontade e determinação de alterar a situação como o
prova o recente manifesto40 elaborado por ocasião do Encontro sobre Preservação Digital
que decorreu em Lisboa, organizado pela Biblioteca Nacional e pela EPCA (European Co-
mission on Preservation and Access).
3.2.2. Modo de aquisição dos recursos
Uma vez decidido o âmbito geral, missão e objectivos do repositório que vai acolher recur-
sos digitais para preservação impõe-se uma decisão sobre o método de aquisição.
Este pode idealmente ser um complemento de depósito legal e de depósito voluntário dos
produtores, constituindo-se assim a forma passiva de adquirir recursos.
Outra opção possível é a considerada pró-activa e neste caso é o repositório que vai ao en-
contro dos recursos através da Internet. Especificando melhor :
Forma passiva
Os recursos digitais podem ser adquiridos ou por meio de acordos com os produto-
res/editores ou através de medidas legais estabelecidas, tais como o depósito legal referido
anteriormente.
39 http://www.apbad.pt/pdeposito_legal.htm 40 BORBINHA, José Luís et al. (2002) – Manifesto para a preservação digital. Cadernos BAD, 2
3. QUADRO TEÓRICO DE REFERÊNCIA
31
A opção de acordo parece-nos ser bastante equilibrada pois o “ruído” na construção das
colecções é reduzido ao serem seguidas linhas orientadoras para a primeira fase do ciclo
de vida dos recursos (ver ponto 3.4), fase da criação. Logo nesta fase devem ser integra-
dos metadados que são indispensáveis para ulterior gestão da preservação.
No caso do depósito legal, os produtores nem sempre são conhecedores da necessidade da
sua colaboração no momento da inclusão de metadados e por esse motivo, torna-se ne-
cessário proceder a conferência da existência dos mesmos. No caso da sua ausência, o re-
positório é obrigado a incorporá-los.
Forma pró-activa
O método de ir ao encontro dos recursos pode ser executado através de dois processos, ou
com a ajuda do elemento humano ou automaticamente.
No primeiro caso, a captura de recursos torna-se pouco produtiva apesar de mais consis-
tente. Os recursos humanos disponibilizados para este tipo de trabalho especializado não
conseguem obviamente acompanhar o ritmo de aparecimento de novos recursos.
Ao diminuir a quantidade de recursos respigados diminui a abrangência das colecções do
repositório. Também o objectivo deste tipo de captura pode ser questionado por se desco-
nhecerem as necessidades das gerações futuras.
A captura automatizada, levada a cabo por robots, Web-crawlers (software de busca de
páginas Web através da Internet, normalmente ao serviço dos motores de busca) é o mé-
todo que mais se adequa à aquisição através da Internet. As colecções são construídas de
forma distribuída, o que lhes acrescenta representatividade bem como as características de
abrangência temática de que carece a opção manual. Este método, dada a enorme quanti-
dade de dados com que lida leva a que seja necessário proceder a cada “viagem” de
captura com intervalos de tempo. Cada período de captura, só por si, pode durar alguns
meses.
O repositório, dependendo das suas características, terá necessidade de articular ambos os
métodos de aquisição e torná-los complementares (Lupovici & Masanès, 2001)41.
A opção manual ajuda a seguir a evolução dos sítios e favorece o contacto com os produto-
res/editores. Desta forma é possível aceder a áreas restritas e a páginas dinâmicas.
A opção automática permite o acesso a uma grande quantidade de recursos distribuídos e
torna-se por esse motivo representativa da informação de um determinado espaço.
41 LUPOVICI, Catherine & MASANÈS, Julien (eds.)(2001) - What's next for Digital Deposit Libraries?
Preserving online content for future generation. In : 5th European Conference on Research and Advanced Technology for Digital Libraries. ECDL Workshop. Darmstadt, 2001
3. QUADRO TEÓRICO DE REFERÊNCIA
32
3.3. CARACTERIZAÇÃO DO AMBIENTE TECNOLÓGICO
A infraestrutura/repositório deve ser planeada de forma a que os tipos de recursos selecci-
onados possam ser aí depositados cada qual com tratamento específico, tendo em conta o
seu ciclo de vida integral.
3.3.1. Características dos recursos
Os recursos podem ser constituídos por texto proveniente de processadores de texto, ima-
gens digitalizadas, ficheiros digitais multimedia altamente complexos, estruturas de bases
de dados, recursos da Internet tais como listas de distribuição ou newsgroups, etc, etc.
Também a Internet apresenta uma enorme variedade de formatos. Além de páginas HTML
podem ser encontrados todos os tipos de formatos multimedia, ao mesmo tempo que no-
vos tipos de dados aparecem e desaparecem em sucessão rápida.
No seguimento da decisão sobre os formatos a armazenar, deve determinar-se a forma de
armazenamento, preservação e acesso (Aschenbrenner, 2001)42.
Quanto aos recursos digitais estáveis não existe grande preocupação no que diz respeito
ao seu armazenamento a longo prazo. Segundo Aschenbrenner op. cit.43 podemos arma-
zená-los sem ter conhecimento do seu tipo. Somente numa fase ulterior, quando um utili-
zador manifesta a necessidade de aceder ao recurso são accionados os mecanismos de in-
terpretação dos dados. Deste modo são gerados tipos de documentos dinâmicos e interac-
tivos que uma vez finalizada a sessão de trabalho são eliminados.
A questão da selecção dos recursos da Internet para preservação a longo prazo deve ser
equacionada sob o ponto de vista da abrangência temática. Consoante a missão do reposi-
tório assim a construção as políticas de selecção anteriormente referidas.
A captura dos recursos pode ser efectuada como já foi referido no ponto anterior, através
de indexação automática ou com intervenção humana.
A indexação automática é considerada a mais complexa. A pesquisa automática depende
de aplicações que contornem os constrangimentos da Internet.
Os Web-crawlers, que perscrutam a Internet por varrimento e que são essenciais para o
desenvolvimento dos repositórios digitais ainda não atingiram um estado de maturidade
que lhes permita ultrapassar uma parte dessas dificuldades com êxito.
42 ASCHENBRENNER, Andreas (2001) – Long-term preservation of digital material : building na ar-
chive do preserve digital cultural heritage from the Internet. Wien, Institut für Softwaretechnik und Interaktive System. 110 p. (Diplomarbeit)
43 ASCHENBRENNER, Andreas (2001) - Op. cit.
3. QUADRO TEÓRICO DE REFERÊNCIA
33
Diz-nos Brewster Kahle em entrevista dada à RLG-Diginews em 200244, quando questiona-
do acerca de falhas no motor de busca “Wayback Machine”, que algumas dessas falhas
constam dos próprios recursos e as outras são provenientes do trabalho dos robots.
Por outro lado e segundo a interessante experiência dos países nórdicos é a única forma
de não existirem perdas e assim preservar a memória colectiva integralmente.
Esta estratégia expressa no projecto Kulturarw345 é conseguida no exemplo da Suécia
através de retratos da Internet duas vezes por ano, em todo espaço da Suécia nos domíni-
os .se, .com, .org, .net, .nu com endereços ou telefones da Suécia.
Este procedimento deve ser efectuado da forma mais rápida possível para obviar a altera-
ções dos ficheiros que fazendo parte do mesmo documento sejam recuperados em tempos
diferentes, o que por vezes, origina uma quebra na autenticidade dos recursos se entretan-
to tiver havido lugar a alterações. Dessa forma é armazenado um novo documento, não o
original.
Não existe, no contexto deste projecto, qualquer orientação que tipifique a selecção dos
tipos de recursos, i.e. são recuperadas todas as imagens, som, etc.
3.3.2. Características dos suportes de armazenamento dos recursos
Uma vez os recursos seleccionados consideramos o seu armazenamento. O espaço neces-
sário para depósito deve ser equacionado em função dos objectivos do repositório aten-
dendo a que provavelmente vai ser armazenada uma grande quantidade de recursos.
Deve ser estudado o compromisso entre a capacidade, o tempo de acesso e os custos.
Selecção dos suportes de armazenamento
A banda magnética continua a ser o suporte de armazenamento mais utilizado para grande
quantidade de dados.
Existem dois tipos de suportes magnéticos : de alto e de baixo magnetismo. Para se con-
seguir alto magnetismo o suporte deve ser exposto a um forte campo electromagnético.
Como resultado conseguem-se altos níveis de magnetismo remanescente. São os suportes
de alto magnetismo com grande saturação remanescente e alta coercividade que são
adaptáveis ao armazenamento de dados digitais46.
44 KAHLE, Brewster (2002) – The Internet Archive. RLG Diginews, 6 (2) , p. 1-7. 45ARVIDSON, Allan, PERSSON, Krister & MANNERHEIM, Johan (2000) - The Kulturarw3 Project : the
Royal Swedish Web Archiw3e: an example of "complete" colection of web pages. IFLA Council and General Conference, 66th, Jerusalem, 2000
46 ROSS, Seamus & GOW, Ann (1999) - Digital archaeology : rescuing neglected and damaged data resources. London., Library Information Technology Center. (JISK/NPO Study)
3. QUADRO TEÓRICO DE REFERÊNCIA
34
No que diz respeito ao acesso às bandas magnéticas como resposta a interrogações de uti-
lizadores existe a possibilidade da sua manipulação em sistemas robotizados, vulgarmente
chamados “juke-boxes”, porém, trata-se de processo muito complexo e dispendioso.
Apesar destes constrangimentos ainda são as bandas magnéticas que oferecem soluções
de mais baixo custo se manipuladas com a ajuda do elemento humano. Neste caso, existe
um tempo de espera compatível com a actividade de recuperação da banda por parte do
serviço.
Outro tipo de suporte magnético a considerar é baseado em discos rígidos que devem ser
dimensionados para grandes quantidades de dados e de que se colocam vários num só
computador.
Segundo Ashenbrenner op. cit.47, é possível conseguir bons resultados através da combi-
nação da utilização dos sistemas de bandas magnéticas e discos rígidos ao manter deposi-
tados nas bandas os recursos menos procurados, e de forma mais acessível, nos discos
rígidos, uma pequena quantidade de recursos com maior probabilidade de serem objecto
de pesquisa. Neste caso há que considerar atentamente o âmbito e missão dos repositóri-
os.
Paralelamente a estas opções existe a tecnologia dos CD-ROMs que permite o rápido aces-
so aos recursos. Considera-se simultaneamente a utilização na retaguarda de bandas
magnéticas como sistema de back-ups.
Duração dos suportes de armazenamento
Qualquer que seja a opção de suporte de armazenamento subsistem problemas relaciona-
dos com :
- Deterioração do suporte
- Obsolência técnica do suporte
- Deterioração das drives
a) Suportes magnéticos
Os sistemas magnéticos não são estáveis48, são susceptíveis de deterioração por oxidação
e corrosão. Estas podem conduzir a perda de coercividade das partículas e desse modo
ocasionar perda de dados.
47 ASCHENBRENNER, Andreas (2001) - op. cit. 48 ROSS, Seamus & GOW, Ann (1999) - op. cit.
3. QUADRO TEÓRICO DE REFERÊNCIA
35
Alguns problemas advêm também das condições de humidade e temperatura que podem
causar incapacidade de localização das pistas, logo, os dados estarão provavelmente per-
didos.
Consideramos ainda a forma de armazenamento das bandas. Se a banda estiver mal enro-
lada, e for deixado espaço de circulação do ar a humidade instala-se. Se a banda for esti-
cada de mais pode quebrar-se. Se a banda não for enrolada de forma uniforme subsiste
um tipo de tensão que causa deterioração da emulsão.
Provavelmente muitos destes problemas não chegam a existir se as bandas forem manu-
seadas respeitando as normas de segurança.
De igual modo deve existir uma boa manutenção e substituição regular das “drives” pois se
as cabeças estiverem sujas ou já tiverem sido muito usadas existe o risco de incapacidade
de leitura ou mesmo danificação das bandas.
Em 1995, John W.C. Van Bogart49 em relatório do National Media Laboratory estima, como
longevidade média das bandas magnéticas, um período de tempo que varia entre 10 e 20
anos; contudo as opiniões nesta matéria variam entre as marcas.
Rothenberg em 199550 e também em 199851 advoga a cópia das bandas magnéticas uma
vez por ano. Considera este autor que é a única forma de evitar perdas de informação
quando a preservação se realiza neste suporte magnético.
Baseados em Rothenberg (1995) op. cit.52 apresentamos uma estimativa de tempos de
vida, sem perda de qualidade, para os vários suportes magnéticos :
- Banda magnética – 1 ano
- “Videotape” – 1 a 2 anos
- Disco magnético – 5 a 10 anos
Mais tarde, em 1999, numa revisão do mesmo trabalho53, Rothenberg refere que existe
uma grande controvérsia em redor da longevidade dos suportes de armazenamento digital
e que há mesmo quem diga que a banda magnética pode ter uma duração de 200 anos
contrapondo com outros que consideram essa duração de 1 ano ou 2. Contudo, a longevi-
49 BOGART, John W.C. Van (1995) - Magnetic tape storage and handling : a guide for libraries and
archives. Washington, The Commission on Preservation and Access & National Media Laboratory. 50 ROTHENBERG, Jeff (1995) – Ensuring the longevity of digital documents. Scientific American. Jan.
1995 51 ROTHENBERG, Jeff (1999) - Avoiding technological quicksand: finding a viable technical foundation
for digital preservation. CLIR. 52 ROTHENBERG, Jeff (1995) – Op. cit. 53 ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. (Expanded version)
3. QUADRO TEÓRICO DE REFERÊNCIA
36
dade física dos suportes tem pouca ou nenhuma importância uma vez que a sua obsolência
se irá verificar em menos de 5 anos.
Por outro lado Bogart também em 1995 op. cit. estima o tempo de vida da banda magnéti-
ca de entre 10 e 20 anos. No entanto, não refere se a qualidade se mantém inalterada, o
que nos parece pouco provável dadas as características físicas do suporte.
b) Sistemas ópticos e magneto-ópticos
Tal como nos sistemas magnéticos podemos encontrar muitos motivos de preocupação re-
lacionados com influências do ambiente, de manuseamento e também factores mecânicos.
Contudo os suportes ópticos têm uma utilização cada vez maior para armazenamento de
informação.
Os CD-ROMs são compostos por emulsão, uma camada de dados, uma camada reflectora e
uma cobertura de protecção54.
Os materiais usados na produção dos suportes ópticos variam consoante as marcas e da
mesma forma fazem variar os tempos de duração. Por exemplo um CD-ROM que é usado
uma única vez pode vir a ter uma duração de entre 50 e 100 anos, contudo aconselha-se o
seu refrescamento após 10 anos55.
Os sistemas magneto-ópticos são bastante menos resistentes e ao mesmo tempo mais
dispendiosos. São também mais sensíveis a alterações ambientais de temperatura e humi-
dade, que podem mesmo fracturar a camada magnética.
Como estratégia para reduzir os riscos de perda de informação perante a duvidosa longe-
vidade dos suportes, dever-se-á proceder a um refrescamento dos dados no próprio supor-
te a intervalos de tempo regulares. Da mesma maneira deve-se proceder a migrações de
suporte antes que este esteja fisicamente corrompido.
Consideramos sempre a necessidade da existência de várias cópias para que uma substi-
tua outra em caso de deterioração.
As cópias devem ser armazenadas em localizações geográficas distintas. Convirá ter pre-
sente que podem ocorrer catástrofes naturais, sabotagens ou actos de terrorismo como p.
ex. aquele que aconteceu em Nova York em 11 de Setembro de 2001.
As formas de enfrentar e controlar o risco serão tratadas mais à frente em capítulo próprio.
54 ROSS, Seamus & GOW, Ann (1999) op. cit 55 WEBER, Hartmut (1993) - Opto-electronic storage : an alternative to filming ? CLIR - Commission
on Preservation and Access.
3. QUADRO TEÓRICO DE REFERÊNCIA
37
3.3.3. Obsolência dos dispositivos de leitura
Os tempos de vida dos suportes não são, de facto, o factor mais importante para a preser-
vação dos recursos digitais.
Os dispositivos de leitura à disposição no mercado são substituídos a intervalos de tempo
muito curtos, por outros sempre com performances melhoradas e vendidos a preços inferi-
ores.
Mais uma vez referimos a necessidade de migrar os dados sempre que o acompanhamento
das novidades aconteça para que se não corra o risco de ser ultrapassado pela obsolência
dos dispositivos.
3.4. CICLO DE VIDA DOS RECURSOS DIGITAIS
3.4.1. Criação dos recursos
A criação é o acto de produzir informação, não sendo imperativo que o criador seja huma-
no, podendo ser um equipamento electrónico preparado para o efeito (Hodge, 2000)56.
É nesta primeira fase que as fundações da preservação devem ser lançadas. O criador
deve estar envolvido neste processo.
No caso da produção originada por máquina são incluídos à partida alguns metadados que
acrescentam informação de referência aos registos. Esta informação pode ser relativa à
localização e a tipos de instrumentos e indicadores de ordem geral que documentem e
identifiquem o recurso. Do mesmo modo, deve ser acrescentada informação relativa ao
hardware e software envolvidos.
No caso de criação humana e sempre que possível, o criador deve enriquecer o seu traba-
lho com os metadados identificadores dessa criação. Algumas aplicações informáticas pos-
suem estruturas de preenchimento de metadados que permitem documentar a criação do
recurso.
Como a tendência é a da incorporação das linguagens XML (Extensible Markup Language)
e RDF (Resource Description Framework), a utilização de metadados torna-se fácil. Estas
ferramentas facilitam a preservação dos recursos e valorizam a qualidade da indexação
automática.
A título de exemplo referimos o modelo de metadados de utilização de um leque alargado
de comunidades que é o Dublin Core e sobre o qual nos debruçaremos no capítulo referen-
56 HODGE,G.M. (2000) - Best practices for digital archiving : an information life cycle approach. D-Lib
Magazine. 6 (1)
3. QUADRO TEÓRICO DE REFERÊNCIA
38
te a metadados. Fácil de utilizar, flexível e expansível com a ajuda de qualificadores dos
elementos base, tem as potencialidades necessárias à interoperabilidade, já que a tendên-
cia actual é para uma grande multiplicidade de normas e especificações (Cordeiro, 2001)57.
3.4.2. Selecção dos recursos
A selecção dos recursos a preservar a longo prazo constitui uma medida de gestão das ins-
tituições tutelares do repositório digital e baseia-se na sua missão e objectivos.
A política de selecção deve ser documentada depois de ter sido objecto de discussão e re-
flexão profundas. No seguimento do trabalho conjunto devem surgir princípios que nortei-
am a selecção. Refiram-se as linhas orientadoras da Biblioteca Nacional da Austrália58 e
também as da Biblioteca Nacional do Canadá59, disponíveis na Internet nos respectivos sí-
tios.
A política de selecção a instituir deverá ter em conta o valor cultural, histórico ou de carác-
ter científico dos recursos a depositar, assim como as necessidades da comunidade de uti-
lizadores.
Alguns exemplos de selecção
A Biblioteca Nacional da Austrália através do seu projecto PANDORA selecciona para pre-
servação de longo prazo monografias, publicações periódicas, home pages, documentos
efémeros, conteúdos australianos em contexto social, político, cultural, religioso, científico
ou económico relevantes para a Austrália e da autoria de australianos, assim como recur-
sos digitais provenientes de órgãos oficiais e assuntos pontuais seleccionados pelo respon-
sável pela gestão de colecções.
A Biblioteca Nacional da Austrália deposita apenas uma versão de cada trabalho se este
possuir múltiplas versões em suportes diferentes.
A Biblioteca Nacional do Canadá integra a selecção de recursos digitais na política de ges-
tão de colecções. Nas suas linhas orientadoras60 verificamos que a selecção de recursos
electrónicos se baseia na proveniência dos recursos, que deve ser canadiana. Também, tal
como a Biblioteca Nacional da Austrália, são preservados os recursos de domínios não ca-
nadianos, mas que tenham interesse cultural, histórico ou científico para a nação canadia-
na.
57 CORDEIRO, Maria Inês (2001) – Tecnologias, bibliotecas e arquitectura de informação : dos siste-
mas aos objectos. In : Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas, Por-to, 2001
58 http://www.nla.gov.au/scoap/guidelines.html 59 http://www.nlc-bnc.ca/pubs/irm/eneppg.htm 60 http://www.nlc-bnc.ca/9/8/index-e.html#7a
3. QUADRO TEÓRICO DE REFERÊNCIA
39
A Biblioteca Nacional da Suécia, através do projecto Kulturarw3 tem uma abordagem to-
talmente diferente no que concerne à selecção de recursos digitais já que considera que
ao seleccionar um e não outro recurso pode estar a cometer um erro e assim obstar à con-
solidação consistente do conhecimento futuro. Desta forma captura todos os sítios do do-
mínio .se e ainda os criados na Suécia mas de domínio .com. Adicionalmente colecta em
toda a Internet todos os sítios que se refiram explicitamente a assuntos suecos.
A Biblioteca Nacional da Finlândia, através do projecto EVA (Elinkeinoelämän Valtuuskunta
- the acquisition and archiving of electronic network publications) segue a mesma orienta-
ção da Suécia mas limita as suas operações de captura a intervalos de tempo regulares.
No caso português, em sede da Biblioteca Nacional, estuda-se a selecção sobre publicações
periódicas electrónicas nacionais, documentos oficiais em formato digital, teses, disserta-
ções e literatura cinzenta produzida na comunidade científica nacional.
Lopes, Cardoso & Moreira (2002)61 defendem para Portugal a opção do depósito voluntário
em detrimento de uma imposição legal. Segundo estes autores o acordo entre p. ex. edito-
res e Biblioteca Nacional viria permitir a implementação de um sistema de recolha selectiva
e ao mesmo tempo criar condições para a definição da estrutura das páginas permitindo a
sua actualização periódica.
Referimo-nos ainda à extensão da selecção do ponto de vista hipertextual. De que forma
devem os links ser seleccionados para preservação? A maior parte das organizações depo-
sita os URLs (Uniform Resource Locator - endereços dos recursos na World Wide Web) e
não os conteúdos.
A Biblioteca Nacional da Austrália deposita os endereços e os conteúdos dos se estes esti-
verem contemplados nas linhas orientadoras referidas atrás e a Biblioteca Nacional do Ca-
nadá os que residirem no mesmo servidor que os recursos seleccionados.
Somente dois projectos depositam integralmente endereços e conteúdos: a Brewster Kale’s
Internet Archive, porque o seu objectivo é arquivar uma imagem de toda a Internet e a
American Astronomical Society que deposita todos os links de todos os recursos do domí-
nio da astronomia e fá-lo em colaboração com outras sociedades astronómicas, cientistas,
universidades e agências governamentais (Hodge, 1999)62.
A propriedade intelectual deve ser considerada uma preocupação adicional no processo de
selecção de recursos a preservar a longo prazo, nomeadamente quanto à obrigatoriedade
61 LOPES, Pedro Faria, CARDOSO, Gustavo & MOREIRA, Maria Vasconcelos (2002) - Preservação de
publicações electrónicas na Internet: os arquivos imperfeitos. Cadernos BAD, N. 2. 62 HODGE,G.M. & CARROLL, Bonnie C. (1999) - Digital electronic archiving : the state of the art and
the state of the practice. International Council for Scientific and Technical Information
3. QUADRO TEÓRICO DE REFERÊNCIA
40
de recolha prévia de autorização dos autores, quer quanto à captura de recursos quer pos-
teriormente quanto ao seu acesso. Citem-se, a propósito, os casos da Suécia e da Finlân-
dia que excluem o contacto com os autores. Pelo contrário, a Biblioteca Nacional da
Austrália, no âmbito do seu projecto PANDORA, assim como a Biblioteca Nacional de
Portugal, fazem preceder o depósito da aquiescência formal dos criadores.
3.4.3. Identificação persistente dos recursos
Depois de seleccionado, o recurso deve ser identificado de forma inequívoca e persistente
para que possam ser estabelecidas ligações de longo prazo.
A título de exemplo referimos os PURLs (Persistent Uniform Resource Locators) implemen-
tados pela OCLC (Online Computer Library Center)63. Do ponto de vista funcional os PURL
são endereços URL que ao invés de apontarem directamente para um endereço na Inter-
net, sujeitando-se à instabilidade já por todos experimentada e traduzida na expressão
“page not found”, encaminham para um outro serviço, intermédio que nomeia os recursos
e que separa a sua localização da sua identificação. Um PURL é composto por três partes:
1) um protocolo ; 2) um endereço de resolução de PURL ; 3) um nome
Damos alguns exemplos retirados de Shafer et al., s.d.64
Também em Portugal a identificação persistente é estabelecida através de PURL.
Outro sistema de identificação persistente é da responsabilidade da International DOI
Foundation e chamado DOI (Digital Object Identifier) 65.
63 http://purl.oclc.org 64 SHAFER, Keith (s.d.) – Introduction to Persistent Uniform Resource Locators 65 http://www.doi.org
http://purl.oclc.org/keith/home
http://purl.oclc.org/OCLC/pull/FAC
http://purl.oclc.org/OCLC/OLUC/32127398/1
Protocolo Endereço de re-
solução Nome
3. QUADRO TEÓRICO DE REFERÊNCIA
41
O DOI é um sistema que permite a identificação persistente e a interoperabilidade da pro-
priedade intelectual num ambiente de rede digital. Permite gerir conteúdos intelectuais em
qualquer formato, com qualquer nível de granularidade e em qualquer ambiente digital.
A estrutura do DOI tem dois componentes: um prefixo e um sufixo e o comprimento é va-
riável. O prefixo identifica a organização que pretende registar DOIs. Em seguida, separa-
do por uma barra encontra-se o sufixo que identifica o recurso.
O DOI pode incorporar qualquer identificação já existente como é o caso p. ex. do ISBN,
integrado como sufixo.
O sistema de resolução é o Handle System66, um standard de arquitectura aberta e escalá-
vel da responsabilidade da Corporation for National Research Initiaves67, instituição sedia-
da no estado de Virgínia nos Estados Unidos da América.
O DOI encontra-se implementado em numerosos sistemas e detém entre outras, as se-
guintes potencialidades68 :
Persistência
Interoperabilidade
Extensibilidade
Independência de plataforma
Actualização dinâmica de metadados, aplicações e serviços.
Damos dois exemplos de DOI extraídos de PASKIN, op. cit.69:
10.1000/182
10.1000/ISBN1-900512-44-0
A opção por PURL ou DOI é, mais uma vez, determinada pela actividade das comunidades
implementadoras.
66 http://www.handle.net 67 http://www.cnri.reston.va.us/ 68 PASKIN, Norman (2003) – The DOI handbook. 3rd ed. International DOI Foundation. 69 PASKIN, Norman (2003) – Op. cit.
Prefixo Sufixo
3. QUADRO TEÓRICO DE REFERÊNCIA
42
No caso da OCLC, foi a consciência da existência dos constrangimentos da Internet que
podem inviabilizar a leitura dos recursos enquanto estes não são definitivamente deposita-
dos em repositórios e respondem por um simples endereço URL.
A International DOI Foundation responde pelas necessidades da comunidade de negócios,
que pretende garantir além do acesso permanente aos recursos, meta-informação adicio-
nal sobre direitos de autor ou outra.
3.4.4. Descrição e acesso dos recursos
No contexto da biblioteca digital como no da tradicional encontramos um qualquer docu-
mento através de índices, criados com a intenção de tornar os documentos fáceis de des-
cobrir. Esta indexação é estabelecida através de metadados.
Os metadados existem para descrição, acesso, gestão e preservação dos recursos deposi-
tados no reservatório. Estes podem ser armazenados segundo estruturas de diversos tipos
alimentadas pelo elemento humano ou por software de indexação automática.
A descrição dos recursos é geralmente construída com base em políticas de gestão de co-
lecções e ao mesmo tempo as características dos metadados variam consoante a tipologia
dos dados e o propósito da sua criação.
A pertinência e relevância da resposta ao utilizador final está dependente não só da boa
qualidade dos metadados como da qualidade e manutenção das ligações, assunto este que
não cabe no âmbito deste trabalho.
Mais à frente, no ponto 3.7 iremos encontrar desenvolvido o assunto metadados de pre-
servação, os quais, neste caso, são criados especificamente para viabilizar a preservação
de longo prazo.
3.4.5. Armazenamento dos recursos
As boas práticas de armazenamento, no ciclo de vida dos recursos digitais, devem ser es-
tabelecidas no mais curto espaço de tempo, tendo em conta a rápida e efectiva obsolência
de tecnologias e suportes.
Existem versões novas de bases de dados, folhas de cálculo e processadores de texto de
dois em dois ou três em três anos e enquanto alguns vendedores de software tornam
compatíveis as novas versões ou fornecem as estratégias de migração existem outros que
não garantem estas condições, o que dá origem a perda de informação e consequente per-
da da integridade dos dados.
O ambiente de hardware não é menos preocupante pois o ritmo de mudança é quase si-
multâneo.
3. QUADRO TEÓRICO DE REFERÊNCIA
43
Também os suportes de armazenamento se deterioram e hoje já podemos considerar per-
dida muita informação armazenada em velhas bandas magnéticas. Este assunto foi já des-
envolvido nos pontos 3.3.2 e 3.3.3.
A maior parte das organizações tenta resolver a questão da gestão do armazenamento de-
finindo estratégias de migrações de dados de 3 em 3 ou de 5 em 5 anos (Hodge, 2000)70.
O armazenamento faz-se preferencialmente em bandas magnéticas e CDs e os dados de-
vem ser refrescados a intervalos de tempo regulares (Aschenbrenner, 2000)71.
3.4.6. Preservação de longo prazo e recuperação da informação
O ambiente digital, dadas as suas características de heterogeneidade e abertura à mudan-
ça, torna imperativa a investigação e o consequente surgimento de padrões que viabilizem
alguma normalização quanto à segurança do futuro dos recursos. As instituições que já
preservam recursos digitais há algum tempo referem que começaram por preservar uma
grande variedade de formatos e que esse número tem vindo a diminuir substancialmente,
especialmente no que diz respeito a folhas de cálculo e bases de dados (Paskin, 2003)72.
Contudo, diz-nos ainda o mesmo autor, que persiste uma baixa consistência na modela-
ção, simulação e objectivos das áreas de software. Muito deste software continua a ser
construído especificamente para um dado projecto.
Uma das preocupações da preservação digital diz respeito à forma como os recursos apa-
recem aos olhos do utilizador final, sendo por vezes necessário proporcionar-lhe o contacto
com o conteúdo dos recursos assim como o seu look-and-feel ou seja a forma, o aspecto e
as características externas de usabilidade.
Este problema é em parte resolvido p. ex. através do formato PDF (Portable document
format), tanto para o caso de recursos textuais menos formais como é o caso da literatura
cinzenta como para publicações periódicas em formato electrónico. Não devemos contudo
deixar de realçar que o formato PDF é proprietário, o que constitui mais uma preocupação
para a área da preservação.
A recuperação da informação é um dos objectivos da preservação e culmina o ciclo de vida
dos recursos. Os dispositivos de acesso da Web podem não aceder directamente aos da-
dos, como é o caso de ficheiros em formatos ASCII (American Standards Code for Informa-
tion Interchange) ou SGML (Standard Generalized Markup Language). Em alguns casos
torna-se necessário recorrer a software específico para aceder aos recursos.
70 HODGE, Gail (2000) – Op. cit. 71 ASCHENBRENNER, A. (2000) – Op. cit. 72 PASKIN, Norman (2003) – Op. cit.
3. QUADRO TEÓRICO DE REFERÊNCIA
44
Ainda no que diz respeito ao acesso existe o problema da propriedade intelectual, que tem
vindo a ser resolvido através de legislação de depósito legal e licenciamentos.
3.5. INTEGRIDADE, AUTENTICIDADE E AUTENTICAÇÃO DE RECURSOS DIGI-
TAIS
Antes de nos debruçarmos sobre a integridade, a autenticidade e a autenticação dos do-
cumentos digitais, devemos examinar a natureza dos recursos digitais que os compõem.
Os bits não são apreendidos pelos órgãos sensoriais humanos, pois não são artefactos na
verdadeira acepção da palavra. Em vez disso devem ser representados, executados, dis-
postos diante das pessoas pelo hardware e software que os interpreta. Contudo o foco da
questão encontra-se em primeiro lugar nos bits. A habilidade necessária para editar os da-
dos passa por colocar o seu conteúdo de forma a poder manipulá-lo (Lynch, 2000)73.
O texto marcado em HTML e apresentado através de um Web browser assume uma di-
mensão sensorial. Recursos digitais constituídos por música, vídeo, imagens, incorporam
uma forte componente apelativa dos nossos sentidos. Os bits são os mesmos mas devido
às diferenças de hardware e software usados pelos receptores, a experiência obtida atra-
vés da observação varia substancialmente.
Neste ponto encontramos questões relacionadas com a autenticidade e integridade. Em
casos extremos temos objectos que são representados de forma experimental, tais como
jogos de vídeo ou realidade virtual onde o fulcro é constituído pelos bits e pelo ambiente de
representação do sistema ou pelo menos pela interacção entre o recurso digital e a sua
representação.
3.5.1. Integridade
Para haver integridade não pode haver lugar a corrupções. A mesma sequência de bits que
gerou um recurso deve ser mantida ao longo do tempo. Desta maneira, Clifford Lynch em
200074 considera a aplicação de certos algoritmos que permitem responder pela integrida-
de de várias abstracções do recurso e não só pela literal sequência de bits. Não obstante,
quando se procura testar a integridade dos recursos são encontradas algumas dificuldades
difíceis de ultrapassar.
73 LYNCH, Clifford (2000) - Authenticity and integrity in the digital environment : an exploratory
analysis of the Central Role of Trust. Washington, CLIR. 74 LYNCH, Clifford (2000) – Op. cit.
3. QUADRO TEÓRICO DE REFERÊNCIA
45
Diz-nos Lynch (2000)75 que os testes de integridade podem ser vistos como subprodutos
de avaliações de autenticidade, visto que deve existir a comparação de uma determinada
versão de um recurso digital com a versão original ou cópia de autoridade.
Desta forma, um dos métodos usados para testar a integridade é comparar o recurso com
a cópia tida como “verdadeira”. Assim, se o acesso a essa cópia dita verdadeira existir, po-
derão reproduzir-se outras cópias verdadeiras. Se esse acesso não for possível então os
testes de integridade limitam-se à consistência interna.
Se o recurso for acompanhado por um digest i.e., uma representação de texto na forma de
uma sequência de dígitos, criado através da utilização de uma fórmula intitulada one-way-
hash function76, com uma assinatura digital autenticada pode determinar-se se existe con-
sistência entre o recurso e o digest e dessa forma estabelecer o grau de integridade.
As assinaturas digitais devem estar ligadas a uma chave pública. Normalmente no momen-
to do depósito é criado um hash i.e., um processo de representação do objecto digital
através de uma cadeia de dígitos, que é assinado usando uma chave privada ou o par cha-
ve privada/chave pública.
A chave pública do par limita-se a uma identidade registada num certificado passado por
uma autoridade certificadora. Este processo é satisfatório até ao momento em que ocorre
uma migração. Aí a assinatura é alterada.
Então, preferencialmente, o repositório deve, ele próprio, assegurar uma assinatura digital
para esse recurso e assegurar também que a cadeia de proveniência está devidamente
documentada.
Ainda Lynch, mas em 199977 refere que os metadados que acompanham cada recurso digi-
tal ajudam a manter a integridade referencial das ligações entre recursos ou entre meta-
dados e recursos.
Num repositório digital os metadados estão associados a cada recurso com informação
descritiva, estrutural, administrativa, de direitos de autor, etc.
Estes metadados são mantidos e migram de formato em formato, de padrão em padrão
independentemente do recurso base que descrevem. Contudo alguns dos metadados asso-
ciados a recursos limitam-se à representação do recurso através de uma assinatura digital,
75 LYNCH, Clifford (2000) - Op. cit. 76 Algoritmo que permite transformar mensagens ou textos numa sequência de dígitos com o propó-
sito de garantir a gestão da segurança cf. Anexo 3. 77 LINCH, Clifford (1999) - Canonicalization : a fundamental tool fo facilitate preservation and man-
agement of digital information. D-Lib Magazine, 5 (9)
3. QUADRO TEÓRICO DE REFERÊNCIA
46
o que dificulta o processo de associação quando recursos e metadados migram de forma
assíncrona.
Lynch em 1999 (op. cit.)78 sugere a aplicação de um método a que o autor chama “canoni-
calization”, onde a utilização de formatos e algoritmos padronizados para vários tipos de
recursos são a solução para o problema da reparabilidade.
Estes podem ser usados para extrair a essência, isto é, o fluxo de bits acompanhado de
informação sobre a sua proveniência, neste caso ao nível da computacão propriamente dita
e não da custódia. É p. ex. o caso de uma assinatura digital.
O problema reside na definição consensual do algoritmo ou algoritmos correctos para um
determinado contexto.
A forma canónica, que contém as características essenciais de determinada classe de for-
matos de recursos não deve ser utilizada pelos repositórios, pois irá incrementar injustifi-
cadamente a necessidade de espaço. É ainda, segundo o mesmo autor, uma forma ideali-
zada de formato, sem contrapartida ao nível da eficácia.
3.5.2. Autenticidade
A verificação da autenticidade, destina-se ao conteúdo dos recursos digitais e à forma
como estes foram criados, existe no contexto dos métodos de identificação e verificação
dos recursos, e não deve por isso ser confundida com autenticação, que aprofundaremos
no ponto seguinte e que existe no contexto da identificação e verificação da identidade do
assinante do recurso (Bearman & Trant, 1998)79.
Podemos questionar-nos se será possível em ambiente digital distinguir entre um original e
uma fraude ou falsificação.
A questão da fraude, quer no âmbito das actividades desenvolvidas pela sociedade civil,
quer no campo forense mantém permanentes fora de discussão e conduz à criação de ca-
deias de autoridade cada vez mais especializadas que interpõem uma barreira às intenções
fraudulentas; contudo o ambiente digital distribuído facilita a penetração de intenções me-
nos sérias.
Algumas das mais promissoras qualidades dos recursos digitais, tais como as relacionadas
com a interactividade, são aquelas que revelam mais problemas de controlo de autentici-
dade.
78 LINCH, Clifford (1999) - Op. cit. 79 BEARMAN, David & TRANT, Jennifer (1998) – Autenticity of digital resources : towards a statement
of requirements in the research process. D-Lib Magazine, June.
3. QUADRO TEÓRICO DE REFERÊNCIA
47
É interessante notar que sempre que existe um salto inovador na natureza dos processos
de edição, caso da tipografia, p. ex. redobram os estudos do âmbito da disciplina da Di-
plomática. É também o caso da autenticidade digital.
Bearman & Trant, op. cit., distinguem três métodos na busca de uma solução dos diferen-
tes problemas de autenticidade digital:
1) Métodos públicos ligados à autenticidade das fontes, que incluem :
- A criação de depósito do copyright
- O depósito certificado das fontes originais combinado com serviços de
certificação de recursos
- O registo de identificadores únicos dos recursos
- A publicação dos dados das chaves dos recursos que depois de hashed ou
calculadas de outra forma devem representar os recursos em causa
- A definição de estruturas de metadados para autenticação ou prova
2) Métodos confidenciais que envolvem o encobrimento de alguns dados do
recurso
- Marcas de água
- Esteganografia
- Assinaturas digitais
3) Métodos funcionais que empregam tecnologias específicas em conjunto
com os recursos
- Encapsulação tanto física como lógica
- Encriptação
- Inserção de agentes
Cada uma destas tecnologias ultrapassa os problemas da autenticação de recursos. Deve
subsistir um ambiente tal que seja seguro e dê garantias de integridade e autenticidade de
um recurso recuperado em determinado momento, depois de migrado de plataforma em
plataforma.
3. QUADRO TEÓRICO DE REFERÊNCIA
48
Peter Hirtle em 200080 apresenta um interessante exemplo de autenticidade da era pré-
digital com evidente extensão aos novos paradigmas: os estudos de verificação de autenti-
cidade da fragata “Constellation”, considerada durante décadas como datada de 1797, na
cidade de Baltimore nos EUA. As provas da sua autenticidade foram forjadas e em 2000
encontravam-se no domínio forense e eram matéria de investigação para o FBI.
A analogia do tradicional ao digital é usada por Hirtle op. cit. que não deixa de referir que
para interpretar documentos de arquivo é necessário compreender a natureza do ambiente
de arquivo, pois um conjunto de artefactos históricos não consubstancia um arquivo. Um
arquivo é, segundo ele, um corpo orgânico, contextualizado, não uma simples colecção de
artefactos. Os arquivos existem unicamente quando se verifica uma contínua cadeia de
custódia dos documentos, de âmbito organizacional, desde a sua criação até ao seu depó-
sito.
Vamos encontrar ainda em Hirtle, op. cit. referência a algumas iniciativas no âmbito da au-
tenticidade dos recursos digitais de arquivo:
“Functional requirements for evidence in recordkeeping”81 – Projecto que
decorreu entre 1992 e 1996 e que desenvolveu requisitos funcionais para
a Universidade de Pittsburgh. David Bearman, consultor deste projecto
propôs um conjunto de requisitos de metadados adaptados a várias áreas
do conhecimento, consoante as necessidades das comunidades envolvi-
das. O objectivo era criar registos constituídos por metadados encapsula-
dos, por forma a que a autenticidade, a integridade, a confiança e a usabi-
lidade dos conteúdos estivessem garantidas.
Projecto conjunto da “University of British Columbia” e da InterPARES (In-
ternational Research on Permanent Authentic Records in Electronic Sys-
tems), subordinado ao título : “Preservation of the integrity of electronic
records”82. Decorreu entre 1994 e 1997. A equipa de trabalho liderada por
Luciana Duranti83 constituiu-se por grupos em diversas localidades geo-
gráficas : Australia, Canadá, China, União Europeia, Itália, Estados Unidos
e ainda um grupo de interesses corporativos industrial. O projecto incidiu
na via da Diplomática e nas suas conclusões considera requisito essencial
para assegurar a autenticidade ao longo do tempo que as operações de
80 HIRTLE, Peter B. (2000) - Archival authenticity in a digital age. In: Authenticity in a digital envi-
ronment. Washington, CLIR, p. 8-21. 81 http://web.archive.org/web/19981203042506/www.sis.pitt.edu/~nhprc/ 82 http://www.cc.ubc.ca/ccandc/feb96/email.html 83 http://www.interpares.org/UBCProject/intro.htm
3. QUADRO TEÓRICO DE REFERÊNCIA
49
rotina de transferência de ficheiros para uma terceira parte, neutral, confi-
ável, com competência para garantir autenticação, sejam feitas por analo-
gia com a arquivologia tradicional.
O projecto InterPARES, que publicou os seus resultados em 200284 em relatório subordina-
do ao título “The long term preservation of authentic electronic records” conduzido de 1999
a 2001, também baseou as suas conclusões na Diplomática contemporânea.
Diz-nos Luciana Duranti em 200185 que este projecto se destinava a desenvolver conheci-
mento teórico e metodológico essencial para a preservação permanente de registos autên-
ticos gerados ou mantidos electronicamente. Baseados no conhecimento adquirido seriam
capazes de formular políticas e estratégias e propor o estabelecimento de padrões capazes
de assegurar preservação digital de longo prazo.
No âmbito deste projecto foi estudada a criação de um enquadramento conceptual para o
estabelecimento de requisitos para preservação de recursos digitais autênticos. Não obs-
tante, subsistem muitas questões em aberto para posteriores investigações.
Destaca-se a área do desenvolvimento tecnológico onde, entre outras, as assinaturas digi-
tais para autenticação de recursos são causa de grande apreensão na área da gestão da
preservação digital de longo prazo.
3.5.3. Autenticação
Seguimos a definição de autenticação encontrada no relatório do projecto InterPARES, re-
ferenciado atrás86: A autenticação é estabelecida através de uma declaração de autentici-
dade de um registo num determinado momento por uma entidade juridicamente responsá-
vel pela emissão dessa declaração.
Segundo Bearman, 199887 a autenticação está relacionada unicamente com permissões de
acesso.
Partindo do princípio de que as entidades oficiais são responsáveis pelo aparecimento de
grande parte dos recursos que se destinam a incorporar depósitos credenciados visto que
são criadoras de princípios legais, registam actos de tribunais, etc, a autenticação destes é
fundamental num ambiente seguro e confiável.
84 http://www.interpares.org/book/index.cfm 85 DURANTI, Luciana (2001) – The long term preservation of authentic electronic records. In : APERS,
M. G. et al. (eds.): VLDB 2001, Proceedings of 27th International Conference on Very Large Data Bases, September 11-14, 2001, Roma, Italy. Morgan Kaufman, ISBN 1-55860-804-4
86 http://www.interpares.org/book/index.cfm 87 BEARMAN, David & TRANT, Jennifer (1998) – Autenticity of digital resources : towards a statement
of requirements in the research process. D-Lib Magazine, June
3. QUADRO TEÓRICO DE REFERÊNCIA
50
Para que este ambiente exista, a política de acesso deve basear-se em infraestruturas de
chaves públicas, assinaturas digitais, encriptações, etc.
As assinaturas digitais são exemplo das tecnologias de autenticação que têm sido desen-
volvidas no sentido de assegurar que as comunicações electrónicas através de redes e da
Internet em particular possam ser consideradas seguras.
As assinaturas digitais que identificam o assinante de determinado recurso e verificam se
não houve alterações durante a transmissão, podem constituir um dos métodos de auten-
ticação mas são não por si só suficientes para estabelecer a autenticidade do recurso a
longo prazo.
Arne Ansper et al. em 200188 apresentam uma proposta de autenticação de assinaturas
digitais de longo prazo baseada na assunção de que é válida toda a assinatura criada antes
do certificado de validação ter sido revogado. Na figura 1 reproduzimos o modelo de servi-
ço de notário proposto por estes autores, na qual estão envolvidas cinco partes :
(1) Uma autoridade certificadora que atesta que as chaves públicas estão
ligadas aos seus detentores
(2) Um assinante que depois de obter uma chave pública certificada pela
entidade certificadora cria uma assinatura digital
(3) Uma terceira parte interessada, a qual recebe uma assinatura digital do
assinante e que tem interesse que esta mantenha valor probatório
(4) Um notário que representa um serviço de confirmação da validade da
assinatura num determinado momento
(5) Um juiz que vai julgar, em determinado momento se a assinatura é ou
não válida
Vejamos esquematicamente como funciona:
3. QUADRO TEÓRICO DE REFERÊNCIA
51
Fig. 1. - Modelo de validação de assinaturas (Ansper, 2001, op. cit.)89
Este modelo vai permitir que o assinante, perante qualquer suspeição, revogue o certifica-
do e a chave pública permite em tempo útil informar todas as partes da revogação da as-
sinatura.
No ambiente académico, uma forma de autenticar dados é através de “peer review”. É um
processo utilizado pela casas editoras mais importantes de publicações periódicas em for-
mato digital, mas que também já existia para o suporte papel. É condição para publicação
de um artigo científico que este seja avalizado, referendando-se, assim, a sua mais valia
científica por peritos internacionais na área temática.
Os habituais criadores de conteúdos na Internet, tanto singulares como colectivos, nem
sempre se preocupam com as múltiplas versões dos seus trabalhos e na maior parte das
vezes não é possível determinar qual é a versão mais recente ou mais actualizada, nem
mesmo determinar a sua autenticidade, dado que nem foram autenticados por nenhuma
autoridade certificadora.
Meg Bellinger, em relatório da OCLC90 diz-nos que esta organização está interessada em
discutir a adaptação de software de autenticação a partir de uma terceira parte.
88 ANSPER, Arne et al. (2001) - Efficient long-term validation of digital signatures. Lecture Notes in
Computer Science, 1992. 89 ANSPER, A et al. (2001) – Op. cit. 90 BELLINGER, Meg (2002) - Understanding digital preservation : a report from OCLC. CLIR
Confirmação
Assinatura,
Certificado
Autoridade
certificadora
Parte
interessada Validação da informação
Assinante Notário Juíz
Assinatura,
Certificado
Assinatura digital
Certificado
3. QUADRO TEÓRICO DE REFERÊNCIA
52
Este software tem as funções de um notário público digital, tal como o modelo de Ansper
et al., 200191 que vimos anteriormente. O criador do recurso digital usa o software para
incluir uma assinatura digital e uma marca temporal. Essa informação é enviada à empresa
que detém o software de autenticação para preservação de longo prazo. O serviço também
regista alterações de detenção de direitos e verifica ulteriormente a sua autenticidade e
proveniência dos recursos.
É também de assinalar a importância que têm nesta matéria identificadores persistentes
tais como os PURL (Persistent Uniforme Resource Locator) ou DOI (Digital object identifi-
ers). Estes, por serem atribuídos uma única vez, são mais um elemento a utilizar como
meio de segurança e autenticação de recursos digitais.
Em trabalho de Polivy & Tamassia, 200292, vamos encontrar uma proposta de solução para
a autenticação de recursos digitais muito complexos, que agregam informação de diferen-
tes fontes, tais como boletins meteorológicos, notícias de jornais, preços de determinadas
mercadorias, etc, e os disponibiliza aos seus utilizadores.
Essa proposta intitula-se “Authenticated dictionary” e existe no âmbito do STMS (Secure
Transaction Management System) (Tamassia 2001)93.
O STMS é um sistema distribuído de autenticação de dados constituído por uma estrutura
de dados que suporta interrogações de utilizadores autorizados. Quando um utilizador in-
terroga um STMS, é devolvida uma resposta e também uma prova da autenticidade dessa
resposta. A prova pode ser da responsabilidade do STMS ou pode ser encontrada através
de um qualquer repositório credenciado.
A novidade é a abordagem de assinaturas XML (Bartel, 2002)94. O standard de assinaturas
digitais XML comporta um conjunto de normas e sintaxe XML para codificar, processar e
verificar assinaturas digitais de dados arbitrários. Adicionalmente fornece autenticação e
testa a integridade dos dados. Uma característica fundamental da assinatura XML é a sua
capacidade de assinar somente partes específicas da árvore XML em vez da totalidade do
documento. Esta característica torna-se importante quando existem várias peças de infor-
mação agregadas provenientes de diferentes fontes, cada qual com as suas características
de autenticação.
91 ANSPER, A. et al. (2001) – Op. cit. 92 POLIVY, Daniel J. & TAMASSIA, Roberto (2002) - Authenticating distributed data using web ser-
vices and XML signatures. Proc. ACM Workshop on XML Security, ACM Press, 2002 (em publica-ção)
93 TAMASSIA, Roberto (2001) – Efficient low-cost authentication of distributed data and transactions. Conduit 10 (2)
94 BARTEL, J., et al. (2002) – Sygnature syntax and processing. : W3C Recommendation. February.
3. QUADRO TEÓRICO DE REFERÊNCIA
53
Apresentamos duas figuras extraídas do mesmo trabalho de Bartel95, a primeira reporta-se
ao serviço STMS (Secure Transaction Management Systems) e a outra é um exemplo de
uma assinatura XML associada com uma resposta STMS.
Fig. 2 – Arquitectura STMS (Polivy & Tamassia, 2002)
95 BARTEL, J., et al. (2002) – Op. cit.
3. QUADRO TEÓRICO DE REFERÊNCIA
54
Fig. 3 – Codificação XML do documento base e da prova (Polivy & Tamassia, 2002)
Existe uma grande actividade de desenvolvimento de metodologias para combater os pro-
blemas inerentes à integridade, autenticidade e autenticação de recursos digitais.
Determinar quais os melhores métodos para determinados fins só é possível se os requisi-
tos funcionais para a autenticidade forem seguidos por parte dos criadores e utilizadores
potenciais.
Não existe uma solução única, devem ser tidos em conta os vários requisitos de autentici-
dade i.e., durante todo o ciclo de vida dos recursos digitais devem ser respeitadas todas as
normas e seguidos todos os padrões no que diz respeito à existência de chaves públicas e
privadas, marcas de água, encriptações, identificadores persistentes, declarações de au-
tenticação, etc.
A tecnologia padronizada e disponível deve ser utilizada no sentido de tentar impedir per-
das, por ausência de capacidade de reconhecimento de autenticidade, de informação que
pode ter características probatórias ou que pode ainda vir a tornar-se historicamente im-
portante.
3.6. ESTRATÉGIAS DE PRESERVAÇÃO DIGITAL
Os documentos produzidos em suporte papel não ácido, com boas tintas vegetais e arma-
zenados em ambiente frio, seco e escuro podem, provavelmente, subsistir durante mais de
mil anos.
3. QUADRO TEÓRICO DE REFERÊNCIA
55
Os documentos digitais, armazenados em qualquer suporte electrónico ou magnético, esta-
rão provavelmente irrecuperáveis dentro de 10 anos. O suporte físico deteriora-se, o har-
dware desaparece do mercado, o software de interpretação da informação é descontinuado
ou simplesmente já tiveram lugar várias gerações e há, assim, perdas sucessivas de in-
formação. Torna-se, deste modo necessário, transferir regularmente os recursos digitais
para novas plataformas.
Seja qual for a estratégia escolhida, o principal objectivo da preservação de longo prazo é
assegurar a longevidade e a manutenção da integridade intelectual dos recursos digitais
(Grout, Purdy and Rymer >2000)96.
Existem caminhos distintos para contornar os problemas da obsolência tecnológica e se-
gundo o Digital Preservation Testbed White Paper, 200197 consolidaram-se, hoje em dia,
várias estratégias :
3.6.1. Preservação tecnológica e impressão em papel
Uma das primeiras opções a ser usada foi a preservação tecnológica dos meios de acesso
aos recursos originais por tanto tempo quanto o necessário.
Esta opção estratégica obriga a que tanto o hardware como o software sejam mantidos em
boas condições para que sempre que seja necessário aceder aos recursos criados nesse
ambiente a resposta seja efectiva.
A preservação tecnológica é considerada bastante dispendiosa e tecnologicamente comple-
xa pois é indispensável manter competências para operar com os sistemas que se vão tor-
nando obsoletos. A acrescentar aos problemas de obsolência existe o risco de descontinui-
dade no fabricante.
Apesar de na prática ainda ser uma opção utilizada por muitas organizações, podemos
considerá-la em declínio.
A opção da impressão em papel, tal como a preservação tecnológica continua a ser usada
apesar de não ser viável para muitos recursos digitais. Quando os recursos a preservar são
texto, gráficos, fotografias ou outros formatos passíveis de reprodução em papel podemos
encontrar organizações que recorrem a essa estratégia.
96 GROUT, Catherine, PURDY, Phill & RYMER, Janine (>2000) - Creating digital resources for the vis-
ual arts : standards and good practice. AHDS/VADS, Guides to good practice 97 DIGITAL PRESERVATION TESTBED WHITE PAPER (2001) – Migration : context and current status.
ICTU
3. QUADRO TEÓRICO DE REFERÊNCIA
56
No que diz respeito a bases de dados ou recursos multimédia existe a incapacidade de pre-
servar certas características tais como movimento, som, fórmulas, estruturas de informa-
ção, etc.
3.6.3. Emulação
Trata-se de utilizar tecnologias actuais e sobre elas reconstituir as funcionalidades e o am-
biente de tecnologias que, entretanto, se tornaram obsoletas.
Por meio da emulação é possível aceder à cópia exacta do recurso original e do seu ambi-
ente e ter a consequente sensação do look-and-feel. Por exemplo, o hardware de um
Commodore C-64 pode ser emulado num processador Pentium. Da mesma maneira o sis-
tema operativo pode ser instalado nesse ambiente virtual o que permite que o processa-
mento do software original corra normalmente.
Os defensores desta estratégia advogam que talvez seja a única solução capaz de preser-
var um documento na sua forma original a longo prazo (Rothenberg, 1999)98, dadas as
múltiplas actualizações tecnológicas a que as instituições inevitavelmente se submetem.
Como pré-requisito de qualquer actividade de preservação por emulação deve existir uma
descrição da tecnologia usada durante a criação do recurso. Por conseguinte, como boa
prática, devem ser encapsulados:
O recurso digital propriamente dito acompanhado pelo software ou softwa-
res que o contextualizam, incluindo o sistema operativo, as aplicações e
quaisquer outras informações consideradas necessárias
As especificações sobre o emulador a usar no sistema futuro por forma a
fornecer informação para a recriação da plataforma original. Deve incluir
uma descrição do software, um histórico do ciclo de vida do recurso digital
e quaisquer outros elementos considerados necessários
A emulação pode ter lugar a dois níveis, ao nível do software e ao nível do hardware.
O primeiro diz respeito ao ambiente do software que deve ser recriado para aceder aos
recursos. Esse objectivo pode ser atingido emulando a aplicação original e o sistema
operativo onde a aplicação corre. Existe no entanto alguma dificuldade para descrever
aplicações de forma a que possam ser reproduzidas posteriormente. Este problema
complica-se bastante quando pensamos em multimédia e hipermédia (Granger, 2000)99,
conceitos que estão, eles próprios em actualização constante.
98 ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. CLIR (Expanded version) 99 GRANGER, Stewart (2000) - Emulation as a digital preservation strategy. D-Lib Magazine, 6 (10)
3. QUADRO TEÓRICO DE REFERÊNCIA
57
Existe ainda a possibilidade de emular o ambiente de hardware emulado em software atra-
vés de informação detalhada acerca das suas características. Segundo Lawrence et al. em
2000100, para que a emulação tenha sucesso é necessário criar um conjunto formado por :
o ficheiro a preservar,
a aplicação que deu origem ao ficheiro,
o sistema operativo onde a aplicação corria,
o ambiente de hardware emulado em software usando informação detalha-
da acerca das suas características.
Podemos considerar esta estratégia bastante complexa e difícil de implementar na prática,
dado o leque variado de necessidades efectivas a preencher e que na maior parte das ve-
zes não é possível atingir.
3.6.4. Migração
Trata-se de transportar os recursos digitais de uma plataforma para outra, adaptando-os
aos ambientes de chegada, de cada vez que hardware e/ou software se tornam obsoletos
ou em antecipação a essa própria obsolência.
É vulgar que estes processos, que provocam sempre alguma reescrita dos recursos trans-
portados, introduzam particularidades novas susceptíveis de serem interpretadas como
corrupção do seu estado original.
Dado o curto período de vida útil das tecnologias não é raro a preservação implicar a sub-
missão dos recursos a migrações múltiplas, com perdas crescentes das suas característi-
cas originais. Neste caso é frequente a observação de corrupções cumulativas que podem
alterar substancialmente a sua aparência original, estrutura, interactividade e look-and-feel
(Rothenberg, 2000)101.
Em alguns casos a transferência de formatos raros torna-se impossível e pode sobrevir a
perda total dos recursos. É o caso de algumas formas de arte interactiva (Aschenbrenner,
op. cit.)102. Outro exemplo, este bastante mais corrente, é a simples migração de ficheiros
do tipo Word ou Excel para versões mais actuais onde por vezes se alteram certas funcio-
nalidades e características de layout.
100 LAWRENCE, Gregory W. et al. (2000) Risk management of digital information : a file format inves-
tigation. CLIR 101 ROTHENBERG, Jeff (2000) - An experiment in using emulation to preserve digital publications.
Den Haag, Koninklijke Bibliotheek. 70 p. ISBN 9062-59-1442 102 ASHENBRENNER, A. (2001) – Op. cit.
3. QUADRO TEÓRICO DE REFERÊNCIA
58
Segundo Paul Wheatley em 2001103 só existe uma forma de evitar este risco que é o pro-
cesso de migração reversível proposto pelo modelo OAIS (Open Archive Information Sys-
tem)104,105, como um dos tipos de migração possível de implementar e que são :
1) Refrescamento – operação realizada quando se copia a partir de um suporte para
outro idêntico, o que, em princípio, não danifica o conteúdo
2) Cópia – operação de réplica para outro ou para o mesmo suporte
3) Reempacotamento106 – A migração envolve reempacotamento quando existem al-
terações durante o empacotamento
4) Transformação – A migração que acarreta alteração do conteúdo da informação é
referida no modelo OAIS como transformação e pode ser:
(a) reversível - Diz-se quando uma nova representação define um conjun-
to ou subconjunto de novas entidades que são equivalentes às definidas
pela representação original. Isto quer dizer que existe a possibilidade de
um movimento à retaguarda, passo a passo, até à representação original.
P. ex. uma representação que usa o código ASCII de A a Z substituída por
uma representação que usa o código UNICODE UTF-16 de A a Z. Esta
transformação resulta numa substituição do código de 7-bit pelo de 16-bit.
A operação inversa é conseguida se substituirmos o código UNICODE
UTF-16 de A a Z pelo ASCII de A a Z. Neste caso o original é recuperado.
(b) não reversível – Diz-se quando não é possível reverter com eficácia
toda a operação de transformação. Esta ocorrência pode dar-se quando as
entidades resultantes não são semanticamente equivalentes.
Na gestão dos repositórios é de toda a conveniência que se adopte um pequeno número de
padrões de aceitação para os quais de deve proceder a conversão de todos os recursos
capturados. Por esta via conseguir-se-á a diminuição drástica dos esforços futuros de mi-
gração. Formatos padrão são p. ex: ASCII para texto, TIFF para imagens e PostScript para
apresentação do layout. Uma animação muito sofisticada poderá ser preservada a partir de
uma série de screen-shots (Aschenbrenner, op. cit.). Como consequência, serão necessári-
os menos conversores em qualquer dos ciclos de conversão.
103 WHEATLEY, Paul (2001) – Migration : a CAMiLEON discussion paper. Ariadne, 29 104 O modelo conceptual de referência OAIS é abordado no ponto 4.1.5 desta dissertação 105 http://wwwclassic.ccsds.org/documents/pdf/CCSDS-650.0-B-1.pdf 106 Os termos empacotamento e reempacotamento fazem parte da terminologia própria do modelo
conceptual OAIS
3. QUADRO TEÓRICO DE REFERÊNCIA
59
Outro aspecto a considerar é a existência de formatos proprietários que limitam o acesso
ao software e que aduzem constrangimentos legais.
Uma vantagem da migração é o rápido acesso ao recurso. Dado que o formato é standard
em qualquer altura o documento pode ser acedido. Na maior parte dos casos a conversão
dos recursos digitais dá-se em circunstâncias tidas como suficientes pela comunidade de
utilizadores, mesmo com perda de algum look-and-feel.
3.6.5. Encapsulação
A estratégia da encapsulação tem como objectivo a preservação do formato original. A lin-
guagem XML é tida como capaz de assegurar o encapsulamento dos metadados e das ins-
truções necessárias à interpretação do original, sendo possível combiná-la com outras es-
tratégias, como é o caso da emulação107.
Na presença da existência de uma colecção de metadados previamente determinada, estes
podem ser expressos na forma de esquema XML que pode ser reutilizado em colecções de
recursos que correspondam a essas especificações. Esta normalização torna-se importante
na medida em que facilita o trabalho do repositório digital na opção por esquemas de me-
tadados.
Na Austrália, encontramos o projecto VERS (Victorian Electronic Records Strategy) que im-
plementou esta estratégia com sucesso e no seu relatório final108 apresenta as seguintes
conclusões:
Os recursos, o contexto e informação de autenticação devem ser encapsu-
lados num único objecto e não separadamente
A estrutura dos dados deve permitir a inclusão de metadados em camadas
A linguagem XML deve ser usada para codificação dos recursos a depositar
Cada recurso deve apresentar uma assinatura digital
3.6.6. Software Máquina Virtual (UVC - Universal Virtual Computer)
Opção tida como variante da emulação proposta por Raymond Lorie da IBM em trabalho
conjunto com a Biblioteca Nacional da Holanda (Koninklijke Bibliotheek) em 2001109,110.
107 Digital Preservation Testbed Project (2002) – XML and digital preservation. 108 http://www.prov.vic.gov.au/vers/published/final.htm 109 LORIE, R. A. (2001) The long term preservation of digital information. RLG DigiNews. 5 (3) 110 IBM/KB (2001) – Long term preservation study. DNEP.
3. QUADRO TEÓRICO DE REFERÊNCIA
60
Consiste num software que é aplicado a um recurso no momento do depósito, gerando um
programa executável do qual consta a descrição de todas as características do recurso. Re-
curso e executável são preservados em conjunto. Este executável deve posteriormente
correr num ambiente de interpretação próprio software UVC (Universal Virtual Computer)
que proporciona a reconstituição do original.
A estratégia UVC pode abranger o depósito de programas no sentido do desenvolvimento
de emuladores mesmo no desconhecimento da máquina alvo. Ao invés de depositar o fluxo
de bits e o programa que o descodifica, devem ser depositados o programa original em
conjunto com um emulador da máquina, escritos em linguagem UVC, e também qualquer
ficheiro de dados que seja necessário para correr a aplicação original. Os metadados de-
vem fornecer explicações quanto à forma de correr o programa.
Segundo Lorie, 2001, op. cit, através desta estratégia pretende-se diminuir a dependência
de normas. Ao escrever para cada novo formato um programa UVC que o descodifique as-
segurará segundo este autor a preservação dos dados para o futuro.
3.6.7. XML (Extensible Markup Language)
A linguagem XML pode ser vista como um tipo particular de migração.
É uma linguagem de enriquecimento de informação sobre estruturas e significado. Sendo
independente da plataforma onde vai correr é um padrão aberto. Favorece a interoperabi-
lidade e pode ser usado como formato de criação de documentos. Pode considerar-se como
uma estratégia de preservação por si só.
Por vezes a opção XML e o formato PDF são considerados como disputando o mesmo terri-
tório para a preservação a longo prazo, mas como, na verdade, são bastante complemen-
tares será mais apropriado orientar a estratégia pela utilização dos dois do que optar por
um único111 e desta maneira o risco de perda diminui.
Mas existe uma opção estratégica ?
No contexto de um repositório digital que periodicamente tem que gerir conversões de da-
dos e migrações de hardware para fazer face a obsolências e desactualizações o objectivo
é a preservação da totalidade do conteúdo da informação de cada recurso, por vezes inclu-
indo o look-and-feel, a substituição do velho pelo novo e o controlo total das operações de
transferência.
111 Digital Preservation Testbed Project (2002), op. cit.
3. QUADRO TEÓRICO DE REFERÊNCIA
61
Ao optar pela estratégia da migração o repositório fica impossibilitado de saber o que deixa
em herança. É impossível prever quantas vezes vai ser necessário migrar.
Os standards podem ter uma vida curta no ambiente digital. Cabe também referir que o
nível de corrupção depende em grande parte das boas práticas seguidas durante a criação
dos recursos digitais a preservar, e também das técnicas de reparabilidade usadas e dos
metadados que as documentam.
Os pontos críticos da migração estão relacionados com o muito trabalho que acarreta, a
morosidade do processo, o alto custo devido às sucessivas migrações, a ausência de esca-
labilidade, a perda da forma original e a corrupção do look-and-feel.
A opção estratégica da emulação por outro lado torna-se polémica e motivo de discussão
científica como podemos verificar no trabalho de Granger, 2000 atrás citado 112, onde este
autor questiona as opções de Rothenberg aparecidas em 1999113.
Também Lawrence et al. (op. cit.)114 considera que não existe sistema capaz de manter os
emuladores - manter emuladores obsoletos torna-se tão problemático como manter fichei-
ros em formatos obsoletos.
O projecto CAMiLEON (Creative Archiving at Michigan and Leeds)115 tem como objectivo,
precisamente, aplicar a estratégia da emulação à preservação digital de longo prazo.
Também o projecto NEDLIB (Networkd European Deposit Library)116 manifesta a intenção
de promover o desenvolvimento do estudo da emulação como tecnologia a aplicar.
Digamos que, antes de 2000-2001, a emulação teve expressão nalguns projectos, mas a
Biblioteca Nacional da Austrália117 manifesta a intenção de fazer aplicar ambas as estraté-
gias, migração e emulação e à medida que os resultados forem surgindo e a experiência
aumentar talvez seja possível optar, consoante as variáveis envolvidas, por uma ou outra,
ou pela aplicação de ambas.
Mesmo que o look-and-feel dos recursos tenha sido alterado durante o processo de preser-
vação esse facto pode não ser relevante para as necessidades dos utilizadores. Cabe-nos
por isso atender à natureza dos recursos e às necessidades das comunidades de utilizado-
res do nosso tempo para podermos projectá-las para as comunidades do futuro.
112 GRANGER, S. (2000) – Op. cit. 113 ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. CLIR (Expanded versi-
on) 114 LAWRENCE, et al. (2000) – Op. cit. 115 http://www.si.umich.edu/CAMILEON 116 http://www.kb.nl/coop/nedlib/results/NEDLIBemulation.pdf 117 http://www.nla.gov.au/preserve/pmeta.html
3. QUADRO TEÓRICO DE REFERÊNCIA
62
Seja qual for a estratégia a desenvolver pelo repositório digital, o seu desempenho só terá
sucesso se forem seguidas boas práticas e se a criação de metadados de preservação esti-
ver prevista ao longo de todas as fases do ciclo de vida do recurso digital.
3.7. METADADOS DE PRESERVAÇÃO DE LONGO PRAZO
Definimos metadados de preservação de longo prazo como informação de apoio aos pro-
cessos associados com a preservação digital de longo prazo.
Em ambiente digital, os recursos digitais sofrem transformações, cujos resultados nem
sempre são fáceis de controlar, motivo pelo qual deve ser criado um histórico da mudança
ao longo do tempo com o objectivo, entre outros, de garantir que os mecanismos que
atestam a autenticidade e a integridade dos mesmos possam ser recompostos. De igual
maneira, as tecnologias de acesso aos recursos digitais rapidamente se tornam obsoletas e
por isso haverá que encapsular informação acerca dos suportes de armazenamento, har-
dware, sistema operativo e respectivos softwares utilizados durante o ciclo de vida dos re-
cursos.
Os metadados de preservação devem armazenar informação técnica e administrativa sobre
decisões e acções de preservação, registar os efeitos das estratégias de conversão de da-
dos, assegurar a autenticidade dos recursos digitais ao longo do tempo e registar informa-
ção acerca de gestão de colecções e de direitos.
Em Borbinha (2001)118, encontramos referidos um conjunto de objectivos para os metada-
dos, que são :
Descrição bibliográfica dos recursos
Gestão administrativa dos recursos
Preservação dos recursos
Descrição estrutural e técnica dos recursos
Acesso, uso e reprodução dos recursos
Gestão administrativa dos próprios metadados
Do estrito ponto de vista da preservação digital de longo prazo, apesar de todos os objecti-
vos apresentados serem indispensáveis à boa gestão dos recursos antes e depois de depo-
118 BORBINHA, José (2001) - Metadata – Conceito e sua relevância para as bibliotecas. Actas do 7º
Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas. Porto, 2001
3. QUADRO TEÓRICO DE REFERÊNCIA
63
sitados num repositório, interessa-nos, particularmente, o objectivo de dar informação
acerca dos requisitos e condições, técnicas ou formais de preservação de longo prazo.
Segundo o “OCLC/RLG Working Group on preservation metadata”119 as características fun-
damentais dos metadados de preservação são as seguintes:
Abrangência, i.e., devem ser constituídos por todos os requisitos
informacionais necessários à gestão de um repositório desde a sua
inclusão até à sua disponibilização e acesso.
Estruturação, ou seja, devem apresentar uma descrição de alto nível dos
componentes chave do sistema e das suas funcionalidades. Este ponto
vem complementar o primeiro.
Aplicação alargada, i.e., os metadados de preservação devem poder apli-
car-se a um leque variado de tipos de recursos digitais, de actividades e
de instituições. Uma estrutura de metadados de preservação representa o
consenso de um grupo de trabalho e deve ser imparcial sobre assuntos re-
lacionados com as opções de estratégias de preservação.
Referindo-nos ao ciclo de vida dos recursos e à fase da criação, é importante que da parte
dos repositórios se alertem os criadores para a inserção dos metadados necessários.
Damos como exemplo as linhas orientadoras da AHDS (Arts and Humanities Data Service)
para os produtores de modelos em CAD120.
Enquanto o trabalho está em mãos é muito mais fácil recordar os passos dados para cons-
truir o modelo. A documentação produzida ajudará tanto os próprios membros da equipa
de trabalho como no futuro será uma componente vital no processo de preservação a lon-
go prazo. É desnecessária uma documentação exaustiva de todo o processo criativo mas
fundamental documentar algumas fases do processo dado que cada projecto pode conter
um número alargado de modelos.
Assim, para cada projecto devem ser fornecidos metadados que contenham:
Uma descrição alargada, em diagonal, de todo o projecto
Métodos e normas usados no projecto
119 OCLC/RLG Working Group on preservation metadata (2001) - Preservation metadata for digital
objects : a review of the state of the art : a white paper 120 EITELJORG II, Harrison et al. (2002) - Archaeology Data Service CAD : A Guide to Good Practice.
AHDS
3. QUADRO TEÓRICO DE REFERÊNCIA
64
Descrição individualizada dos modelos no projecto
Para cada projecto deve ser fornecida uma lista dos ficheiros criados que deve incluir :
Nome do ficheiro
Data de criação ou da última actualização
Formato dos dados e número da versão utilizada
Descrição do conteúdo
Copyright associado
De igual modo para cada modelo os criadores devem também dar a conhecer informação
sobre os modelos através de:
Título do projecto
Número de referência
Criador
Título do modelo CAD
Software CAD
Ficheiros usados
E ainda informação para algumas bases de dados associadas, que deve incluir :
Título do projecto
Referência do projecto
Base de dados c/ versão e tipo
Título das tabelas ou ficheiros, assim como número de referência
Campos da tabela
Título do ficheiro CAD que está associado à BD
Formato do ficheiro
Data de criação da BD
3. QUADRO TEÓRICO DE REFERÊNCIA
65
Sem a ajuda destes elementos de metadados não será possível reconstruir os modelos
posteriormente.
Cabe desta forma a cada repositório encaminhar os depositantes para uma conduta basea-
da no seguimento de boas práticas e verificar no acto de depósito se estas foram cumpri-
das.
3.7.1. Comunidades temáticas e respectivas necessidades de metadados
Os inúmeros repositórios de preservação de recursos digitais de longo prazo existentes
têm sido construídos seguindo as necessidades de determinadas comunidades temáticas.
Estas, face à consciência da existência real de perigo da perda de dados científicos de inte-
resse nacional estratégico, desenvolveram os seus próprios modelos de repositórios que
desempenham bem as respectivas funções, mas que dado o seu âmbito restrito contêm
limitações, se usados por comunidades de outros domínios temáticos.
Em CCSDS, 2002121 encontramos referência às exigências de metadados a que estão sujei-
tos os depositantes de alguns repositórios temáticos que passamos a descrever sucinta-
mente
Planetary Data System Archive122
Trata-se um repositório americano, distribuído, que serve a comunidade da NASA relativa
a ciências planetárias.
É constituído por um nó central no Jet Propulsion Laboratory e por sua vez outros nós de
subdivisão temática, para as geociências, atmosfera, interacções planetárias de plasma,
etc. Estes nós estão distribuídos por universidades em todo o país. Os interessado em de-
positar recursos neste espaço de preservação são obrigados a seguir linhas orientadoras.
Os metadados que acompanham os dados no acto de admissão no repositório são cuidado-
samente comparados com os elementos que constam de uma lista de terminologia agre-
gada ao sistema. Também podem ser acrescentados novos elementos se for considerado
oportuno.
Os metadados base para constituição do repositório constam dos seguintes ficheiros :
- AAREADME.TXT : texto resumido do conteúdo dos dados
- VOLDESC.SFD : etiquetas normalizadas dos pacote de dados
121 Consultative Committee for Space Data Systems (2002) – Reference Model for an Open archive
Information System (OAIS), Blue Book (CCSDS 650.0-B-1) 122 http://pds.jpl.nasa.gov/pds-cn-homepage.html
3. QUADRO TEÓRICO DE REFERÊNCIA
66
- VOLINFO.TXT : descrição do conteúdo dos dados
- CATALOG : DATASET.CAT. MISION.CAT, INST.CAT
- INDEX : índice ASCII cobrindo a granularidade de cada pacote de dados
- SOFTWARE : software necessário para interpretar e visualizar os dados
- CALIB : conjuntos de calibração de dados
- BROWSE : permite percorrer a lista dos recursos em cada pacote de dados.
O acesso é possível através de CDs distribuídos a toda a comunidade. Também é possível
aceder via Internet a grande parte dos recursos.
National Archives and Records Administration´s (NARA)123
Este repositório preserva e dá acesso a recursos digitais no âmbito do governo federal dos
EUA. A comunidades de utilizadores é tão ampla quanto os conteúdos o permitem.
Antes de serem integrados no repositório são criados metadados que incluem a origem, a
criação, as características dos dados e os desenvolvimentos administrativos. O NARA cap-
tura ainda para uma base de dados, com o objectivo de uma posterior verificação automá-
tica, metadados acerca dos domínios, das ligações e dos layouts.
Da mesma maneira, outros metadados criados pelo pessoal do NARA incluem descrições
das colecções, resumos, listas de títulos, etc.
Life Sciences Data Archive (LSDA)124
A comunidade alvo deste repositório é constituída por investigadores no âmbito das ciênci-
as da vida no espaço. O LSDA contém dados referentes a experiências biológicas com ani-
mais, plantas e pessoas em ambientes fora da Terra em voo.
Os metadados são os que acompanham originalmente os dados. Excepcionalmente serão
acrescentados outros no caso de existir obsolência dos suportes e ser necessário tranferi-
los para outros de nova geração.
123 http://www.archives.gov/ 124 http://lsda.jsc.nasa.gov/
3. QUADRO TEÓRICO DE REFERÊNCIA
67
3.7.2. Sistemas de metadados aplicáveis à preservação digital
Analisamos, de seguida, alguns sistemas de âmbito mais genérico e que procuram
constituir um standard para a preservação digital, no domínio dos recursos mais ligados
ao mundo das bibliotecas e dos arquivos.
Dublin Core125
O Dublin Core é o formato de metadados para recursos digitais mais divulgado pois é pas-
sível de aplicação alargada a qualquer comunidade temática. Foi projectado tendo como
objectivo a recuperação dos recursos em HTML. Contém uma estrutura simples e flexível
aplicável a recursos complexos. Tem capacidade para ser representado através de variadas
sintaxes e podemos encontrar uma codificação para os elementos do Dublin Core em XML
usando RDF (Beckett, Miller & Brickley 2002)126.
Estabelecido no âmbito da OCLC/NCSA, é composto por um conjunto de 15 elementos pa-
drão, permitindo a inclusão de elementos adicionais para atender às particularidades de
cada comunidade. Foi estabelecido por consenso de um grupo internacional e interdiscipli-
nar de profissionais – bibliotecários, analistas, linguistas, museólogos, entre outros, e é
utilizado para descrever uma variedade de recursos existentes na Internet. Pode ser consi-
derado como um meio de comunicação e de busca de informação para a Internet. O DC
tem sido adoptado por importantes instituições e também como padrão nacional em agên-
cias governamentais americanas. Apresentamos em seguida o conjunto de elementos defi-
nidos para aplicação pelo Dublin Core, 2002127:
Título - título dado ao recurso
Criador - entidade principal responsável pela elaboração do conteúdo do
recurso
Assunto - assunto referente ao conteúdo do recurso
Descrição - descrição do conteúdo do recurso
Editor – entidade responsável pela difusão do recurso
125 http://dublincore.org/ 126 BECKETT, Dave, MILLER, Eric & BRICKLEY, Dan (2002) – Expressing simple Dublin Core in
RDF/XML. Dublin Core Metadata initiative. 127 DCMI (2002) – DCMI elements and element refinements : a current list. Dublin Core Metadata
initiative.
3. QUADRO TEÓRICO DE REFERÊNCIA
68
Outros responsáveis - entidade responsável por contribuições ao conteúdo
do registo
Data - data da criação ou de actividade de preservação no ciclo de vida do
recurso
Tipo - natureza ou género do conteúdo do recurso
Formato - manifestação física ou digital do recurso
Identificador - identificação única não ambígua do recurso
Fonte - referência a um outro recurso do qual deriva o presente
Língua - língua do conteúdo intelectual do recurso
Relação - referência para outro recurso do qual o presente recurso é deri-
vado ou está associado
Cobertura - âmbito espacio-temporal do conteúdo do recurso
Direitos - Informação sobre os direitos legais do recurso e seu uso
Entre as várias organizações que aderiram à implementação de esquemas de metadados
baseados no Dublin Core podemos referir os exemplos da Networked Digital Library of
Theses and Dissertations128, do Nordic Metadata Project129, da Art, Design, Architecture &
Media Information Gateway and Visual Arts Data Service130, do CIMI (Consortium for the
Computer Interchange of Museum Information)131 e do CORC (Cooperative Online Resour-
ces Cataloguing)132.
EAD (Encoding Archiving Description)133
Mais vocacionada para a realidade arquivística encontramos a norma EAD que permite que
a norma ISAD(G) seja descrita numa DTD SGML. Esta norma é mantida no Network Deve-
128 http://www.ndltd.org 129 http://www.lib.heilsink.fi/meta/index.html 130 http://adam.ac.uk 131 http://www.cimi.org 132 http://purl.oclc.org/corc 133 http://lcweb.loc.gov/ead/
3. QUADRO TEÓRICO DE REFERÊNCIA
69
lopment and MARC Standards Office da Biblioteca do Congresso134 em parceria com a So-
ciety of American Archivists135 que é a sua proprietária.
O EAD descreve formalmente o modelo estrutural para um auxiliar de busca e ao mesmo
tempo fornece documentação de apoio. Esta documentação é composta por um conjunto
de etiquetas disponíveis para identificar as componentes lógicas dos auxiliares de busca.
Contém um glossário com a definição do significado das etiquetas, e a linguagem SGML
define a sintaxe para a utilização dessas mesmas etiquetas.
Os benefícios da utilização da linguagem SGML estão relacionados com :
A independência de plataformas de armazenamento - os recursos podem
ser recuperados através da utilização de qualquer equipamento e em
qualquer ambiente de software.
A validação - a estrutura de qualquer auxiliar de busca pode ser validada
contra o modelo definido na DTD do EAD para garantir que a norma está
bem implementada
A reutilização do recurso - um documento codificado em EAD pode ser
transformado numa grande variedade de formatos consoante as necessi-
dades, é o caso de requisitos de ecrã ou de impressão
O processamento – Dado que as etiquetas da DTD EAD identificam conteú-
dos de informação do recurso, tais como datas, nomes de pessoas, etc,
em vez das características de apresentação do recurso, como tipo de letra,
tamanho dos tipos, etc, os conteúdos estão em condições de ser apresen-
tados em qualquer formato ou trabalhados de forma a produzir outro tipo
de acções tais como p. ex., listas ordenadas.
O EAD possui uma variedade de ferramentas e ficheiros de ajuda para as aplicações SGML
e XML136.
De entre as instituições137 que, mundialmente, adoptaram o EAD como modelo de metada-
dos podemos referir o IANTT (Instituto dos Arquivos Nacionais da Torre do Tombo)138.
134 http://www.loc.gov/marc/ndmso.html 135 http://www.archivists.org/ 136 http://jefferson.village.virginia.edu/ead/products.html 137 http://jefferson.village.virginia.edu/ead/sitesann.html 138 http://www.iantt.pt/
3. QUADRO TEÓRICO DE REFERÊNCIA
70
METS (Metadata Encoding and Transmission Standards)139
O esquema de metadados METS é uma norma para codificação de metadados descritivos,
administrativos e estruturais de recursos digitais que utiliza a linguagem XML. A norma é
mantida pelo Network Development and MARC Standards Office da Biblioteca do Congres-
so140 e tem sido desenvolvida como uma iniciativa da DLF141 (Digital Library Federation).
Esta iniciativa pretende construir um formato XML para codificação de metadados necessá-
rios para a gestão de bibliotecas digitais no âmbito de repositórios e também para permitir
a permuta de recursos entre repositórios ou entre repositórios e utilizadores.
Dependendo da sua utilização, um documento METS pode ser usado como SIP (Submission
Information Package), como AIP (Archival Information Package) ou mesmo como DIP (Dis-
semination Information Package no âmbito do modelo de referência OAIS que estudare-
mos no ponto 4.1.5. Um documento METS é constituído por cinco secções :
1) Metadados descritivos – Esta secção pode consistir em apontadores
para esquemas externos de metadados tais como o formato MARC, atra-
vés de um OPAC ou ajudas EAD através de um servidor WWW
2) Metadados administrativos – Fornecem informação acerca da fonte dos
dados e acerca da proveniência, da história do recursos (migrações, trans-
formações, etc.)
3) Grupos de ficheiros – Lista dos ficheiros que compõem o recurso em to-
das as versões.
4) Mapa de estruturas – Estrutura hierárquica dos recursos digitais e das
ligações entre o conteúdo dos ficheiros e os metadados
5) Comportamento – Secção relativa a comportamento que pode ser usada
para associar comportamentos executáveis com o conteúdo de um recur-
so METS. Esta secção contém também um mecanismo modular de um có-
digo executável que implementa e instala comportamentos definidos abs-
tractamente pelo interface.
O METS está a ser analisado como esquema de metadados a utilizar na Biblioteca Nacional
de Portugal.
139 http://www.loc.gov/standards/mets/ 140 http://lcweb.loc.gov/marc/ndmso.html 141 http://www.diglib.org/
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
71
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSI-
TÓRIO DIGITAL
Um repositório de recursos digitais confiável é aquele cuja missão consiste em fornecer
acesso a longo prazo a recursos digitais de uma designada comunidade no presente e no
futuro de forma permanente e garantida.
Neste capítulo vamos dedicar-nos a determinar os aspectos que atribuem confiabilidade
aos repositórios digitais com vista à sua implementação. Os objectos de estudo serão op-
ções consideradas internacionalmente como paradigmáticas.
4.1. CONFIABILIDADE DE UM REPOSITÓRIO DIGITAL
Seja qual for a infraestrutura de base adoptada, para atingir os seus objectivos um reposi-
tório digital deve corresponder às seguintes expectativas:
Existir no âmbito de um sistema organizacional que assegure a viabilidade
a longo prazo do repositório e da informação digital que este pretende
preservar
Aceitar a responsabilidade da manutenção a longo prazo de recursos digi-
tais no interesse dos depositantes e para benefício dos actuais e futuros
utilizadores
Demonstrar responsabilidade fiscal e base de sustentação
Desenhar o seu sistema de acordo com convenções e normas internacio-
nais para que a gestão, o acesso e a segurança dos recursos digitais aí
depositados se mantenham ao longo do tempo.
Estabelecer metodologias para avaliação da qualidade dos sistemas que
vão ao encontro das expectativas da comunidade do ponto de vista da
confiabilidade
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
72
Manter políticas, práticas e desempenhos que possam ser auditados e afe-
ridas por entidades independentes
A atribuição de responsabilidades no processo de preservação de recursos digitais é bas-
tante complicada pois todos os intervenientes no processo: criadores de conteúdos, dese-
nhadores de sistemas, patrocinadores e futuros utilizadores são intervenientes activos e
potenciais.
É também difícil conciliar os interesses de alguns intervenientes i.e., os editores comerciais
investem na preservação dos recursos digitais enquanto estes têm valor comercial enquan-
to que as bibliotecas, arquivos ou museus tendem para objectivos de preservação e de
acesso a longo prazo.
Ambas as filosofias de preservação, como já vimos no ponto referente ao ciclo de vida dos
recursos digitais influenciam decisivamente a futura preservação nos repositórios, especi-
almente no que diz respeito ao acesso à informação. Contudo, se forem impostas práticas
de normalização no que diz respeito tanto a formatos, evitando a utilização de formatos
proprietários, como à introdução de metadados desde a fase de criação, à atribuição de
identificadores persistentes, e também à correcta aplicação de técnicas de reparabilidade
dos ficheiros, muitos dos problemas serão ultrapassados com uma maior facilidade.
Como veremos no ponto 4.1.4, a implementação do modelo de referência OAIS constitui
um enquadramento base importante, que atribui maturidade à definição de um repositório
digital confiável através de uma interessante articulação de metadados administrativos,
descritivos e estruturais.
4.1.1. As questões legais
A determinação da posse dos recursos nem sempre é clara dada a possibilidade da exis-
tência de variadas responsabilidades num só recurso assim como a intangibilidade inerente
às características dos suportes de informação.
Por estas razões assistimos hoje a uma situação em que o acesso a um número crescente
de recursos digitais nas colecções de investigação só é permitido através de onerosos li-
cenciamentos de instituições ou de consórcios de instituições.
Estes acordos dizem respeito tanto aos conteúdos como aos softwares utilizados. A maior
parte dos licenciamentos é ainda muito vaga no que diz respeito à preservação de longo
prazo.
As bibliotecas têm vindo a procurar o acesso a licenciamentos especiais para poderem gerir
a preservação de longo prazo assim como permitir o acesso aos recursos preservados.
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
73
A questão dos direitos de autor no caso da preservação de recursos digitais está ainda
muito pouco esclarecida, dado que os criadores de conteúdos na maior parte das vezes
não detêm os direitos do software e dos sistemas usados para criar os ficheiros digitais.
Deste modo surgem constrangimentos legais no momento de estabelecer o acesso ou
configurar mudanças no sistema. Um repositório terá que empreender acordos com direi-
tos especiais, claramente definidos, para a gestão a longo prazo.
Na pior das hipóteses a preservação ficará comprometida porque não foram conseguidos
acordos claros.
4.1.2. As questões financeiras
O esforço financeiro é potencialmente mais elevado do que o habitualmente efectuado com
a preservação tradicional.
Os custos da preservação digital devem-se especialmente a:
Necessidade de gerir a mudança tecnológica a intervalos regulares ad infi-
nitum.
Necessidade de normalização tanto na gestão dos recursos propriamente
ditos como nos acordos de licenciamento com os criadores e editores
Necessidade de recrutamento e constante reciclagem de pessoal compe-
tente nas áreas tecnológicas em questão.
Considera-se vantajosa a existência de diálogo entre as organizações intervenientes sobre
normalização, critérios e mecanismos necessários para certificação dos repositórios de in-
formação digital e outros assuntos de ordem administrativa e financeira que tendam a me-
lhorar a gestão dos repositórios digitais e, desta forma, contribuir para a sua confiabilida-
de.
Partindo deste pressuposto, convém referir que é da responsabilidade dos repositórios digi-
tais, tentar influenciar os criadores dos conteúdos que vão ser depositados para que cum-
pram as boas práticas propostas pelo repositório desde o início da criação142. Neste senti-
do, devem ser estabelecidas linhas orientadoras que deverão ser dadas a conhecer aos cri-
adores e aos detentores da informação. Esta iniciativa só é possível de concretizar se a se-
lecção e captura dos recursos no repositório não for executada de forma automática.
142 HENDLEY, Tony (1998) – Comparison of methods and costs of digital preservation. British Library
Research and Inovation Report; 106. ISBN 0-7123-9713-2
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
74
Da mesma maneira, se legalmente for possível ao repositório receber os recursos através
de depósito legal, deve ser previamente efectuada larga campanha informativa/publicitária
junto dos criadores de conteúdos para que as linhas orientadoras sejam cumpridas.
A partir deste momento o repositório depara-se com custos relativos à gestão dos recursos
e que dizem respeito à estrutura dos dados, à documentação, ao seu armazenamento e à
sua validação. Existem muitos outros custos associados mas vamos abordar unicamente os
seguintes:
Quanto à estrutura dos dados: Os custos variam em função do formato de
criação do recurso ser proprietário ou aberto.
Quanto à documentação: O repositório deve conferir a documentação que
acompanha o recurso. Se for caso disso, deverá enriquecer essa documen-
tação que vai permitir a posterior recuperação do recursos em condições
favoráveis. A documentação diz respeito à estrutura do recurso, ao seu
conteúdo, à sua proveniência e à sua história. Se o repositório não detiver
as condições técnicas suficientes para colmatar as deficiências de docu-
mentação, deverá rejeitar os recursos. Acompanhando este raciocínio,
quando a documentação que acompanha o recurso é pobre, os custos do
repositório aumentam dramaticamente.
Quanto à validação: O repositório deve cumprir alguns procedimentos que
vão também encarecer o depósito dos recursos. Deve verificar, através do
seu visionamento, se:
o recurso está conforme com a documentação;
o recurso corre nos ambientes de hardware e software que foram
especificados
o recurso tem qualidades de consistência.
Quanto ao armazenamento: Os custos variam em função da quantidade de
recursos armazenados e da quantidade de recursos disponibilizados, e
também da forma de armazenamento e de acesso. Os cenários prováveis
vão desde o outsourcing total do armazenamento até um armazenamento
misto de off-line, processando-se o acesso aos recursos somente através
de protocolos entre os utilizadores e o repositório ou on-line e distribuídos
em tempo real na Web.
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
75
Podemos dividir os custos da preservação propriamente dita em três categorias:
Preservação do fluxo de bites através de cópias e refrescamentos
Interpretação do fluxo de bites através da preservação da documentação
Assegurar que é possível continuar a descodificar os dados no futuro de-
pois de prosseguir uma das estratégias de preservação já referidas
Os custos da gestão dos direitos cobrem todas as fases do processo incluindo a protecção
dos dados e a confidencialidade
4.1.3. A gestão do risco
Muitos dos riscos que ameaçam os recursos digitais já são conhecidos de qualquer reposi-
tório. São eles, as calamidades naturais, pragas de insectos ou micro-organismos que des-
troem os suportes digitais da mesma maneira que destroem livros e edifícios, sabotagens
de qualquer tipo, etc. Por outro lado, os suportes magnéticos ou ópticos contêm, em si
mesmos, vulnerabilidades que lhes são próprias e que podem ser objecto de medidas
profilácticas (ver ponto 3.3.2 onde nos dedicámos às características dos suportes de
armazenamento dos recursos).
Cabe a um repositório digital a implementação de um conjunto de boas práticas que per-
mita cobrir o ciclo de vida dos recursos, preservar os dados e preservar os metadados que
descrevam o ambiente da criação e evolução dos recursos.
Os metadados associados irão facilitar no futuro o acesso ao conhecimento da proveniên-
cia, do contexto e do real significado dos dados dos recursos.
Mas, é sobretudo gerir o risco das estratégias de preservação tais como migração de dados
ou emulação de hardware e software que neste momento congrega os esforços dos projec-
tos de preservação digital em curso. Por exemplo, uma folha de cálculo migrada em ASCII
recupera os valores de todas as células mas perde as fórmulas que lhes deram origem.
Para que uma emulação seja totalmente conseguida é necessário empacotar:
os dados a preservar,
o software da aplicação que gerou os dados,
o sistema operativo no qual a aplicação corre e
uma emulação do ambiente de hardware em software com abundante e
pertinente informação acerca dos atributos desse hardware.
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
76
Este complexo ambiente tenderá a falhar em muitas ocasiões.
Podemos referir o projecto CAMILEON143, mais do que uma vez já citado neste trabalho
como defensor e implementador da aplicação da emulação. De facto, seria a estratégia
perfeita para garantir que as gerações vindouras pudessem usufruir do acesso às criações
de hoje com respeito pela autenticidade. Infelizmente o risco de perda é muito elevado e
para o gerir é necessário o envolvimento de muitas variáveis, das quais citámos apenas
algumas.
Também o risco envolvido no processo da migração de dados pode estar associado aos se-
guintes factores:
à própria gestão de colecções no âmbito do repositório
ao formato dos dados
ao software de conversão dos dados
O software de conversão pode ser mais ou menos provido de ferramentas de reparabilida-
de que garantam a configuração do fluxo de bytes.
Apresentamos a título de exemplo de Lawrence et al., 2000144, um quadro do risco associ-
ado a migrações de ficheiros de imagem
TIPO DE RISCO EXEMPLOS
Reparabilidade (configuração dos bites, incluindo o fluxo de bites, a sua forma e estrutura)
Os bites podem ser corrompidos por bugs do software ou mau manusea-mento dos suportes, ou por falhas mecânicas dos equipamentos
O formato dos dados é acompanhado por nova compressão que altera a configuração dos bites
A informação dos cabeçalhos não mi-gra ou migra parcialmente ou incor-rectamente
A qualidade da imagem é afectada por alterações na configuração dos bites
O novo formato dos ficheiros altera a ordem dos bytes
Segurança A migração afecta as marcas de
143 http://www.si.umich.edu/CAMILEON/ 144 LAWRENCE, Gregory W. et al. (2000) Risk management of digital information : a file format inves-
tigation. CLIR
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
77
água, os selos, ou outras técnicas de autenticação e reparabilidade
Contexto e integridade Relação entre a interacção com ou-tros ficheiros relacionados ou outros elementos no ambiente digital inclu-indo dependências de hardware ou software
O novo ficheiro tem uma nova confi-guração devido às dependências de hardware e software
As ligações a outros ficheiros são al-teradas durante a migração
O novo formato do ficheiro reduz as dimensões do novo ficheiro e causa uma condensação do armazenamento potencialmente causador da alteração da estrutura dos directórios
Os suportes de armazenamento tor-nam-se mais densos o que afecta as etiquetas e a estrutura dos ficheiros
Referência Habilidade para localizar imagens de-finitivamente e de forma confiável ao longo do tempo entre outros recursos
A alteração das extensões dos fichei-ros e o seu efeito nos URLs.
A carência de metadados sobre a ac-tividade da migração causa proble-mas numa futura migração
Custos Imprevisíveis, visto que se desconhe-ce quantas vezes será necessário mi-grar
Pessoal Pessoal pouco especializado
A Imprevisibilidade no número de ve-zes que vai ser necessário migrar torna impossível detectar que recur-sos humanos vão ser necessários
Funcionalidades Características novas introduzidas du-rante a migração podem influenciar a impressão ou outros derivados
Pode ser necessário alterar os inter-faces. P. ex.: estático vs. resolução múltipla ou incapacidade de resposta da Web ao novo formato
Características únicas que não são suportadas por outros formatos de fi-cheiros podem-se perder durante a migração. É o caso do formato GIF.
O valor de artefacto (em contexto de criação) pode-se perder devido a al-terações durante a migração
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
78
Aspectos legais O copyright pode limitar o uso de no-vos derivados criados no novo forma-to
4.1.4. As garantias de acesso continuado aos recursos digitais
Um repositório digital confiável carece de um enquadramento de políticas e procedimentos
largamente testados e bem documentados.
No que diz respeito a repositórios partilhados, isto significa efectivamente articular respon-
sabilidades entre os membros do consórcio.
No caso de repositórios de investigação, a estratégia de preservação deve espelhar a
estratégia de informação como um todo. Mas, acima de tudo, uma política para a
preservação de recursos digitais deve acompanhar a política de preservação de recursos
não digitais que exista na instituição.
Cada recurso digital não deve ser considerado individualmente na altura do depósito. Deve
prevalecer uma atitude baseada nos princípios da gestão de colecções, sendo os procedi-
mentos conduzidos automaticamente.
Estes comportamentos vão ter reflexo na actividade de fornecimento de acesso pois dispo-
nibilizar a informação preservada a uma designada comunidade é da total responsabilidade
do repositório digital. O acesso pode ser facilitado se as suas implicações forem compreen-
didas pela gestão do repositório em si mesmo. O acesso imediato a cada recurso requer
medidas diferentes, tais como p. ex. o estabelecimento de licenciamentos, etc. Devido a
este tipo de constrangimentos, são requeridas medidas de gestão variadas no seio do re-
positório apoiadas na gestão de colecções.
Da mesma maneira, se os recursos só são acessíveis num formato particular a um grupo
específico de utilizadores durante um período determinado, é necessário encontrar e esta-
belecer mecanismos adequados que entrem em acção no momento preciso.
Os acordos de acesso mudam consoante as mudanças de licenças, leis e por vezes tam-
bém devido a constrangimentos relacionados com as tecnologias e os próprios recursos. É
responsabilidade de um repositório assegurar tanto quanto possível que as decisões acerca
das políticas de acesso não limitam acções futuras que comprometam a sua confiabilidade
no que diz respeito a:
Descoberta de recursos: Os utilizadores dos repositórios necessitam des-
cobrir os recursos. Muitas bibliotecas e arquivos fornecem acesso através
dos próprios catálogos. Na prática, muitos dos recursos, chegam ao repo-
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
79
sitório com metadados descritivos associados em MARC ou DC, umas ve-
zes acompanhando o recurso, outras disponibilizando informação existente
noutro sistema.
Autenticidade: Os recursos digitais têm uma evidência menos acentuada
de autoria, proveniência ou mesmo contexto do que os recursos tradicio-
nais existentes nas bibliotecas e arquivos. É necessário proceder a verifi-
cações em todos os níveis funcionais do repositório digital. Por este moti-
vo, no acto de submissão a depósito, devem ser accionados mecanismos
de autenticação que garantam que o que é admitido está conforme o que
foi depositado e manterá essas características. Os recursos armazenados
devem ser sujeitos a controlo de integridade que garanta que as fluxos de
bytes se mantêm inalteradas assim como as versões migradas devem ser
verificadas e os emuladores testados. Finalmente, a informação fornecida
ao utilizador – a cópia do fluxo de bytes, os metadados associados e o
software necessário, em conjunto requerem verificação.
Legalizações: As restrições legais, licenças e legislação, governam o acesso
aos recursos e mudam ao longo do tempo. Por este motivo os repositórios
digitais requerem uma infraestrutura que lide com vários tipos de acordos
para diferentes tipos de utilizadores.
Preços: Os repositórios que gerem o acesso com uma estrutura de taxas a
aplicar aos utilizadores requerem mecanismos de comércio electrónico.
Apoio aos utilizadores: Em grande medida, a maior ou menor dificuldade
de acesso é determinada pela base de conhecimento ou competência téc-
nica das comunidades de utilizadores.
Relatório de acessos: A manutenção de um histórico de acesso é aconse-
lhável como parte das atribuições administrativas do repositório.
O preenchimento dos requisitos para responder às responsabilidades que acabámos de
desenvolver requer :
Um sistema de descoberta de recursos
Mecanismos apropriados para autenticação dos recursos digitais
Mecanismos de controlo de acesso, de acordo com licenças e legislação
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
80
Mecanismos de gestão de comércio electrónico
Programas de apoio a utilizadores
Em conjunto com as medidas que acabámos de expor é absolutamente necessário que se-
jam seguidas boas práticas na fase de criação de recursos digitais.
Se os repositórios digitais aconselharem o uso de normas para a criação de recursos digi-
tais reduzirão os custos e conseguirão óptimas economias de escala, ao mesmo tempo que
asseguram a criação de recursos digitais ricos e capazes de ser preservados a longo prazo.
Um repositório digital confiável é mais do que uma organização responsável por armazenar
e gerir ficheiros digitais, é aquele cuja missão visa assegurar o acesso confiável de recur-
sos digitais a uma designada comunidade, agora e no futuro. Assim, é indispensável que
assuntos como autenticação, uso de identificadores persistentes e metadados sejam cor-
rectamente equacionados para assegurar a viabilidade das colecções digitais.
4.1.5. O Modelo de referência OAIS
No sentido da aplicação dos princípios defendidos pelo grupo de trabalho da OCLC,
RLG/OCLC atrás referidos145, foi criado o modelo de referência OAIS (Open Archival Infor-
mation System Reference Model)146, desenvolvido pelo Consultative Committee for Space
Data Systems (CCSDS)147 no âmbito da NASA. Este modelo, é uma norma ISO com o nº
14721:2002148 que descreve um enquadramento conceptual para um repositório digital
genérico, aberto a todas as comunidades com as garantias de confiabilidade que atrás re-
ferimos. Da norma consta também um léxico próprio que viabiliza a comunicação entre as
comunidades e os repositórios.
Um OAIS opera num ambiente constituído pela interacção de produtores, utilizadores, ges-
tão e o repositório em si mesmo.
Toda a informação submetida a um OAIS por um produtor e toda a difusão estabelecida a
partir do OAIS a um utilizador ocorre numa ou mais sessões discretas através de pacotes
de informação.
Um pacote de informação é um envelope conceptual onde estão encapsulados informação
de conteúdo (recurso digital e metadados de representação) e metadados de preservação.
145 OCLC/RLG Working Group on preservation metadata (2001) – Op. cit. 146 OCLC/RLG Working Group on preservation metadata (2002) – Preservation metadata and the
OAIS Information Model : a metadata framework to support the preservation of digital objects: a report
147 CONSULTATIVE COMMITTEE FOR SPACE DATA SYSTEMS (2002) – Reference Model for an Open archive Information System (OAIS), Blue Book
148 http://ssdoo.gsfc.nasa.gov/nost/isoas/ref_model.html
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
81
Fig. 4. - O OAIS e o seu ambiente149
Em resultado de trabalho desenvolvido na comunidade OAIS para definir as obrigações de
um repositório OAIS surgiu o seguinte conjunto de propostas organizativas e estratégi-
cas150:
Negociar a informação a fornecer pelos produtores e detentores de direitos
Obter controlo suficiente de forma a garantir a preservação a longo prazo.
Determinar, por si próprios ou através de parcerias quais os utilizadores de
uma dada comunidade que estarão em condições de compreender a in-
formação disponibilizada.
Assegurar que a informação a preservar é compreensível por si só na co-
munidade designada, ou seja, que a comunidade compreenderá a infor-
mação sem a necessidade de recorrer à assistência de terceiros.
Seguir políticas e procedimentos documentados que assegurem que a in-
formação é preservada contra quaisquer contingências e assegurar a dis-
149 OCLC/RLG Working Group on preservation metadata (2001) – Op. cit. 150 RLG-OCLC (2002) - Trusted digital repositories : attributes and responsabilities, Mountain
View:Research Libraries Group
Gestão dos dados
Ingestão Repositório Acesso
Administração
Produtor Utilizador
Gestão
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
82
seminação da informação com cópias autênticas a partir do original ou si-
milares ao original.
Assegurar que a informação preservada está disponível para a comunidade
designada.
Trabalhar em conjunto com a comunidade do repositório para conseguir a
utilização de boas práticas na criação dos recursos digitais.
Verificar a qualidade dos metadados: quaisquer metadados que acompa-
nhem o recurso quando este é submetido ao repositório devem ser verifi-
cados e, se necessário, melhorados para suportar a manutenção de longo
prazo ao mesmo tempo que o acesso continuado
Estabelecer identificadores únicos e persistentes para os recursos.
Igualmente importante é a existência de sistema com capacidade para resolução de links
por forma a encontrar inequivocamente um determinado recurso.
O enquadramento OAIS também inclui um modelo chamado de informação onde são des-
critos os requisitos de metadados de preservação de longo prazo.
Podemos considerar o modelo OAIS um enquadramento de metadados de aplicação gené-
rica a partir do momento em que este se encontra inserido numa estrutura de repositório
digital que é independente do recurso digital e da tecnologia usada para o processo de pre-
servação.
Neste contexto recurso digital e metadados mantêm-se separados mesmo que embutidos.
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
83
Fig. 5 - Modelo de informação OAIS151
Num repositório OAIS, a informação pode existir de duas formas como representamos na
figura 5 :
1) como artefacto (representação de documento em papel, amostra de terra,
etc).
2) ou como objecto digital (formato PDF, formato TIFF, etc.)
Ambos os tipos, físico e digital, são definidos no ambiente OAIS como objectos-dados.
Os conteúdos dos objectos-dados podem assumir múltiplas formas : as mais óbvias são as
dos recursos a preservar, tais como um jornal electrónico num formato TIFF. Um objecto-
dados pode também ter a ele associado, p. ex., um registo de metadados DC i.e., se a es-
tratégia de preservação implementada obrigar ao encapsulamento dos metadados.
151 OCLC/RLG Working Group on Preservation Metadata (2001) – Op. cit.
Conteúdo da
informação
Descrição da
Informação
para Preserva-
ção
Empacotamento da
informação
Descrição da
informação
Objecto de informação
Base de Conheci-
mento
Objecto-dados Representação da
Informação
Objecto digital OU Objecto Físico
Depósito
Submissão
Difusão
Pacote de
Informação
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
84
É de realçar que os objectos e os seus metadados são, pelo menos do ponto de vista lógi-
co, objectos separados, mesmo que os metadados estejam inseridos no objecto, o que
pode ser o caso num documento HTML.
A interpretação do objecto pode ser conseguida através da combinação da base de conhe-
cimento dos utilizadores e da representação da informação associando-os ao objecto.
Cada indivíduo ou grupo de indivíduos tem a sua base de conhecimento que é usada para
compreender e interpretar os dados. P. ex. a comunidade dos cidadãos da língua inglesa
deve ter uma base de conhecimento que permita ler em inglês; a comunidade de progra-
madores de Java deve ter uma base de conhecimento na forma de código de Java. A base
de conhecimento é externa ao arquivo, e não é mantida, nem desenvolvida como parte de
qualquer função do arquivo.
A base de conhecimento nem sempre é suficiente para compreender inteiramente o objec-
to-dados. Neste caso o objecto deve estar representado por uma componente chamada
representação da informação, de forma a ser possível a compreensão total dos utilizado-
res.
Num nível muito baixo a representação da informação está contida um fluxo de bits. A re-
presentação da informação indica se um fluxo de bits representa um parágrafo de texto,
um ficheiro de som, uma imagem, etc. Contudo o conhecimento do formato do ficheiro
descrito no fluxo de bits pode não ser suficiente para interpretar o seu conteúdo.
P.ex.: um objecto-dados na forma de um ficheiro ASCII:
04 27 56 01 16 44 02 01 17
A informação ASCII não é suficiente para interpretar o conteúdo do objecto sendo necessá-
ria informação complementar.
Outro exemplo de representação da informação pode envolver um objecto-dados que con-
siste no seguinte :
<?xml:namespace ns = http://www.w3.org/RDF/RDF/prefix =”RDF”?> <?xml:namespace ns = http://purl.oclc.org/DC/”prefix = “DC”?> <RDF:RDF> <RDF:Description RDF:HREF = http://uri-of-Document-1> <DC:Creator>John Smith<DC/CD:Creator> </RDF:Description> <RDF:RDF>
pode ser uma data mas também pode ser outra informação
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
85
Neste exemplo a representação da informação está identificada como metadados que des-
crevem um documento criado por John Smith e que inclui esquemas para XML , RDF e DC
para que os elementos de metadados e a sua sintaxe seja interpretada de forma correcta.
A representação da informação pode assumir duas formas:
1) informação estrutural
2) informação semântica.
A informação estrutural interpreta os bits organizando-nos por tipos de dados, grupos de
tipos de dados e outros significados de alto nível. Esta deve incluir especificação do forma-
to dos dados e uma possível descrição do ambiente de hardware/software em que os da-
dos foram criados e que se torna necessária para o acesso posterior.
A informação semântica, por outro lado, acrescenta significado à estrutura dos dados,
identificada através da informação estrutural. P. ex. a informação estrutural pode identifi-
car um fluxo de caracteres de texto ASCII enquanto a informação semântica pode indicar
que esse texto se encontra escrito em língua inglesa.
No ambiente do modelo OAIS a representação da informação encontra-se ela própria em
formato digital e por esse motivo deve acrescentar-se informação adicional para interpre-
tar o fluxo de bits da representação da informação, é por este motivo, necessária a exis-
tência de uma terceira camada de representação da informação, etc.
O modelo de referência OAIS recomenda que o resultado da rede de representação termi-
ne com a elaboração de um documento físico que dê por finda a construção da rede e dê
início ao processo de interpretação.
Um objecto de informação é definido como um objecto-dados combinado com a represen-
tação da informação. Num ambiente digital isto implica uma sequência de bits, combinada
com todos os dados necessários a torná-la compreensível. Existem quatro classes de ob-
jectos informacionais que, em conjunto, formam um pacote de informação:
Informação acerca do conteúdo
Informação descritiva para preservação
Informação para empacotamento
Informação descritiva
Os pacotes de informação podem ser de três tipos (vide Fig. 5):
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
86
SIP (Submission information package) - Pacote de informação para sub-
missão é enviado do produtor da informação para o depósito.
AIP (Archive information package) - Pacote de informação para depósito -
preparado para ser armazenado pelo depósito.
DIP (Dissemination information package) - Pacote de informação para dis-
seminação - enviado ao utilizador em resposta e uma pesquisa já em con-
texto de acesso.
Num contexto de preservação de metadados, a informação relevante encontra-se no pa-
cote AIP, dado que este é o pacote para preservação de longo prazo.
Um AIP é uma agregação de quatro tipos de objectos informacionais:
1) CI (Content information) - Informação acerca do conteúdo que consiste
na informação que o arquivo tem a obrigação de preservar em conjunto
com a informação de representação.
2) PDI (Preservation description information) - Informação descritiva para
a preservação a qual contém informação necessária para gerir a preserva-
ção da informação sobre o conteúdo, com que está associada. Esta infor-
mação divide-se em quatro tipos :
Informação acerca da referência – enumera e descreve os identificado-
res destinados à informação sobre o conteúdo de tal maneira que se
tornem inequívocos, interna e externamente ao depósito (p. ex : ISBN,
URN)
Informação acerca da proveniência - documenta a história da informa-
ção sobre o conteúdo (p. ex. origem, histórico de custódia, acções e
efeitos da preservação)
Informação acerca do contexto - documenta as relações entre a infor-
mação sobre o conteúdo e o seu ambiente (p. ex. razões pelas quais foi
criado, relações com outras informações de conteúdo, etc.)
Informação acerca da reparabilidade : documenta mecanismos de
reparabilidade e autenticação usados para assegurar que o conteúdo da
informação não foi alterado de forma não documentada (p. ex. che-
cksums ou assinaturas digitais)
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
87
3) PI (package information) - Informação para empacotamento que envol-
ve o objecto digital e os metadados associados numa unidade ou pacote.
4) (DI) Descriptive information - Informação descritiva que facilita o aces-
so à informação sobre o conteúdo através das ferramentas de pesquisa e
recuperação. A informação descritiva serve de input das ajudas à localiza-
ção de depósitos e deriva tipicamente da informação sobre o conteúdo ou
da informação descritiva para preservação.
O modelo OAIS representa uma descrição de alto nível dos tipos de informação gerados e
geridos num contexto global de sistema de depósito digital. Não transmite pressupostos
acerca do tipo de recursos digitais manuseados no depósito nem acerca das especificações
tecnológicas empregadas pelo depósito para atingir os seus objectivos de preservação e
acesso de longo prazo.
Deste modo o modelo fornece uma estrutura útil de desenvolvimento de metadados para a
preservação que vai ao encontro dos requisitos necessários a uma actividade de preserva-
ção digital alargada.
O modelo de referência OAIS é, neste momento, a base de trabalho das instituições de
maior renome internacional na área da preservação digital, através dos projectos NEDLIB,
CEDARS, PANDORA e OCLC/RLG. Estes projectos vão ser objecto de referência detalhada
no ponto seguinte.
Apresentamos em seguida um modelo de um pacote de Informação OAIS152
MODELO - Pacote de Informação para Arquivo
Informação sobre o conteúdo
Objecto-dados
Informação sobre a representação • Informação sobre a estrutura • Informação sobre a semântica
Informação descritiva para a preservação
Informação sobre a referência • Objecto-dados • Informação sobre a representação
• Informação sobre a estrutura • Informação sobre a semântica
Informação sobre o contexto • Objecto-dados • Informação sobre a representação
152 OCLC/RLG (2001) – Op. cit.
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
88
• Informação sobre a estrutura • Informação sobre a semântica
Informação sobre a proveniência da Informação • Objecto-dados • Informação sobre a representação
• Informação sobre a estrutura • Informação sobre a semântica
Informação de autenticação • Objecto-dados • Informação sobre a representação
• Informação sobre a estrutura • Informação sobre a semântica
Informação sobre os pacotes de informação
Objecto-dados
Informação sobre a representação • Informação sobre a estrutura • Informação sobre a semântica
Informação descritiva
Objecto-dados
Informação sobre a representação • Informação sobre a estrutura • Informação sobre a semântica
4.2. AS GRANDES OPÇÕES DE PRESERVAÇÃO
Devido à importância e urgência cada vez maiores atribuídas à preservação de conteúdos
da Internet a longo prazo, estão em curso inúmeros projectos que se debruçam sobre este
assunto. Neste sub-capítulo vamos estudar aqueles que consideramos tecnologicamente
mais avançados e de maior relevância a nível internacional.
4.2.1. Internet Archive153
O Internet Archive é o projecto mais vultuoso e ambicioso na área da preservação digital
de longo prazo. É uma iniciativa americana que consiste em coleccionar e arquivar páginas
Web, na perspectiva de guardar todos os conteúdos relevantes e está sediado no Presídio
de São Francisco. Teve início em 1996 com o objectivo de construir uma biblioteca digital
que pudesse oferecer acesso a conteúdos históricos para um público de investigadores,
historiadores e académicos. Em Março de 2001, a colecção do Internet Archive de páginas
153 http://www.archive.org/
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
89
Web estava compreendida em mais de 43 terabytes (Rauber & Ascenbrenner, 2001)154,
em Janeiro de 2002 já era de mais de 100 (Koman, 2002)155.
Os recursos digitais são encaminhados para o Internet Archive através de terceiros. O mai-
or contribuinte é o motor de busca Alexa Internet. O robot do Alexa Internet captura mais
de 100 gigabytes por dia em toda a Internet. Não existe nenhum tipo de selecção de re-
cursos e não existe violação de direitos uma vez que todos os recursos capturados estão
no domínio público.
Para garantir a preservação de longo prazo são tomados três tipos de acções :
1) manutenção de cópias em diversos locais geográficos
2) migração dos dados para novos suportes regularmente e
3) constituição de uma colecção de emuladores para usar no futuro
Em entrevista dada por Brewster Kale à RLG Diginews (2002)156, este refere que os inter-
valos de tempo das viagens dos crawlers a todo o espaço da Internet é de dois em dois
meses, mas também existe a busca semanal ou mesmo diária de colecções consideradas
importantes.
As orientações seguidas pelo Internet Archive em matéria de aplicação de modelo para a
gestão da preservação são as do RLG/OCLC157, logo, vamos encontrar o modelo de refe-
rência OAIS, ao qual já referimos detalhadamente no ponto 4.1.5.
4.2.2. NEDLIB - Networked European Deposit Library158
O projecto NEDLIB, em curso de 1998 a 2000 foi apoiado pela União Europeia no âmbito
de proposta submetida pelo grupo de bibliotecas nacionais europeias designado por COBRA
(Computorized Bibliographic Record Actions)159. No projecto estiveram envolvidas oito bi-
bliotecas nacionais, um arquivo nacional, duas empresas na área das tecnologias de infor-
mação e três grandes editoras. A Comissão Europeia patrocinou o projecto através do pro-
grama “Telematics for Library Programme of the European Comission” e a coordenação
pertenceu à Biblioteca Nacional da Holanda.
154 RAUBER, Andreas & ASCHENBRENNER, Andreas (2001) - Part of our culture is born digital : on
efforts to preserve it for future generations. Trans-Internet-Zeitschrift für Kulturwissenschaften. 10
155 Koman, Richard (2002) – How the wayback machine works. The O´Reilly Network. 156 KALE, Brewster (2002) – Op. cit. 157 OCLC/RLG Working Group on Preservation Metadata (2002) – Preservation metadata and the
OAIS information model : a metadata framework to support the preservation of digital objects. OCLC
158 http://www.kb.nl/nedlib
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
90
O principal objectivo deste projecto foi a construção de uma infraestrutura básica de apoio
a uma rede europeia de depósito de recursos digitais para preservação de longo prazo
(Deposit System Electronic Publications - DSEP).
O projecto NEDLIB baseia-se no modelo de referência OAIS e o propósito consistiu na iden-
tificação de requisitos funcionais, comuns a todas as bibliotecas de depósito por forma a
chegar a um consenso quanto à construção de um DSEP que servisse de base para imple-
mentações locais. Outros dois objectivos nortearam o projecto, um foi a extensão do depó-
sito à preservação de longo prazo e o outro resultou na construção de um sistema de de-
monstração que cobre todas as funcionalidades do DSEP (Werf-Davelaar, 1999)160.
Um DSEP interage como os sistemas das bibliotecas através de dois interfaces (Fig. 6):
1) Interface de envio e captura
Este interface tem como funcionalidade ajudar na fase de pré-ingestão, orientando os de-
positantes no sentido de serem cumpridas boas práticas sem as quais os recursos não têm
autorização de entrar no depósito.
2) Interface de empacotamento e envio
Neste caso o DSEP pode requerer e aceitar um DIP (Pacote de disseminação da informa-
ção) a partir do módulo de acesso. O DIP consiste na publicação requisitada num dos for-
matos disponíveis, com software acompanhante e respectivos metadados necessários para
instalação e acesso, no sentido da reconstrução do documento original com toda a autenti-
cidade.
O DSEP consiste de seis módulos, cinco são módulos OAIS, acrescidos de um outro para
preservação pois as estratégias de preservação não são contempladas no modelo de refe-
rência OAIS, como já foi referido.
Os módulos são : Ingestão, Armazenamento, Gestão de dados, Acesso, Administração e
Preservação. Apresenta-se de seguida o Modelo Processual.
159 http://www.kb.nl/gabriel/cobra 160 WERF-DAVELAAR, Titia van der (1999) – Long-term preservation of electronic publications : the
NEDLIB project. D-Lib Magazine, 5 (9)
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
91
Fig. 6 – Modelo DSEP (adaptado de WERF-DAVELAAR, Titia van der (1999) op. cit.)
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
92
4.2.3. CEDARS (CURL Exemplars in Digital Archives)161
O projecto CEDARS desenvolve-se no Reino Unido, patrocinado pelo JISC (Joint Informati-
on System Committee)162 através do programa “eLib – The electronic libraries pro-
gramme”163 sob proposta do consórcio de bibliotecas universitárias CURL (Consortium of
University Research Libraries)164, que entendeu inscrever a preservação digital como uma
das suas missões. O projecto teve início em 1998 com a duração de 3 anos.
O projecto CEDARS manifesta como seus objectivos:
Promover a consciencialização da importância da preservação digital no
ambiente das bibliotecas de investigação e académicas e também junto
dos seus utilizadores.
Identificar, documentar e divulgar plataformas estratégicas de gestão de
colecções no sentido da preservação de longo prazo dos recursos digitais
nelas incluídos.
Investigar, documentar e promover métodos apropriados à preservação de
longo prazo para diferentes tipos de recursos digitais existentes nas colec-
ções das bibliotecas e ao mesmo tempo desenvolver modelos devidamente
escalonáveis.
O projecto CEDARS coloca fora do seu âmbito os recursos digitais que tenham a forma de
som ou vídeo e elege como tipos de recursos a preservar :
Recursos digitais fruto de digitalização
Conjuntos de dados
Publicações electrónicas
Bases de dados em linha
Recursos efémeros – pré-impressões, páginas Web, etc.
Recursos digitais onde o conteúdo intelectual se limita a estrutura, forma e
comportamento
161 http://www.leeds.ac.uk/cedars/ 162 http://www.jisc.ac.uk/ 163 http://www.ukoln.ac.uk/services/elib/ 164 http://www.curl.ac.uk/
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
93
Metadados
Um dos produtos resultantes do projecto diz respeito à aplicação do modelo de referência
de metadados OAIS à realidade CEDARS. Apresentamos em seguida a estrutura dos requi-
sitos de metadados para um pacote de informação165.
Pacote de informação
Informação descritiva para preservação
Informação sobre a referência
Descrição do recurso
Metadados existentes
Registos existentes
Informação sobre o contexto
Informação sobre outros objectos informacionais
Informação sobre a proveniência
História da origem
Informação sobre a gestão
Gestão de direitos
Informação sobre a autenticidade
Indicadores de autenticação
Informação sobre o conteúdo
Informação sobre a representação
Objecto-dados
O conjunto de metadados está obrigado a apoiar de forma significativa o acesso aos con-
teúdos do depósito e inclui metadados descritivos, administrativos, técnicos e legais. Os
metadados são aplicados a um leque alargado de objectos digitais na expectativa de que
uma biblioteca digital contenha colecções de variados formatos. Da mesma forma as espe-
cificações devem ser independentes do nível de granularidade aos quais os metadados es-
tão associados.
165 CEDARS Guide to Preservation Metadata (2002)
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
94
Incluímos em seguida a Figura 7, relativa à função de gestão dos dados num ambiente
OAIS, neste caso implementado pelo CEDARS e baseados em Russell & Sergeant, 1999166
Fig. 7. – Ambiente de um depósito CEDARS baseado no OAIS167
4.2.4. PANDORA (Preserving and Accessing Networked Documentary Re-
sources of Australia)168
O Projecto PANDORA desenvolveu-se como iniciativa da Biblioteca Nacional da Austrália169
com a missão de preservar e fornecer acesso a recursos digitais da Internet a longo prazo.
O projecto PANDORA iniciou-se em 1996 tendo como objectivos170 :
Identificar os requisitos funcionais para a gestão de um sistema de
preservação
Identificar, testar e avaliar técnicas, normas e produtos envolvidos no pro-
cesso de preservação incluindo a captura, a catalogação e o depósito
Estimar quais os recursos financeiros, de equipamento e pessoal necessá-
rios
166 RUSSELL, Kelly & SERGEANT, D. M. (1999) – The Cedars Project : implementing a model for dis-
tributed digital archives. RLG DigiNews, 3 (3) 167 RUSSELL, Kelly & SERGEANT, D. M. (1999) – Op. cit. 168 http://pandora.nla.gov.au/index.html/ 169 http://www.nla.gov.au/
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
95
Desenvolver recomendações e estratégias para a preservação de longo
prazo e acesso, incluindo considerações acerca de refrescamentos, migra-
ções, etc.
Desenvolver uma proposta de âmbito nacional para a preservação digital
de longo prazo
A proposta da Biblioteca Nacional da Austrália através do projecto PANDORA não explicita
em detalhe uma estrutura de contexto para o conjunto de metadados, no entanto, sugere-
nos que o conjunto de metadados foi inspirado pelo modelo OAIS.
A prioridade da Biblioteca Nacional da Austrália é tornar pesquisáveis os recursos que fo-
ram seleccionados para integrar o repositório PANDORA. Deverá ser possível aos utilizado-
res satisfazer uma pesquisa através do título e explorar o sítio e as ligações disponíveis. O
acesso é unicamente possível através de metadados dos títulos.
No momento em que um recurso é depositado, são acrescentados metadados sobre o
mesmo. O recurso sofre algumas alterações dado que é alvo duma operação de “limpeza”,
i.e., são desactivadas funções de caracter administrativo, removem-se conteúdos duplica-
dos, apagam-se partes estranhas e desactivam-se os links. É absolutamente necessário
registar todas as alterações, com vista a assegurar que a história da mudança e da prove-
niência possa ser totalmente traçada.
O acesso do utilizador final aos recursos do repositório PANDORA pode ser conseguido,
sempre que possível, sem restrições e de forma gratuita. Poderá haver lugar a algumas
restrições de acesso caso surjam interesses comerciais ou outros que inviabilizem a consul-
ta durante um certo período de tempo.
4.2.5. OCLC/RLG Working Group on Preservation Metadata171
O OCLC/RLG (Online Computer Library Center/ Research Libraries Group), consórcio de
mais de 160 instituições americanas, constituiu-se em Março de 2000 com o objectivo de
colaborar na identificação das melhores práticas para a preservação de recursos digitais a
longo prazo e desenvolver uma estrutura de metadados de aplicação alargada. É pioneiro
no desenvolvimento de soluções cooperativas para os problemas da gestão de colecções,
tais como aquisição, fornecimento e preservação de informação
Este grupo de trabalho recomenda um conjunto de 16 elementos que considerava essenci-
ais para a preservação de ficheiros originais ao longo do tempo172. Estes elementos enqua-
171 http://www.oclc.org/research/pmwg/ 172 OCLC/RLG Working Group on Preservation Metadata (2001) – Op. cit.
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
96
dram-se nas três categorias de metadados já mencionadas : descritivos, administrativos e
estruturais.
Apesar das três categorias estarem cobertas, o foco principal encontra-se nos metadados
administrativos. Por exemplo, as estratégias de preservação tais como a migração, alteram
por vezes a integridade dos bits do objecto arquivado. Estas alterações devem estar docu-
mentadas na “História da mudança”. O facto da integridade dos bits de um objecto digital
ser maleável neste sentido, sugere a necessidade da validação de que esse objecto não foi
corrompido, ou propositadamente ou intencionalmente alterado durante o ciclo da preser-
vação. Um algoritmo para validação automática ou uma assinatura digital registada no
elemento “Chave de validação” satisfaria esta necessidade. Para confirmar a autenticidade
do objecto poderiam ser comparadas as alterações da chave de validação com mudanças
do documento, através da integridade dos bits do objecto registados no elemento “História
da mudança”. Ambos os elementos “História da mudança” e “Chave de validação” cabem
na categoria de metadados administrativos.
Neste exemplo, os metadados de preservação servem a função administrativa, uma vez
que falamos de gestão de depósito do objecto. Os metadados de preservação também po-
dem servir a função estrutural ao detalhar as relações entre diferentes objectos que resi-
dem num repositório digital. Por exemplo, vários objectos depositados podem colectiva-
mente representar um único objecto complexo. Os metadados servem para colocar os ob-
jectos em sintonia. Alternativamente os metadados podem estabelecer ligações entre dife-
rentes versões de um objecto depositado, diferente apenas no formato do ficheiro. Como
um objecto se movimenta em diferentes fases de migração, novas versões do objecto são
produzidas. Os metadados estabelecem a união numa única cadeia lógica.
No que diz respeito aos metadados descritivos, estes estão preferencialmente destinados à
fase do acesso de modo a permitirem a descoberta do recurso como resposta a uma con-
sulta.
Um enquadramento desta natureza, levado a cabo pelo OCLC/RLG deve representar, a um
nível bastante alargado, as necessidades dos tipos de metadados que atribuem consistên-
cia a uma actividade de preservação digital.
Da mesma maneira que os projectos anteriores também o OCLC/RLG pretende aplicar o
modelo de referência OAIS com objectivos reguladores na comunidade que representa e
que são :
a) Fornecer às instituições que pretendam iniciar actividades de preserva-
ção digital um padrão para os requisitos de metadados que assegure que
os recursos digitais são preservados a longo prazo.
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
97
b) Facilitar o consenso numa estrutura de metadados que contribui para a
interoperabilidade entre os repositórios de recursos digitais, facilita a cor-
respondência entre metadados e abre caminho à partilha de recursos.
c) Propor uma estrutura comum que facilitaria a inclusão de informação de
produtores e de outras entidades externas ao repositório, no início do pro-
cesso de criação dos metadados.
4.2.6. FEDORA (Flexible Extensible Digital Object and Repository
Architecture)173
O projecto FEDORA tem sede na biblioteca da Universidade da Virgínia nos Estados Unidos
da América e é desenvolvido no âmbito de uma parceria com a Universidade de Cornell. É
subsidiado pela Andrew W. Mellon Foundation.
O projecto FEDORA não se desenvolveu com base no modelo de referência OAIS e preten-
de ter ao mesmo tempo uma aplicação genérica e específica.
A linguagem utilizada é a WSDL (Web Services Description Language). Esta é uma lingua-
gem XML, desenvolvida no âmbito do W3C que descreve serviços Web baseados em mode-
los abstractos174,175.
As funcionalidades do sistema baseiam-se em duas entidades, uma que diz respeito à ar-
quitectura dos objectos digitais, que comportam dados, metadados e ambiente e a outra
ao repositório propriamente dito.
O ambiente é representado através de ligações distribuídas por serviços Web através da
linguagem WSDL e implementados via HTTP GET/POST ou SOAP (Simple Object Access
Protocol).
Os objectos digitais são codificados e armazenados em XML, utilizando o formato METS.
O repositório gere a longo prazo os recursos digitais, os metadados, as aplicações informá-
ticas e os serviços e ferramentas que os apoiam. Pretende ser um fornecedor OAI (Open
Access Initiative).
A arquitectura dos objectos digitais é composta por vários componentes :
- 1 identificador persistente
173 http://www.fedora.info 174 W3C Publishes Working Drafts for Web Services Description Language (WSDL) 1.2. (2002) Cover
pages, Julho 175 Web Services Description Language (WSDL) Version 1.2 (2002): Bindings. W3C Working Group
Draft Julho
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
98
- Disseminadores que permitem o acesso ao conteúdo do objecto
- Metadados necessários à gestão do objecto ao longo do tempo
- Fluxos de dados que compõem a base do conteúdo do objecto
A linguagem XML que codifica os objectos digitais é usada através duma extensão do
formato METS (vide 3.7.2).
Este formato foi adoptado pois tem potencialidades que aos olhos do projecto FEDORA
se adequam aos seus objectivos e que são :
- A utilização da linguagem XML
- Ser um formato aberto
- Seguir a norma mantida pelo Network Development and MARC Standards Office da
Biblioteca do Congresso176 desenvolvida como uma iniciativa da DLF177 (Digital Li-
brary Federation)
- Deter todas as funcionalidades necessárias ao projecto
4.3. A MOTIVAÇÃO PARA A UTILIZAÇÂO DO MODELO DE REFERÊNCIA OAIS
4.3.1. Os interesses das potenciais comunidades utilizadoras
No ponto anterior indicámos as principais opções de preservação digital a nível mundial
enquadrando-as nas diferentes missões e objectivos das instituições que chamaram a si
essa responsabilidade.
A implementação do modelo de referência OAIS parece ser uma constante, embora na co-
munidade NEDLIB não tenha sido explicitamente referenciada a sua implementação, se nos
reportarmos ao relatório de Lupovici & Masanés, 2000178.
Da aplicação do modelo OAIS resultam conjuntos de boas práticas que são indispensáveis
para a preservação a longo prazo.
Neste ponto vamos abordar a construção do pacote AIP (Archive Information Package) –
Pacote de informação para depósito seguindo as boas práticas referidas pelas comunidades
em estudo.
176 http://lcweb.loc.gov/marc/ndmso.html 177 http://www.diglib.org/ 178 LUPOVICI, Catherine, MASANÈS, Julien (2000) – Metadata for the long term preservation of elec-
tronic publications. Nedlib Report Series; 2
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
99
Este pacote é composto por quatro agrupamentos de metadados, como foi referido anteri-
ormente no ponto 4.1.5. Vamos dedicar-nos especialmente à PDI (Preservation Description
Information) - Informação Descritiva para Preservação, e à CI (Content Information) – In-
formação sobre o conteúdo, ou seja, o objecto-dados e a informação acerca do seu conte-
údo. O pacote PDI é, por sua vez, composto por 4 grupos : Informação sobre a referência,
Informação sobre a proveniência, Informação sobre o contexto e Informação sobre a au-
tenticação e mecanismos de reparabilidade.
Dedicar-nos-emos também à DI (Descriptive information), informação descritiva que per-
mite facilitar o acesso das ferramentas de busca automática. Mais à frente vamos articular
este conjunto de metadados com o OAI-PMH (Open Archives Initiative Protocol for Metada-
ta Harvesting), protocolo de recuperação automática dos metadados. Os metadados des-
critivos podem ser repescados tanto em CI como em PDI.
Não é demais referir que o povoamento que apresentamos, acompanha as necessidades
das comunidades implementadoras, neste caso as comunidades já apresentadas no ponto
4.2 : CEDARS, NLA, NEDLIB e OCLC.
A OCLC, por sua vez, sugere a viabilidade da construção de uma matriz de metadados de
certa maneira consensual, com o objectivo de permitir uma mais ampla interoperabilidade
entre repositórios através da comparação de metadados propostos pelo WG e pelas três já
existentes usando como benchmark a comunidade CEDARS (OCLC/RLG, 2001, 2002)179,180,
por considerar que é a que mais bem se adapta ao modelo de referência OAIS. Também a
comunidade da Universidade de Harvard é referida no relatório da OCLC/RLG de 2001, mas
dado que não implementa o modelo OAIS, não é nossa intenção incluí-la neste trabalho.
Vejamos, no que diz respeito à Informação sobre a Proveniência para um Pacote de infor-
mação para depósito quais as abordagens das três comunidades referidas.
Para cada uma juntamos o respectivo povoamento:
a) A Comunidade CEDARS
O conjunto de metadados da comunidade CEDARS, como o de todas as outras, tem o ob-
jectivo de permitir a preservação digital de longo prazo.
Exige-se destes metadados que permitam o acesso com recuperação pertinente e, tanto
quanto possível, fiel aos recursos digitais e aos seus conteúdos depositados no repositório
digital a longo prazo. Ao mesmo tempo pretende-se que acrescentem valor às condições
de preservação.
179 OCLC/RLG (2001) – Op. cit. 180 OCLC/RLG (2002) – Op. cit.
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
100
O conjunto inclui metadados descritivos, administrativos, estruturais ou técnicos e também
informação legal. Pretende-se aplicar estes metadados a uma classe alargada de objectos
digitais, na expectativa de que uma qualquer colecção contenha vários formatos. Da mes-
ma maneira, pretende-se que a especificação seja independente do nível de granularidade.
A comunidade CEDARS divide o pacote de Informação sobre a proveniência em três sub-
categorias: (1) História da origem, (2) História da gestão e (3) Gestão de direitos.
A História da origem descreve o objecto digital numa fase anterior à ingestão no repositó-
rio. Os metadados relevantes incluem a razão da criação, a cadeia de custódia antes da
ingestão, quaisquer modificações que tivessem tido lugar antes do depósito e o ambiente
técnico utilizado no momento em que o repositório assumiu a responsabilidade da preser-
vação. Isto inclui a especificação do ambiente de hardware e software do objecto como
pré-requisitos, procedimentos para a instalação e operação nesse ambiente e qualquer do-
cumentação adicional de interesse para compreensão do ambiente técnico. Finalmente o
último elemento nesta categoria regista a razão da preservação.
Este grupo de metadados é construído na fase de pré-ingestão no repositório e é funda-
mental para uma boa gestão da preservação e do acesso no futuro. Independentemente
da granularidade o conjunto deve ser obrigatoriamente preenchido. Podemos incluí-los nas
categorias de metadados administrativos e estruturais ou técnicos.
A História da gestão documenta qualquer modificação efectuada ao objecto digital durante
a sua permanência no repositório, contudo também inclui qualquer modificação feita ao
objecto ao prepará-lo para o depósito na fase anterior, de pré-ingestão e modificações
subsequentes durante o armazenamento. A história administrativa, já em ambiente de de-
pósito propriamente dito inclui as estratégias de preservação enquanto decisões adminis-
trativas e enquanto acções de preservação.
A Gestão dos direitos encontra-se, na comunidade CEDARS, no âmbito da informação so-
bre a proveniência, também numa fase de pré-ingestão. Particularmente este grupo de
metadados relata os pormenores de todas as negociações que ocorreram antes da inges-
tão e os direitos de propriedade intelectual associados. Os últimos incluem declarações de
copyright (nome do editor, data de publicação, avisos de direitos e contactos dos detento-
res dos direitos).
No que diz respeito à informação sobre a representação, cuja função é comunicar sentido
ao fluxo de bits que compõem um objecto digital o projecto CEDARS considera fundamen-
tal descrever a estrutura interna do objecto, o que acontece através de metadados relati-
vos às ferramentas que transformam e representam os objectos. Estes estão divididos em
cinco sub-elementos: plataforma, parâmetros necessários para operar o software de repre-
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
101
sentação, ferramentas de representação e análise e formatos de output e de input produ-
zidos pelas ferramentas de representação. Incluímos em seguida o povoamento exemplifi-
cativo (OCLC/RLG, 2001 op. cit.)181
181 OCLC/RLG (2001) – Op. cit.
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
CEDARS
História da origem do recurso Ambiente técnico original Pre-requisitos - PDI A
História da origem do recurso Ambiente técnico original Procedimentos - PDI A
História da origem do recurso Ambiente técnico original Documentação - PDI A
História da origem do recurso Condução do processo - - PDI A
História da origem do recurso História da custódia - - PDI A
História da origem do recurso História da mudança antes do depósito
- - PDI A
História da origem do recurso Notas sobre a origem - - PDI A
História da origem do recurso Razão para preservação - - PDI A
História do Processo - pré-ingestão Datas limite - - PDI A
História do Processo - pré-ingestão Forma de condução do processo - - PDI A
História do Processo - pré-ingestão Linhas orientadoras usadas - - PDI A
História do Processo - pré-ingestão Mudanças nos recursos - - PDI A
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
CEDARS
História do Processo - pré-ingestão Outros - - PDI A
História do Processo - pré-ingestão Razão da forma de apresentação - - PDI A
História do Processo - pré-ingestão Resultados - - PDI A
História do Processo - pré-ingestão Título do processo - - PDI A
História da gestão História administrativa no depósito História dos movimentos - PDI A
História da gestão História administrativa no depósito História das estratégias - PDI A
História da gestão História do processo de ingestão - - PDI A
Gestão de direitos História da negociação - - PDI A
Gestão de direitos Informação sobre os direitos Intervenientes - PDI A
Gestão de direitos Informação sobre os direitos Declaração de copyright Aviso de direitos PDI A
Gestão de direitos Informação sobre os direitos Declaração de copyright Contactos do detentor de direitos
PDI A
Gestão de direitos Informação sobre os direitos Declaração de copyright Data de publicação PDI A
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
CEDARS
Gestão de direitos Informação sobre os direitos Declaração de copyright Editor PDI A
Gestão de direitos Informação sobre os direitos Declaração de copyright Local de publicação PDI A
Gestão de direitos Informação sobre os direitos Acções a tomar Permitidas por lei PDI A
Gestão de direitos Informação sobre os direitos Acções a tomar Permitidas por licenças PDI A
Indicador de autenticação - - - FI A
Resumo da descrição formal - - - CI A,D
Objectos transformadores Ferramentas de análise e representação
- - CI E
Objectos transformadores Formato de input - - CI E
Objectos transformadores Formato de output - - CI E
Objectos transformadores Parâmetros - - CI E
Objectos transformadores Plataforma - - CI E
Objectos de representação, análise e conversão
Ferramentas de análise e representação
- - CI E
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
CEDARS
Objectos de representação, análise e conversão
Formato de input - - CI E
Objectos de representação, análise e conversão
Formato de output - - CI E
Objectos de representação, análise e conversão
Parâmetros - - CI E
Objectos de representação, análise e conversão
Plataforma - - CI E
Render/analyze objects Ferramentas de análise e representação
- - CI E
Render/analyze objects Formato de input - - CI E
Render/analyze objects Formato de output - - CI E
Render/analyze objects Parâmetros - - CI E
Render/analyze objects Plataforma - - CI E
Identificador persistente - - - PDI A,D
Data de criação - - - PDI A,D
Relações externas - - - PDI A
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
106
b) A comunidade NEDLIB
Esta comunidade aborda a informação sobre a proveniência através de metadados sobre a
história da mudança do objecto.
São especificados dois tipos de metadados: metadados do objecto propriamente dito, que
documentam acções de preservação do mesmo e outros metadados relacionados, regis-
tando estes os valores relativos a operações de reparabilidade ou autenticação. A granula-
ridade dos últimos reporta-se unicamente a valor anterior e valor actual.
A informação sobre a representação não se subdivide em estrutural e semântica, tal como
é recomendado pelo modelo de referência e está documentada através de cinco elementos
base: Requisitos específicos de hardware, requisitos específicos de multimedia, requisitos
específicos de periféricos (ex. a utilização de um dispositivo ZIP), requisitos específicos do
sistema operativo, interpretador e compilador, metadados acerca do formato do objecto e
aplicações necessárias para aceder ao conteúdo do objecto, e ainda do nome e versão dos
componentes do sistema.
Verificámos que os metadados para a preservação de longo prazo estão incluídos tanto no
pacote de informação para depósito, como no pacote que se destina à descrição para o
acesso, como ajuda na recuperação. Este facto deve-se a que num DSEP (Deposit System
for Electronic Documents) os metadados existem em grande quantidade e são manipulados
automaticamente. Assim, encontramos incluídas na Informação sobre a representação in-
dicações já referidas no pacote de informação para depósito, que contêm tanto a descrição
do formato do software como os códigos fonte. P. ex. em vez de indicar “HTML 4” os me-
tadados devem também conter um apontador para as especificações do “HTML 4”, assim
como o código fonte que indica o caminho do W3C que contém a DTD (Document type de-
finition) da referida versão182.
Tal como no caso anterior ilustramos o processo com exemplos de povoamento retirados
de OCLC/RLG, 2001 (op. cit.)183
182 Lupovici, Catherine & Masanès, Junlien (2000) – Op. cit. 183 OCLC/RLG (2001) – Op. cit.
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
NEDLIB
História da mudança Metadados associados Valor antigo - PDI A
História da mudança Metadados associados Valor novo - PDI A
História da mudança Metadados associados Inversão - PDI A
História da mudança Metadados associados Data - PDI A
História da mudança Metadados associados Ferramenta Nome PDI A
História da mudança Metadados associados Ferramenta Versão PDI A
História da mudança outros metadados associados Valor novo - PDI A
História da mudança outros metadados associados Valor antigo - PDI A
Checksum Algoritmo - - PDI A
Checksum Valor - - PDI A
Assinatura digital - - - PDI A
Requisitos específicos de hardware Requisitos específicos de periféricos - - CI E
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
NEDLIB
Requisitos específicos de hardware Requisitos específicos de processador
- - CI E
Requisitos específicos de hardware Requisitos específicos multimédia - - CI E
Sistema operativo Nome - - CI E
Sistema operativo Versão - - CI E
Interpretador e compilador Instruções - - CI E
Interpretador e compilador Nome - - CI E
Interpretador e compilador Versão - - CI E
Formato do objecto Nome - - CI E
Formato do objecto versão - - CI E
Aplicação Nome - - CI E
Aplicação Versão - - CI E
Tipo de estrutura - - - CI A
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
109
c) A comunidade da Biblioteca Nacional da Austrália
A Biblioteca Nacional da Austrália através do projecto PANDORA faz incidir uma parte da
informação sobre a proveniência nas acções de autorização de criação de cópias de preser-
vação e documenta a decisão de depositar ou não um determinado objecto. Ao mesmo
tempo introduz um elemento sobre as razões da decisão.
Regista também todas as perdas de funcionalidade ou modificações no look-and-feel da
versão inicialmente depositada em relação à preservada.
O processo de preservação está descrito através de uma série de sub-elementos que do-
cumentam os vários aspectos considerados relevantes e que incluem a descrição do pro-
cesso, o hardware e o software usados, a forma de condução do processo e identificação
das linhas orientadoras para a implementação assim como datas de criação e de finaliza-
ção e ainda o sucesso ou insucesso do processo de preservação.
Além dos metadados já referidos podemos verificar que é também atribuída importância à
história dos metadados através do elemento Criador do registo de metadados, que pode
ser uma pessoa ou uma instituição.
Quanto à informação sobre a representação a Biblioteca Nacional da Austrália ainda propõe
extensões de alguns metadados estruturais para som, vídeo, texto, bases de dados,
software, etc.
Também neste caso incluímos a respectiva matriz de metadados.
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
NLA
Permissão para acções de preservação
- - - PDI A
Mudança ou perda de funcionalidade - - - PDI A
Decisão de depositar (funcional) - - - PDI A
Razão da decisão - - - PDI A
Insituição responsável - - - PDI A
Decisão de depositar (manifestação) - - - PDI A
Razão da decisão (manifestação - - - PDI A
Tipo de intenção - - - PDI A
Processo de preservação Condução do processo - - PDI A
Processo de preservação Datas limite - - PDI A
Processo de preservação Descrição do processo - - PDI A
Processo de preservação Hardware crítico usado no processo - - PDI A
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
NLA
Processo de preservação Instituição responsável pelo processo
- - PDI A
Processo de preservação Linhas orientadoras do processo - - PDI A
Processo de preservação Mudanças nos recursos - - PDI A
Processo de preservação Outros - - PDI A
Processo de preservação Razão do processo - - PDI A
Processo de preservação Resultados - - PDI A
Processo de preservação Software crítico usado no processo - - PDI A
Validação - - - PDI A
Tipo de estrutura - - - CI E
Estrutura técnica dos recursos complexos
- - - CI E
Descrição do ficheiro Audio Compressão - CI E
Descrição do ficheiro Audio Bit rate - CI E
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
NLA
Descrição do ficheiro Audio Resolução - CI E
Descrição do ficheiro Audio Nº da faixa e tipo - CI E
Descrição do ficheiro Audio Formato e versão - CI E
Descrição do ficheiro Audio Encapsulação - CI E
Descrição do ficheiro Audio Duração - CI E
Descrição do ficheiro Bases de dados Tipo dos dados e categoria da representação
- CI E
Descrição do ficheiro Bases de dados Limite mínimo do tamanho dos valores dos dados
- CI E
Descrição do ficheiro Bases de dados Compressão - CI E
Descrição do ficheiro Bases de dados Forma da representação e layout
- CI E
Descrição do ficheiro Bases de dados Limite máximo do tamanho dos valores dos dados
- CI E
Descrição do ficheiro Bases de dados Formato e versão - CI E
Descrição do ficheiro Executáveis Tipo de programa e versão - CI E
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
NLA
Descrição do ficheiro Imagem Dimensões - CI E
Descrição do ficheiro Imagem Espaço de cor - CI E
Descrição do ficheiro Imagem orientação - CI E
Descrição do ficheiro Imagem lookup table - CI E
Descrição do ficheiro Imagem Compressão - CI E
Descrição do ficheiro Imagem Gestão da cor - CI E
Descrição do ficheiro Imagem Resolução tonal - CI E
Descrição do ficheiro Imagem Cor - CI E
Descrição do ficheiro Imagem Formato e versão - CI E
Descrição do ficheiro Imagem Resolução - CI E
Descrição do ficheiro Texto Divisão estrutural - CI E
Descrição do ficheiro Texto Formato e versão - CI E
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
NLA
Descrição do ficheiro Texto Compressão - CI E
Descrição do ficheiro Texto Comnjunto de caracteres - CI E
Descrição do ficheiro Texto DTD associada - CI E
Descrição do ficheiro Video Formato e versão - CI E
Descrição do ficheiro Video Compressão - CI E
Descrição do ficheiro Video Frame rate - CI E
Descrição do ficheiro Video Dimensões das frames - CI E
Descrição do ficheiro Video Duração - CI E
Descrição do ficheiro Video Estrutura de codificação vídeo - CI E
Descrição do ficheiro Video Som - CI E
Requisitos conhecidos do sistema - - - CI E
Requisitos de instalação - - - CI E
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
NLA
Informação de dispositivos de armazenamento
- - - CI E
Inibidores de acesso - - - CI E
Facilitadores do acesso - - - CI E
Criador - - - PDI A,D
Título - - - PDI A,D
Data de criação - - - PDI A,D
Editor - - - PDI A,D
Identificador persistente Agência responsável - - PDI A,D
Identificador persistente Método de construção - - PDI A,D
Identificador persistente Valor - - PDI A,D
URL Data de validação - - PDI A
URL Valor - - PDI A,D
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
116
d) A comunidade OCLC/RLG
Esta comunidade através do grupo de trabalho RLG (Research Libraries Group), já em
1998 mantinha uma matriz de metadados considerados essenciais para uma boa prática
de preservação de longo prazo. Considerava 16 elementos/metadados necessários para
preservar uma matriz digital a longo prazo, com particular incidência em ficheiros de ima-
gem: Data; Operador; Produtor; Dispositivos de captura; Pormenores de captura; História
da mudança; Chave de validação; Encriptação; Marca de água; Resolução; Fonte, Cor;
Gestão da cor; Escala de cor/Escala de cinzentos; Dispositivos de controle.
Podemos verificar a ausência de metadados adequados a recursos digitais multimédia, pá-
ginas Web ou bases de dados, visto que o objectivo desta comunidade era no momento
preservar documentos digitalizados e não nascidos digitais.
Dado que um dos objectivos da OCLC é encontrar abrangência e consenso em simultâneo,
vamos encontrar na actualidade, uma grelha de metadados construída a partir das três em
comparação e também de metadados sugeridos no âmbito do WG (Working Group) propri-
amente dito e a proposta passa, portanto, a contemplar aspectos considerados “lacunas”
duma ou de outra.
Não devemos, contudo, perder de vista o aspecto ideossincrático de cada comunidade que
inibe por vezes a aproximação ao consenso e à interoperabilidade. Como exemplo extre-
mo, podemos referir dificuldades na gestão dos identificadores dentro do próprio repositó-
rio. Os ISBN reportam-se a livros e não a páginas Web ou a imagens digitais e ainda exis-
tem alguns tipos de suportes que não possuem nenhum esquema de identificação associa-
do. Esta situação leva à obrigação da referência de uma grande variedade de esquemas
globais dentro da mesma colecção multimédia, o que é considerado pela comunidade OCLC
como um obstáculo à determinação da identificação do pacote de informação para depósi-
to. Este, idealmente, deveria ter associado um único esquema de identificação local e glo-
bal. Integramos em seguida as matrizes de metadados, tanto da OCLC como do WG tal
como fizémos para as comunidades anteriores.
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
OCLC
Infraestrutura técnica de objectos complexos
- - - CI A,E
Descrição do ficheiro - - - CI A,E
Requisitos de instalação - - - CI A,E
Dimensões do objecto (em bytes) - - - CI A,E
Inibidores de acesso - - - CI A
Facilitadores do acesso - - - CI A
Propriedades significativas - - - CI A
Funcionalidade - - - CI A
Descrição do conteúdo recuperado - - - CI A
Perdas de funcionalidades - - - CI A
Documentação - - - CI A
Programas de representação Processo de transformação Aplicação de acesso Documentação CI E
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
OCLC
Programas de representação Processo de transformação Ferramenta de transformação Documentação CI E
Programas de representação Processo de transformação Ferramenta de transformação Formato de input CI E
Programas de representação Processo de transformação Aplicação de acesso Formato de input CI E
Programas de representação Processo de transformação Ferramenta de transformação Formato de output CI E
Programas de representação Processo de transformação Aplicação de acesso Formato de output CI E
Programas de representação Processo de transformação Aplicação de acesso Localização CI E
Programas de representação Processo de transformação Ferramenta de transformação Localização CI E
Ambiente de hardware Documentação - - CI E
Ambiente de hardware Informação sobre o depósito - - CI E
Ambiente de hardware Localização - - CI E
Ambiente de hardware Requisitos de memória - - CI E
Ambiente de hardware Requisitos de processador - - CI E
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
OCLC
Língua do recurso - - - PDI A
Língua dos metadados - - - PDI A
Códigos de conteúdos - - - PDI A
Tipo de objecto - - - PDI A
Composição do objecto - - - PDI A
Relações entre ficheiros - - - PDI A
Identificador OCLC - - - PDI A
Identificador standard - - - PDI A
Localização dos objectos - - - PDI A
Outros identificadores de metadados - - - PDI A
Título - - - PDI A,D
Criador - - - PDI A,D
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
OCLC
Editor - - - PDI A,D
Data de criação - - - PDI A,D
Descrição do conteudo - - - PDI A,D
Descrição resumida do objecto - - - CI A
Origem do objecto - - - PDI A
Origem do objecto História da custódia - - PDI A
Origem do objecto Notas sobre a origem - - PDI A
Origem do objecto Razão para preservação - - PDI A
História do processo - pré-ingestão Datas limite - - PDI A
História do processo - pré-ingestão Forma de condução do processo - - PDI A
História do processo - pré-ingestão Linhas orientadoras usadas - - PDI A
História do processo - pré-ingestão Mudanças nos recursos - - PDI A
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
OCLC
História do processo - pré-ingestão Outros - - PDI A
História do processo - pré-ingestão Razão da forma de apresentação - - PDI A
História do processo - pré-ingestão Resultados - - PDI A
História do processo - pré-ingestão Título do processo - - PDI A
Copyright - - - PDI A
Notas locais - - - PDI A
Propriedades significativas - - - CI A
Funcionalidades . - - CI A
Descrição do conteúdo representado - - - CI A
Documentação - - - CI A
Programas de representação Documentação - - CI A
Programas de representação Localização - - CI A
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
WG
Aplicação de display/acesso Documentação - - CI A
Aplicação de display/acesso Localização - - CI A
Sistema operativo Documentação - - CI A
Sistema operativo Localização - - CI A,D
Sistema operativo Nome - - CI A,D
Requisitos de memória Documentação - - CI E
Informação de armazenamento Documentação - - CI E
Localização de obtenção do hardware
- - - CI E
Requisitos de periféricos Documentação - - CI E
Identificação local - - - PDI A,D
Identificação global - - - PDI A,D
Relações entre conteúdos de objectos
Identificação - - PDI A,D
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
WG
Relações entre conteúdos de objectos
Manifestação - - PDI A,D
Relações entre conteúdos de objectos
Tipo de relação - - PDI A,D
Relações entre o conteúdo intelectual dos objectos
Identificação - - PDI A
Relações entre o conteúdo intelectual dos objectos
Tipo de relação - - PDI A
Origem do objecto - - - PDI A
Pré-ingestão - - - PDI A
Ingestão - - - PDI A
História da manutenção no repositório
- - - PDI A
Evento Data - - PDI A
Evento Designação - - PDI A
Evento Notas - - PDI A
Evento Procedimento - - PDI A
ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META
WG
Evento Responsabilidade - - PDI A
Evento Resultado - - PDI A
Autenticação - - - PDI A
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
125
4.3.2. Simulação de uma matriz de metadados de preservação
Com base nos modelos de matrizes de metadados apresentados pelas comunidades referi-
das e também no modelo proposto pela Biblioteca Nacional da Nova Zelândia184 já referido
atrás, fazemos uma proposta que pretende enquadrar-se na política de selecção de uma
comunidade nacional, onde o objectivo seja dirigido a publicações electrónicas nacionais,
documentos oficiais em formato digital, teses, dissertações e literatura cinzenta produzida
na comunidade científica nacional.
Qualquer destes recursos digitais pode ser composto por objectos simples e complexos e
vamos tentar articular os metadados associados com o modelo OAIS (vide Anexo 1).
O objectivo é criar um “Pacote de informação para depósito” contemplando a “Informação
sobre o conteúdo” e a “Informação descritiva para a preservação”.
Os critérios de criação dos metadados seguem de perto as comunidades que apresentámos
no ponto anterior. Optámos por considerar três agrupamentos de metadados relativos a:
1) objectos digitais
2) estratégias de preservação
3) ficheiros
Cada conjunto de metadados diz respeito a um único objecto lógico. O objecto pode ser
simples, p. ex., um texto em MsWord ou pode ser constituído por múltiplos ficheiros, p. ex.
uma publicação electrónica com vários ficheiros HTML, GIF, etc.
Através deste conjunto de metadados proposto para um Pacote de informação para
depósito pretende-se armazenar informação que nos permita tomar decisões sobre futuras
acções de preservação, assim como documentar as estratégias já implementadas, tais
como migrações ou emulações. Também se pretende manter informação detalhada sobre
os efeitos das opções estratégicas. Outra das preocupações diz respeito à identificação das
técnicas usadas para manter a autenticidade das matrizes de preservação, considerando
matriz de preservação uma cópia de qualidade que é sujeita a refrescamentos e migrações
assim que surgem problemas de obsolência ao longo do tempo.
Estes blocos de informação existem no âmbito da Informação descritiva para a preserva-
ção nas suas quatro vertentes: Informação sobre o conteúdo, Informação sobre a repre-
sentação, Informação sobre o contexto e Informação de autenticação.
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
126
No que diz respeito à gestão dos próprios metadados, consideramos essencial que exista
identificação de quem executou as acções de preservação, que acções foram executadas e
quando tiveram lugar. Optámos por acrescentar os fundamentos da inclusão de cada um
dos elementos ou sub-elementos.
Para seguir de perto o modelo OAIS optámos pela utilização das abreviaturas AIP (Archive
information package), CI (Content information) e PDI (Preservation description informati-
on) que enquadram os elementos metadados propostos (Vide Anexo 1).
4.4. OS REPOSITÓRIOS DIGITAIS E A DESCOBERTA E CAPTURA DE METADA-
DOS
Um dos objectivos da preservação de recursos que tem sido explicitado ao longo desta
tese, é a preocupação de deixar em herança um determinado espólio científico e cultural às
gerações futuras. Contudo, não é demais referir que dada a incerteza do ambiente tecno-
lógico mesmo as gerações presentes podem ficar inibidas de aceder a qualquer recurso di-
gital se este não tiver sido objecto de boas práticas na sua criação e manutenção.
Para que se encontre um determinado recurso na Internet existem motores de busca que o
procuram e o descobrem. Ao mesmo tempo, os repositórios também devem manter boas
práticas conducentes à viabilização dessa descoberta. É neste contexto que vamos encon-
trar o OAI-PMH (Open Archives Intitative Protocol for Metadata Harvesting) que conside-
ramos dever ser implementado pelos repositórios digitais a montante e a jusante de todo o
processo de preservação.
Não podemos deixar de referir o serviço de acesso já implementado pelo projecto FEDORA
(vide 4.2.6).
4.4.1. O OAI-PMH (Open Archives Inititative Protocol for Metadata Har-
vesting)
Os objectivos da OAI185 (Open Archives Initiative) baseiam-se no desenvolvimento de pa-
drões de interoperabilidade que facilitem a eficiência da disseminação de conteúdos. O OAI
visa melhorar o acesso a repositórios de publicações electrónicas e os seus públicos-alvo
encontram-se no ambiente académico.
184 http://www.natlib.govt.nz/en/whatsnew/4initiatives.html 185 LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) - Open Archives Initiative : frequently
asked questions (FAQ). Protocol version 2.0.
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
127
O protocolo OAI-PMH suporta variados esquemas de metadados. No mínimo, os repositóri-
os devem ser capazes de devolver registos de metadados em formato DC sem qualificado-
res adicionais. Opcionalmente, um repositório pode também disseminar registos em outros
formatos186.
O protocolo OAI-PMH optou por aconselhar a utilização do formato DC por considerar que
os 15 elementos evoluíram ao longo dos últimos anos para um standard que dadas as suas
valências multidisciplinares tem aplicação como um formato comum.
O OAI-PMH e o DCMI mantêm em cooperação um esquema XML para DC sem qualificado-
res187.
4.4.2. O exemplo do serviço de acesso do Projecto FEDORA188
O projecto FEDORA (Flexible Extensible Digital Object and Repository Architecture) é um
repositório digital de sistema aberto (open source) que usa APIs (Application Program In-
terface) na forma de serviços Web. O sistema do repositório FEDORA encontra-se subdivi-
dido em três camadas : Uma camada para o acesso na Web, uma segunda camada que
contém o núcleo do subsistema e uma terceira camada que se destina ao armazenamen-
to189.
Na perspectiva do acesso, a arquitectura do projecto FEDORA define a disseminação como
um fluxo de dados que devolve uma vista do conteúdo do objecto digital e que preenche
duas funções:
Responder tanto no âmbito genérico como específico
Disseminar os conteúdos em função das necessidades do utilizador
Logo, a funcionalidade mais interessante deste serviço de acesso é associar, a montante,
os recursos a determinadas comunidades de utilizadores, o que facilita a disseminação dos
recursos digitais e dos seus metadados, a pedido.
O recurso digital e os metadados são fluxos de dados contidos num objecto modelar. O
conteúdo do fluxo de dados é identificado através de um URL.
Apresentamos na Figura 8 o modelo de objecto do projecto FEDORA extraído da mesma
fonte citada atrás.
186 LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) – The Open Archives Initiative Protocol for
Metadata Harvesting. Protocol version 2.0. 187 http://www.openarchives.org/pipermail/oai-implementers/2001-December/000261.html 188 http://www.fedora.info 189 STAPELS, Thornton, WAYLAND, Ross & PAYETTE, Sandra (2003) – The Fedora Project: an open-
source digital object repository management system. D-Lib Magazine, 9 (4).
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
128
Fig. 8 – Modelo de objecto190
O utilizador, pode ter inserida uma aplicação Web com capacidade para interagir com os
serviços de pesquisa FEDORA, ou pode também ser um Web browser ou ainda qualquer
cliente fora do espaço do projecto.
Dado que o formato de metadados utilizado por este projecto é o METS, que devido às su-
as características consegue facilmente garantir a interoperabilidade entre repositórios, po-
demos antever a rápida indexação automática e consequente descoberta dos recursos.
4.5. BOAS PRÁTICAS DE PRESERVAÇÃO RECOMENDADAS NA IMPLEMENTAÇÃO
DE UM REPOSITÓRIO DIGITAL
O primeiro passo a dar no caminho da criação de um repositório digital é, à semelhança de
um outro qualquer serviço, delimitar a sua missão e objectivos perante uma determinada
comunidade de potenciais utilizadores.
Nesta fase é necessário definir critérios sobre
que tipo de recursos o repositório vai armazenar
durante quanto tempo pretende manter esses recursos
qual o método de captura que pretende empreender
190 STAPELS, Thornton, WAYLAND, Ross & PAYETTE, Sandra (2003) – Op. cit.
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
129
Dependendo destas decisões de carácter político mas também técnico/administrativo e em
função do período de tempo em que se pretende manter os recursos, estes devem ser su-
jeitos a uma triagem e depositados separadamente por
alguns anos
indefinidamente
Em seguida podemos, p. ex., agrupar os recursos por afinidades e armazená-los em con-
junto, segundo características que nos tragam vantagens no armazenamento e também no
acesso.
Consideramos que a metodologia de implementação deve percorrer as seguintes etapas191:
1) Implementação do modelo de referência OAIS (ISO 14721:2002).
2) Durante a fase de selecção dos recursos deve ser assegurado que:
Os recursos detêm condições tecnológicas capazes de manter a sua per-
manência no repositório
Foi efectuada a verificação da ausência de duplicados
Foi carregado o software adicional considerado necessário assim como os
códigos fonte quando for possível
Foi verificada a existência de restrições de copyright e estabelecidos os
contactos necessários com os responsáveis. Se não existir acordo os re-
cursos devem ser preservados com indicação de acesso reservado
3) Fases de ingestão e depósito
Atribuição de um identificador único e persistente (além das suas valências
já referidas, facilitará também a possibilidade de cruzar referências dentro
do próprio repositório)
Criação de uma assinatura digital ou de um digest por forma a detectar
qualquer alteração produzida no fluxo de bytes.
Agrupar os objectos digitais em conjunto com os metadados em formato
ZIP ou TAR192 para assegurar que a sua estrutura se mantém intacta e
191 http://www.lib.ed.ac.uk/ 192 http://www.webopedia.com/TERM/t/tar.html
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
130
que foi criado um fluxo de bytes. Este procedimento conduz à criação de
um pacote de informação para depósito
Envio do pacote para a área de depósito
Dado que os metadados de preservação sustentam todas as fases do processo de preser-
vação é vital para o processo que todos os metadados possíveis sejam capturados durante
a fase de descoberta e captura dos recursos. Os metadados devem ser marcados em XML
e devem dividir-se em duas partes:
Informação descritiva para preservação – Gere a preservação do recurso
(informação sobre a referência + proveniência + contexto + autenticação)
Informação sobre a representação – Assegura que o fluxo de bytes possa
ser representado no futuro (informação sobre o ambiente tecnológico +
informação semântica + informação estrutural)
Deve verificar-se se os metadados sobre a representação que acompanham o recurso são
suficientemente relevantes e manter as seguintes boas práticas:
Depositar sempre que possível cópias de software de fontes abertas (open
source)
Depositar descrições de tipos MIME (Multipurpose Internet Mail Extensions)
em pacotes de informação para depósito separados, para utilização futura
quando necessário
Depositar as actualizações dos sítios Web com intervalos de tempo regula-
res
4. Fase de preservação
Enviar cópias dos pacotes de metadados descritivos para preservação XML
para a área de depósito. Os ficheiros XML serão depositados numa base de
dados específica
Incluir no pacote de metadados descritivos, informação sobre a referência,
contendo campos bibliográficos em DC para assegurar que o recurso possa
ser recuperado. Este procedimento facilita, p. ex., o mapeamento de re-
gistos MARC se for considerado necessário pelo repositório
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
131
Incluir no pacote de metadados descritivos para preservação a informação
sobre o contexto. Esta vai permitir manter a integridade contextual dos fi-
cheiros, isto é, as suas relações com outros ficheiros no repositório
Incluir no mesmo pacote informação pormenorizada sobre a proveniência
de forma a permitir a confirmação de uma correcta aplicação das normas
na fase de ingestão (por vezes é necessário proceder a algumas alterações
dos sítios p. ex. para fazer face a activação automática de palavras passe,
etc.)
Incluir informação sobre a gestão dos direitos e todas as restrições de
acesso
Tal como temos vindo a referir de forma bastante acentuada ao longo de todo o trabalho é
vital que toda a informação acerca do ciclo de vida dos recursos digitais esteja registada e
depositada.
Os metadados devem reportar quando, como e por quem foi criado o recurso, que altera-
ções ocorreram durante a preservação e quem tem a eles acesso depois de depositados.
Todos estes elementos são necessários na perspectiva da implementação sistemática de
um conjunto de boas práticas que conduzam a uma eficaz gestão da preservação e poste-
rior acesso aos recursos.
5. CONCLUSÃO
133
5. CONCLUSÃO
O crescimento da Web na Internet para uma escala global deu-se muito rapidamente. É
talvez na História da Humanidade a difusão mais rápida de uma nova tecnologia que não
deixa de evoluir. Neste momento ocorre ume evolução significativa dado que novas arqui-
tecturas substituem páginas estáticas por páginas dinâmicas, costumizadas, que são gera-
das no momento. Da mesma maneira, dado que a inovação não é linear, o desenvolvimen-
to da Web é imprevisível.
A Web começou por ser software com base em protocolos para troca de documentos entre
cientistas e investigadores, usando a Internet para fins educacionais e de pesquisa. Nos
dias de hoje é quase essencialmente comercial e sujeita a investimentos extraordinários
como suporte tecnológico para a economia digital.
Os intervenientes, perante a constatação da incapacidade de liderar acções futuras em
ambiente tão incerto, tentam pelo menos influenciar o seu direccionamento e o World Wi-
de Web Consortium193 é, nessa perspectiva o forum privilegiado.
Um repositório na Internet é inevitavelmente um novo tipo de organização, com compe-
tências para responder aos problemas do próprio ambiente. Este pode não estar sediado
num espaço físico, pode existir distribuído entre instituições em muitas localidades geográ-
ficas através de uma rede global.
A preservação digital é um problema com características de urgência na sociedade moder-
na e ao tentar assegurar a longevidade de uma herança cultural digital o homem enfrenta
os desafios do novo paradigma relacionados com a efemeridade dos recursos e das tecno-
logias.
Ao longo desta tese abordámos várias questões no âmbito do mesmo problema e enqua-
drámos o estado da arte a nível internacional.
193 http://www.w3c.org
5. CONCLUSÃO
134
Iniciámos o nosso trabalho com a caracterização de uma biblioteca digital quanto à funcio-
nalidade, aos propósitos e ao tempo de vida pretendido e ponderámos as boas práticas de
preservação a ter em conta.
Estudámos em seguida o papel das instituições patrimoniais e a enorme responsabilidade
que detêm ao pretender deixar às gerações futuras uma herança cultural, histórica e cien-
tífica em formato digital.
É no contexto das instituições patrimoniais que verificámos que há sociedades mais avan-
çadas, onde inclusivamente já existem leis de depósito legal para recursos digitais e ou-
tras, tal como a realidade portuguesa, onde isso ainda não acontece. A proposta de diplo-
ma de depósito legal está a ser ultimada no momento em que escrevemos este texto.
Nela, felizmente, já se contempla o depósito digital.
A nível internacional, consideramos que a CDNL (Conference of Directors of National Libra-
ries) e a Unesco têm um papel de liderança de extrema responsabilidade e que a sua ori-
entação e recomendações devem ser tidas em conta também entre nós.
Abordámos em seguida a recolha e selecção dos recursos digitais tendo em conta as suas
características, o seu ciclo de vida e os objectivos do repositório.
No nosso entender, e no âmbito de uma instituição de tipo patrimonial, a selecção de re-
cursos digitais deveria ser de tipo misto, à semelhança do que se passa por exemplo na
Biblioteca Nacional da Austrália. Se por um lado a captura automática de recursos através
da Web é a opção que reclama menos recursos financeiros e que cobre de forma mais
abrangente um determinado espaço geográfico ou temático, por outro, a selecção feita
através do elemento humano, garante menos ruído e maior objectividade. Esta opção con-
sidera-se à partida mais onerosa pois é necessário um maior número de recursos humanos
e ao mesmo tempo as suas competências devem ser de tipo especializado.
Em Portugal, na Biblioteca Nacional, existe uma política definida que visa seleccionar diver-
sos tipos de recursos, tais como documentos oficiais, teses e dissertações e publicações
electrónicas nacionais ou que tenham interesse para o nosso país e outros documentos de
interesse patrimonial.
Voltando às opções de captura de recursos verificamos que ao optarmos por um sistema
misto de selecção e de snapshots cegos teríamos à nossa disposição não só os documentos
considerados mais importantes para a memória do nosso país como um enorme manancial
de conteúdos para estudos sociológicos futuros.
Considerámos também que é absolutamente indispensável que todas as fases do ciclo de
vida dos recursos digitais sejam cumpridas. Só através dessa boa prática se poderá garan-
tir maior longevidade aos recursos digitais.
5. CONCLUSÃO
135
Desta forma, foram passados em revista não só a selecção mas também a identificação
persistente, a descrição, o armazenamento e finalmente a preservação e o acesso.
Na fase final do ciclo de vida dos recursos, considerámos as opções estratégicas de preser-
vação como tópico da maior relevância porque é no seguimento das decisões sobre essa
matéria que os recursos sobreviverão por períodos de tempo mais ou menos longos. As
opções estratégicas de preservação estão, porém, condicionadas pelos orçamentos pois
haverá que despender recursos financeiros de certa forma avultados, consoante a opção.
Terá que se ter em conta que os recursos a preservar devem subsistir também em função
do acesso. Alguém, um dia, vai querer estudar esses recursos, vê-los, usá-los, e nem to-
das as estratégias permitem a recuperação do look-and-feel.
Mais uma vez ainda, vamos ter que procurar um equilíbrio entre a situação financeira do
momento e a forma que vão revestir os recursos digitais que constam da nossa herança.
O investimento no âmbito da preservação digital é muito avultado e deve ser pensado a
contar com a recolha, o processamento, a validação, a gestão e a documentação associa-
das, assim como com o armazenamento no repositório e as estratégias de preservação
adoptadas.
Idealmente, se o valor do recurso existir pelo artefacto teremos que investir em tecnologi-
as de emulação; se não for esse o caso, sendo decidido que não existem problemas por
perdas do look-and-feel, então poder-se-á optar, por exemplo, pela migração ou pelo tipo
particular de migração que é a opção XML. É necessário ter em atenção as comunidades de
utilizadores e a capacidade que cada repositório tem de as projectar no futuro.
Ainda ao abordarmos as boas práticas verificámos que a existência de metadados percorre
todas as fases do ciclo de vida dos recursos digitais.
Considerámos fundamentalmente os metadados de preservação que são de três tipos:
a) descritivos,
b) administrativos
c) estruturais
A incidência sobre os últimos dois é relevante, pois é neste espaço que vamos encontrar as
descrições dos métodos e das estratégias tomadas para preservação. Os metadados des-
critivos destinam-se fundamentalmente às fases de acesso e estão para os recursos digi-
tais como os formatos MARC (Machine Readable Cataloguing) para os recursos bibliográfi-
cos tradicionais.
5. CONCLUSÃO
136
Integrámos no nosso trabalho alguns esquemas de metadados que confirmam a necessi-
dade destes acompanharem as comunidades temáticas. Foge à regra o conjunto de meta-
dados Dublin Core (DC) criado no âmbito OCLC/NCSA para servir um leque alargado de
comunidades. Este é, por assim dizer, o standard mais genérico e simultaneamente mais
aplicável em qualquer situação que não envolva necessidades demasiado específicas.
Pudemos constatar no entanto, ao longo do trabalho, que o DC tem excelente capacidade
descritiva para servir o acesso, mas já o mesmo não se passa no que diz respeito à pre-
servação e ao cumprimento da função dos metadados administrativos e estruturais de do-
cumentar a história do recurso com estratégias de preservação, componentes de hardware
e software, etc.
Ao atribuir-lhe qualificadores em larga escala é possível tornar o conjunto dos elementos
do DC eficiente em relação ao que cada comunidade pretende. É também de referir que
este formato possui enormes valências no que diz respeito à interoperabilidade entre repo-
sitórios.
No que diz respeito às metodologias para implementação de um repositório digital conside-
rámos fundamental o investimento na confiabilidade, a qual só é atingível através da reso-
lução de questões que dizem respeito a:
Aspectos legais onde é necessário ultrapassar a barreira dos direitos de au-
tor e dos direitos de propriedade intelectual. Este assunto apresenta im-
portância acrescida quando abordamos os momentos da disponibilização e
acesso. Cabe ao repositório digital negociar com os detentores dos direitos
os moldes do acesso e preparar a preservação destes recursos sem permi-
tir a sua divulgação se o acordo entre as partes interessadas a isso condu-
zir. Quando os prazos legais previstos para a disponibilização pública fo-
rem atingidos então esses recursos serão libertados para consulta.
Aspectos financeiros provenientes dos altos custos que todo o processo de
preservação acarreta e que são muito difíceis de ultrapassar. Não existin-
do financiamento não existirá seguramente preservação. Esta situação é
idêntica à que vivem as bibliotecas com as necessidades de preservar do-
cumentos tradicionais para o futuro.
Aspectos relacionados com a gestão do risco que ameaça os repositórios
digitais e que se liga à integridade dos dados, à reparabilidade dos fichei-
ros, ao contexto e ligações entre ficheiros dentro do mesmo recurso, às
funcionalidades, ao pessoal e aos aspectos legais.
5. CONCLUSÃO
137
Aspectos relacionados com o acesso que visam a descoberta dos recursos
e a garantia da sua autenticidade.
Ainda em relação às metodologias de implementação de um repositório digital é o modelo
de referência OAIS desenvolvido no âmbito da NASA, que nos garante um enquadramento
genérico, aberto a qualquer comunidade favorecendo a interoperabilidade. Este modelo é
seguido pelos repositórios digitais mais relevantes à escala global. Verificámos que a co-
munidade CEDARS é aquela que pode servir de modelo a outras que, no momento, sabe-
rão detectar as suas divergências locais.
A existência de um bom núcleo de metadados administrativos é fundamental seja qual for
a comunidade em questão e dele vai depender a posterior recuperação dos recursos.
No seguimento desta investigação simulámos um conjunto de metadados preparado para
ajustar ao OAIS na forma de um pacote de informação para depósito enquadrável numa
determinada comunidade. Esta poderia porventura ser do mesmo teor da nacional, dado
que tivemos em vista a tipologia de recursos digitais aí preservados a longo prazo (Vide
Anexo 1).
No que diz respeito ao acesso como um dos objectivos da preservação consideramos a im-
plementação do OAI-PMH um protocolo versátil e ao mesmo tempo uma norma capaz de
fornecer os meios para dar visibilidade aos metadados do próprio repositório e por outro
lado coligir os metadados recuperados de outros repositórios.
Sentimos ainda a necessidade de fornecer algumas orientações para a implementação de
um repositório digital confiável, o que concretizámos através dos seguintes tópicos:
Implementação do modelo de referência OAIS (ISO 14721:2002)
Assegurar que durante a fase de captura e selecção são seguidas as boas
práticas relativas a uma boa ingestão e armazenamento assim como se foi
verificada a existência de restrições de copyright.
Atribuição de identificadores únicos para as fases de ingestão e depósito
Inclusão de metadados de preservação que devem ser relativos a todas as
fases do ciclo de vida dos recursos
5. CONCLUSÃO
138
Ao finalizar este trabalho deparamo-nos com um horizonte de muito trabalho e muita in-
vestigação em qualquer dos pontos do ciclo de vida do recurso. Basicamente há a conside-
rar:
A recolha dos recursos, assunto que é objecto das orientações mais díspa-
res;
As opções dos suportes de armazenamento que para uns autores duram
cinquenta anos ou mesmo mais e para outros a sua duração é de dois ou
três anos;
As opções estratégicas de preservação onde reina a polémica entre os que
defendem incondicionalmente a preservação do look-and-feel e os que en-
frentam a gestão do problema de forma mais moderada, considerando al-
ternativas em função das comunidades de utilizadores, ou dos recursos fi-
nanceiros e tecnológicos;
O acesso, um dos pontos fundamentais de todo este complicado processo,
onde apesar de tudo, encontramos alguma consensualidade, dado que, a
já experimentada interoperabilidade entre os sistemas com a existência do
padrão Z39.50, tem vindo a interligar a comunidade das bibliotecas;
Finalmente o elemento vital que percorre todas as fases e que é a criação
de metadados de preservação, assunto este amplamente tratado nesta
dissertação.
Pensamos que estudos biblio/sociométricos, devem estar na base de qualquer tentativa de
criação de repositórios digitais, de pequeno ou grande porte, e pensamos também que
deve ser amplamente desenvolvido trabalho ao nível da normalização da terminologia pois
esta está muito pouco estabilizada, o que dificulta o entendimento entre sistemas, ao nível
das pessoas e das máquinas.
É nossa profunda convicção que ultrapassadas todas as barreiras que referimos atrás po-
deremos garantir às gerações futuras o conhecimento e a plena fruição da sua memória.
BIBLIOGRAFIA
139
BIBLIOGRAFIA
ABID, Abdelaziz (2001) – Memory of the world : preserving our documentary heritage. 64th IFLA
General Conference, Amsterdam, 1998 http://www.ifla.org/IV/ifla64/099-69e.htm (Acedido em
2001-10-24)
ANSPER, Arne et al. (2001) - Efficient long-term validation of digital signatures. Lecture Notes in
Computer Science, 1992. (Proceedings. 4th International Workshop on Practice and Theory in
Public Key Cryptosystems, PKC 2001, Cheju Island, Korea, February 13-15, 2001)
http://www.cyber.ee/research/publ/longterm.pdf (Acedido em 2003-01-02)
APPS, Ann, MacINTYRE, Ross (2001) – Zetoc : a Dublin Core based current awareness service.
Proc. Int. Conf. On Dublin Core and Metadata Aplications, 2001, p. 227-234
http://jodi.ecs.soton.ac.uk/Articles/v02/i02/Apps/apps-v2.pdf (Acedido em 2003-01-08)
APPS, Ann, MacINTYRE, Ross (2001) – CABRef : Cross-referencing into an abstract database. Fifth
ICCC/IFIF Conference on Electronic Publishing, Canterbury, 2001,
http://epub.mimas.ac.uk/papers/appsmacep2001.pdf (Acedido em 2002-04-08)
ARVIDSON, Allan, PERSSON, Krister & MANNERHEIM, Johan (2000) - The Kulturarw3 Project : the
Royal Swedish Web Archiw3e: an example of "complete" colection of Web pages. IFLA Council
and General Conference, 66th, Jerusalem, 2000 http://www.ifla.org/IV/ifla66/papers/154-
157e.htm (Acedido em 2002-10-16)
ASCHENBRENNER, Andreas (2001) – Long-term preservation of digital material : building na ar-
chive do preserve digital cultural heritage from the Internet. Wien, Institut für Softwaretechnik
und Interaktive System. 110 p. (Diplomarbeit)
AUTENTICITY IN A DIGITAL ENVIRONMENT (2000) - Washington, CLIR, : p. 8-21. ISBN 1-88334-
77-7 http://www.clir.org/pubs/reports/pub92/pub92.pdf (Acedido em 2003-01-08)
BARTEL, J., et al. (2002) – Sygnature syntax and processing : W3C Recommendation. February.
http://www.w3.org/TR/xmldsig-core/ (Acedido em 2003-01-08)
BEAGRIE, Neil, GREENSTEIN, Daniel (1998) – A strategic policy for creating and preserving digital
collections : a report do the Digital Archiving Working Group. British Library Research and Inno-
vation Report N. 167. 1998 http://ahds.ac.uk/strategic.pdf (Acedido em 2003-03-20)
BIBLIOGRAFIA
140
BEARMAN, David & TRANT, Jennifer (1998) – Autenticity of digital resources : towards a statement
of requirements in the research process. D-Lib Magazine, June.
http://www.dlib.org/dlib/june98/06bearman.html (Acedido em 2002-12-27)
BECKETT, Dave, MILLER, Eric & BRICKLEY, Dan (2002) – Expressing simple Dublin Core in
RDF/XML. Dublin Core Metadata initiative. http://dublincore.org/documents/2002/07/31/dcmes-
xml/ (Acedido em 2003-01-28)
BELLINGER, Meg (2002) - Understanding digital preservation : a report from OCLC. CLIR.
http://www.clir.org/pubs/reports/pub107/bellinger.html (Acedido em 2002-12-27)
BOGART, John W.C. Van (1995) - Magnetic tape storage and handling : a guide for libraries and
archives. Washington, The Commission on Preservation and Access & National Media Laboratory
http://www.clir.org/pubs/reports/pub54/ (Acedido em 2002-10-21)
BORBINHA, José (2001) - Metadata – Conceito e sua relevância para as bibliotecas. Actas do 7º
Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas. Porto, 2001
BORBINHA, José Luís et al. (2002) – Manifesto para a preservação digital. Cadernos BAD, N. 2.
CABRAL, Maria Luísa (1998) – Microfilmagem e digitalização : a coexistência pacífica. Páginas a&b,
2, p. 41-52
CABRAL, Maria Luísa (2002) – Preservation and conservation in South Europe : a survey among
national libraries. In : IFLA council and General Conference, 68th, Glasgow, 2002
http://www.ifla.org/IV/ifla68/papers/129-109e.pdf (Acedido em 2003-01-08)
CAMPOS, Fernanda Maria (2001) – Bibliotecas digitais : uma nova perspectiva de valorização e
acesso ao património cultural. In : Actas do 7º Congresso Nacional de Bibliotecários, Arquivistas
e Documentalistas, Porto, 2001.
CDNL (Conference of Directors of National Libraries) (1996) – The legal deposit of electronic publi-
cations. Unesco
http://www.unesco.org/Webworld/memory/Editorial (Acedido em 2002-09-26)
CLAVEL-MERRIN, Genevieve (2000) - NEDLIB list of terms. NEDLIB Report Series Editor., 17p.,
ISBN 906259151-5 (NEDLIB Report Series ; 7)
COMMISSION ON PRESERVATION AND ACCESS AND THE RESEARCH LIBRARIES GROUP – Preserv-
ing digital Information. Report of the Task Force on Archiving of Digital Information. 1996.
http://www.rlg.org/ArchTF/ (Acedido em Dezembro de 2001)
CONSULTATIVE COMMITTEE FOR SPACE DATA SYSTEMS (2002) – Reference Model for an Open
archive Information System (OAIS), Blue Book (CCSDS 650.0-B-1).
http://wwwclassic.ccsds.org/documents/pdf/CCSDS-650.0-B-1.pdf (Acedido em 2003-01-15)
CORDEIRO, Maria Inês (2001) – Tecnologias, bibliotecas e arquitectura de informação : dos siste-
mas aos objectos. In : Actas do 7º Congresso Nacional de Bibliotecários, Arquivistas e Docu-
mentalistas, Porto, 2001
BIBLIOGRAFIA
141
DCMI (2002) – DCMI elements and element refinements : a current list. Dublin Core Metadata ini-
tiative http://dublincore.org/usage/terms/dc/current-elements/ (Acedido em 2003-01-28)
DE NIET, Marco, OSKAMP, Liesbeth (2001) TEL Digital deposits : state of the art. 2nd draft version.
87 p. http://www.europeanlibrary.org/doc/tel_results_d11_v02.doc Acedido em 17 de Abril de
2002)
DIGITAL LIBRARIES : Future directions for a European Research Programme (2001) - DELOS
Brainstorming Report. San Cassiano, 2001. ERCIM-02-W02 http://delos-
noe.iei.pi.cnr.it/activities/researchforum/Brainstorming/
brainstorming-report.pdf (Acedido em 2003-02-18)
DIGITAL PRESERVATION TESTBED WHITE PAPER (2001) – Migration : context and current status.
Den Haag, ICTU. http://www.digitaleduurzaamheid.nl/bibliotheek/docs/Migration.pdf (Acedido
em 2003-06-02)
DURANTI, Luciana (2001) – The long term preservation of authentic electronic records. In : APERS,
M. G. et al. (eds.): VLDB 2001, Proceedings of 27th International Conference on Very Large
Data Bases, September 11-14, 2001, Roma, Italy. Morgan Kaufman, ISBN 1-55860-804-4
http://www.vldb.org/conf/2001/P625.pdf (Acedido em 2003-01-06)
DUREAU, J. M., CLEMENTS, D. W. G. - Princípios para a preservação e conservação de espécies
bibliográficas. – Edição em língua portuguesa por Maria da Conceição Casanova, Maria Fernanda
Casaca Ferreira, Maria Luísa Macedo. Lisboa : Biblioteca Nacional, 1992, 26 p., ISBN 972-565-
155-3. Edição original publicada por IFLA Section on Conservation, Netherlands em 1986.
EITELJORG II, Harrison et al. (2002) - Archaeology Data Service CAD : A Guide to Good Practice.
AHDS.
http://ads.ahds.ac.uk/project/goodguides/cad/ (Acedido em 2002-09—16)
GRANGER, Stewart (2000) - Emulation as a digital preservation strategy. D-Lib Magazine, 6 (10)
http://www.dlib.org/dlib/october00/granger/10granger.html (Acedido em 2003-01-09)
GROUT, Catherine, PURDY, Phill & RYMER, Janine (>2000) - Creating digital resources for the vis-
ual arts : standards and good practice. AHDS/VADS, Guides to good practice
http://vads.ahds.ac.uk/guides/creating_guide/contents.html (Acedido em 2002-06-25)
HENDLEY, Tony (1998) – Comparison of methods and costs of digital preservation. British Library
Research and Inovation Report; 106. ISBN 0-7123-9713-2
http://www.ukoln.ac.uk/services/elib/papers/tavistock/hendley/hendley.html (Acedido em
2003-03-18)
HIRTLE, Peter (2000) – Archival authenticity in a digital age. In : Autenticity in a digital environ-
ment. Washington, CLIR : 8-21. ISBN 1-88334-77-7.
http://www.clir.org/pubs/reports/pub92/hirtle.html (Acedido em 2002-12-31)
BIBLIOGRAFIA
142
HODGE,G.M. (2000) - Best practices for digital archiving : an information life cycle approach. D-Lib
Magazine [em linha], January v. 6, no. 1. [referência de 25 de Junho de 2002]. Disponível na
Internet em :
http://www.dlib.org/dlib/january00/01hodge.html
HODGE,G.M. & CARROLL, Bonnie C. (1999) - Digital electronic archiving : the state of the art and
the state of the practice. International Council for Scientific and Technical Information.
http://www.icsti.org/99ga/digarch99_TOCP.pdf (Acedido em 2002-06-25)
HOEVEN, Hans van der & ALBADA, Joan van (1996) - Lost memory : libraries and archives de-
stroyed in the Twentieth Century. Paris, UNESCO, 70 p.
http://www.unesco.org/Webworld/mdm/administ/pdf/LOSTMEMO.PDF (Acedido 2002.12.10)
IBM/KB (2001) – Long term preservation study. DNEP. http://www.kb.nl/kb/ict/dea/ltp/ltpstudy-
overview.pdf (Acedido em 2003-01-12)
JONES, Maggie & BEAGRIE, Neil (2001) – Preservation management of digital materials : a hand-
book. London, The British library, 139 p. ISBN 0-7123-0886-5
KAHLE, Brewster (2002) – The Internet Archive. RLG Diginews, 6 (2) , p. 1-7
http://www.rlg.org/preserv/diginews/diginews6-2.html (Acedido em 10.12.2002)
KISLOVSKAY, Galina A. (2000) - A good beginning makes a good ending ? In : Preservation
management : between policy and practice. ECPA, The Hague, 1999.
http://www.knaw.nl/ecpa/PUBL/pmc.pdf (Acedido em 2002.09.24)
Koman, Richard (2002) – How the wayback machine works. The O´Reilly Network.
http://www.oreillynet.com/lpt/a/1295 (Acedido em 2003-01-20)
KOVACS, Diane K , ELKORDY, Angela (2000) – Collection development in cyberspace : building an
electronic library collection. Library Hi Tech, 18 (4), p. 335-359
KUNY, Terry (1998) – The digital dark ages? Challenges in the preservation of electronic informa-
tion. International Preservation News, 17.
http://www.ifla.org/VI/4/news/17-98.htm#2 (Acedido em 2002-05-23)
LAGOSE, Carl (2001) – Keeping Dublin Core simple ; cross domain discovery or resource descrip-
tion ? D-Lib Magazine, 7 (1), 13 p.
http://www.dlib.org/dlib/january01/lagoze/01lagoze.html (Acedido 2002-11-29)
LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) - Open Archives Initiative : Frequently
Asked Questions (FAQ). Protocol version 2.0 (Document version 2002/06/10T11:00:00Z)
http://www.openarchives.org/documents/FAQ.html (Acedido em 2003-02-27)
LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) – The Open Archives Initiative Protocol for
Metadata Harvesting. Protocol version 2.0. (Document version 2002/12/19T16:00 :00Z)
http://www.openarchives.org/documents/FAQ.html (Acedido em 2003-02-27)
BIBLIOGRAFIA
143
LAWRENCE, Gregory W. et al. (2000) Risk management of digital information : a file format inves-
tigation. Council of Library and Information Resources
http://www.clir.org/pubs/reports/pub93/contents.html (Acedido em 2003-01-09)
LOR, Peter Johan, SONNEKUS, Elisabeth A. S. (1997) Guidelines for legislation for national library
services. UNESCO.
http://www.unesco.org/Webworld/nominations/guidelines1_h.htm (Acedido em 2002-09-25)
LORIE,R.A. (2001) The long term preservation of digital information. RLG DigiNews. 5 (3)
http://www.rlg.org/preserv/diginews/diginews5-3.html (Acedido em 2002-11-10)
LOPES, Maria Inês (1998) – As bibliotecas e a organização do conhecimento : evolução e perspec-
tivas. Leituras : Rev. Bib. Nac., Lisboa, S. 3, N. 2
LOPES, Pedro Faria, CARDOSO, Gustavo & MOREIRA, Maria Vasconcelos (2002) - Preservação de
publicações electrónicas na Internet: os arquivos imperfeitos. Cadernos BAD, N. 2.
LUNN, Jean (Prep.) (1981) – Guidelines for legal deposit legislation. Paris, General Information
Programme and UNISIST – Unesco. (PGI-81/WS/23)
LUPOVICI, Catherine (1998) – L’information bibliographique des documents electroniques. B.B.F.
43 (4) http://www.enssib.fr/bbf/bbf-98-4/09-lupovici.pdf (Acedido em 2003-03-20)
LUPOVICI, Catherine (2001) – Les besoins et les données techniques de preservation. 67th IFLA
Council and General Conference, Boston, 2001
http://www.ifla.org/IV/ifla67/papers/163-168f.pdf (Acedido em 04.09.2002)
LUPOVICI, Catherine, MASANÈS, Julien (2000) – Metadata for the long term preservation of elec-
tronic publications. Nedlib Report Series; 2. ISBN 906259146-9
LUPOVICI, Catherine & MASANÈS, Julien (eds.)(2001) - What's next for Digital Deposit Libraries?
Preserving online content for future generation. In : 5th European Conference on Research and
Advanced Technology for Digital Libraries. ECDL Workshop. Darmstadt, 2001.
http://bibnum.bnf.fr/ecdl/2001/index.html (Acedido em 2002.12.15)
LYMAN, Peter (2002) - Archiving the World Wide Web. In : Building a national strategy for digital
preservation : issues in digital media archiving. CLIR. ISBN 1-887334-91-2.
http://www.clir.org/pubs/reports/pub106/Web.html (Acedido em 2003-01-21)
LYNCH, Clifford (1999) - Canonicalization : a fundamental tool fo facilitate preservation and man-
agement of digital information. D-Lib Magazine, 5 (9).
http://www.dlib.org/dlib/september99/09lynch.html (Acedido em 2003-01-02)
LYNCH, Clifford (2000) - Authenticity and integrity in the digital environment : an exploratory
analysis of the Central Role of Trust. In: Authenticity in a digital environment. Washington,
CLIR. http://www.clir.org/pubs/reports/pub92/pub92.pdf (Acedido em 2003-01-02)
MIGRATION : context and current status (2001) - The Hague, Digital preservation testbed white
paper, ICTU http://www.digitaleduurzaamheid.nl/bibliotheek/docs/Migration.pdf (Acedido em
2003-01-09)
BIBLIOGRAFIA
144
NLA (2002) – A digital preservation policy for the National library of Australia.
http://www.nla.gov.au/policy/digpres.html (Acedido em 2002-09-29)
OCLC/RLG Working Group on preservation metadata (2001) - Preservation metadata for digital ob-
jects : a review of the satte of the art : a white paper. 49 p.
http://www.oclc.org/digitalpreservation/presmeta_wp.pdf. (Acedido em 16.01.2002)
OCLC/RLG Working Group on preservation metadata (2001) - A recommendation for content in-
formation. 19 p. http://0clc.org/research/pmwg/contentinformation.pdf (Acedido em
14.04.2002)
OCLC/RLG Working Group on preservation metadata (2002) – Preservation metadata and the OAIS
Information Model : a metadata framework to support the preservation of digital objects: a re-
port. 51 p. http://oclc.org/research/pmwg/ (Acedido em 2003-01-09)
PASKIN, Norman (2003) – The DOI handbook. 3rd ed. International DOI Foundation.
http://www.doi.org/handbook_2000/DOIHandbookv3-0-0.pdf (Acedido em 2003-05-28
PHILIPS, Margaret E. (2001) - Ensuring long-term access to online publications. Journal of Elec-
tronic Publishing, 4 (4). 9 p. http://www.press.umich.edu/jep/04-04/phillips.html (Acedido em
2003-02-23)
POLIVY, Daniel J. & TAMASSIA, Roberto (2002) - Authenticating distributed data using Web ser-
vices and XML signatures. Proc. ACM Workshop on XML Security, ACM Press, 2002
http://www.cs.brown.edu/cgc/stms/papers/xmlsec2002.pdf (Acedido em 2003-01-06)
RAUBER, Andreas & ASCHENBRENNER, Andreas (2001) - Part of our culture is born digital : on ef-
forts to preserve it for future generations. Trans - Internet-Zeitschrift für Kulturwissenschaften.
10 http://www.ifs.tuwien.ac.at/~aola/publications/trans10.html (Acedido em 2003-01-20)
RLG-OCLC (2002) - Trusted digital repositories : attributes and responsabilities, Mountain
View:Research Libraries Group. http://www.rlg.org/longterm/repositories.pdf (Acedido em
2003-03-20)
ROSS. Seamus (2000) – Changing trains at Wigan : digital preservation and the future of scholar-
ship. London, National Preservation Office, 44 p.
http://www.bl.uk/services/preservation/occpaper.pdf (Acedido em 2003-03-20)
ROTHENBERG, Jeff (1995) – Ensuring the longevity of digital documents. Scientific American, 272
(1), p. 24-29
ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. CLIR. (Expanded versi-
on) http://www.clir.org/pubs/archives/ensuring.pdf (Acedido em 2002-12-27)
ROTHENBERG, Jeff (1999) - Avoiding Technological Quicksand: Finding a Viable Technical Founda-
tion for Digital Preservation. CLIR http://www.clir.org/pubs/reports/rothenberg/contents.html
(Acedido em 21.10.2002)
ROTHENBERG, Jeff (2000) - An experiment in using emulation to preserve digital publications. Den
Haag, Koninklijke Bibliotheek. 70 p. ISBN 9062-59-1442
BIBLIOGRAFIA
145
RUSSEL,Kelly & SERGEANT,Derek (1999) - The Cedars project : implementing a model for distrib-
uted digital archives. RLG DigiNews, 3 (3) http://www.rlg.ac.uk/preserv/diginews/diginews3-
3.html (Acedido em 2003-01-20)
SHAFER, Keith (s.d.) – Introduction to Persistent Uniform Resource Locators.
http://purl.oclc.org/docs/inet96.html (Acedido em 2002.07.08)
STAPPEL, Johan, DE NIET, Marco, JOCHUM-STARK, Dorothea (2001) – TEL Metadata : state of the
art review. 3rd and final draft review. 81 p.
http://www.europeanlibrary.org/doc/tel_results_d31_v03.doc (Acedido em 2002-09-24)
STAPELS, Thornton, WAYLAND, Ross & PAYETTE, Sandra (2003) – The Fedora Project: an open-
source digital object repository management system. D-Lib Magazine, 9 (4).
http://www.dlib.org/dlib/april03/staples/04staples.html (Acedido em 2003-06-16)
TAMASSIA, Roberto (2001) Efficient low-cost authentication of distributed data and transactions.
Conduit 10 (2) http://www.cs.brown.edu/cgc/stms/papers/conduit2001.pdf (Acedido em 2003-
01-08)
VEEN, Theo van & CLAYPHAN, Robina (2002) – Metadata in the context of the European Library
Project. Proc. Int. Conf. Dublin Core and Metadata for e-Communities. Florence, 2002.
http://www.bncf.net/dc2002/program/ft/paper2.pdf (Acedido em 2003-02-27)
WEBER, Hartmut (1993) - Opto-electronic storage : an alternative to filming ? CLIR - Commission
on Preservation and Access. http://www.clir.org/pubs/reports/Weber/Weber.html (Acedido em
2002-12-27)
WHEATLEY, Paul (2001) – Migration : a CAMiLEON discussion paper. Ariadne, 29
http://www.ariadne.ac.uk/issue29/camileon/ (Acedido em 2003-01-08)
WERF, Titia van der (2000) – CDNL/CENL activities with identifiers. 66th IFLA Council and General
Conference. Jerusalém, 2000, 5 p. http://www.ifla.org/IV/ifla66/papers/033-82e.htm (Acedido
em 2002-12-27)
WERF-DAVELAAR, Titia van der (1999) – Long-term preservation of electronic publications : the
NEDLIB project. D-Lib Magazine, 5 (9)
http://www.dlib.org/dlib/september99/vanderwerf/09vanderwerf.html (Acedido em 2003-01-
30)
WENDLER, R. – Metadata in the library. LDI Update. Harvard University Library Notes, N. 1286,
1999, p. 4-5. http://hul.harvard.edu/publications/library_notes/pdfs/HULN_1286.pdf (Acedido
em 2002-01-16)
Simulação de Matriz de Metadados de Preservação
CINome dado pelo criador/seleccionadorFornece identificação rápidaSimTextoMário de Sá Carneiro, 1890-1916 Entrada manual ou dada pelo sistemaPartilha Metadados descritivosNenhuma
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Nome do objectoGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
CINº existente na origemRelaciona inequivocamente metadados administrativos de preservação e descritivosSimDepende da aplicaçãoBN B 11401VEntrada manual ou dada pelo sistemaPartilha Metadados descritivosNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Nº de referênciaGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
CIIdentificador interno do repositórioCada objecto requer uma identificação inequívoca no repositórioSimNúmero sequencial500Entrada manual ou dada pelo sistemaPartilha Metadados descritivosNenhuma
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
ID do ObjectoGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
Página 1 de 22
Simulação de Matriz de Metadados de Preservação
CIIdentificação internacional para objectos digitaisCada objecto requer uma identificação inequívoca a nível global enão localSimPURLhttp://purl.pt/1Entrada manual ou dada pelo sistemaPartilha Metadados descritivosNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Identificador persistenteGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
CILocalização do objecto depositado no file systemNecessário para gerir e fornecer acesso administrativo no repositórioSimTexto...\objectos\preservação\Entrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Localização no file systemGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
CIData em que a matriz de preservação entrou no repositórioA data relacionada com outros metadados demonstra a responsabilidade do repositórioSimaaaammdd20030205Entrada manual ou dada pelo sistemaNenhumaA data deve ser expressa num formato normalizado
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Data criação matriz preserv.Grupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
Página 2 de 22
Simulação de Matriz de Metadados de Preservação
CIDescreve aspectos técnicos do objecto. Inclui o nº de ficheiros e onº total de ficheiros MIMEGerir a preservação obriga a que se conheça o estrutura do objecto lógico assim como os componentes individuaisSimTextoComposto por 20 ficheiros - 14 gif, 3 audio/wav, 3 texto e 2 .exeEntrada manual ou dada pelo sistemaNenhumaIdentifica o objecto como simples ou complexo
AIP:Definição:
Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Composição técnicaGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
CIO tipo de objecto a descrever no registo de metadadosA determinação da estratégia de preservação depende do conhecimento da estrutura do objectoSimTextoImagem, Recurso interactivoEntrada manual ou dada pelo sistemaPartilha Metadados descritivosLista de tipos do DCMI pode ser útil
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Tipo de estrutura do objectoGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
CIAmbiente de hardware necessário para a preservação da matrizIdentificação do mínimo de requisitos de hardware para a matriz de preservação correrSimTextoIBM PentiumIII PC com 256 MB RAMEntrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Ambiente hardwareGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
Página 3 de 22
Simulação de Matriz de Metadados de Preservação
CIAmbiente de softwareIde necessário para a preservação da matrizIdentificação do mínimo de requisitos de software para a matriz de preservação correrSimTextoWindows 2000 Versão 5 - Build 2195 Pack 2Entrada manual NenhumaPode-se acrescentar se a última versão é compatível com a anterior. Também se são necessários plugg-ins ou requisitos especiais de memória, etc.
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Ambiente softwareGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
CIRequisitos especiais necessários para instalar o objecto. Instruções ou nºs de série, etc.Fornecer acesso a objectos com requisitos especiais de instalaçãNãoTextoNºs de série, ou ficheiros readme.txtEntrada manual NenhumaEsta informação é particulamente importante para futuras operações de migração de dados
AIP:Definição:
Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Requisitos de instalaçãoGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
CIMétodos utilizados para restringir o acesso, tais como encriptação que podem ter impacto nos procedimentos de preservaçãoNa ausência desta informação pode não ser possível aceder ao objecto ou migrá-loNãoTextoPasswords. Chaves de encriptação, etc.Entrada manual NenhumaNenhuma
AIP:Definição:
Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Inibidores de acessoGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
Página 4 de 22
Simulação de Matriz de Metadados de Preservação
CIMétodos utilizados para favorecer o acesso à matriz de preservação que devem ser preservados ao longo do tempoPossibilitar a activação dos facilitadores de acesso em qualquer acção de preservaçãoNãoTextoO objecto contém links entre os ficheirosEntrada manual NenhumaNenhuma
AIP:Definição:
Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Facilitadores de acessoGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
CIQuaisquer características do original que podem parecer perdas de funcionalidade ou mudança do look-and-feel numa matriz de preservaçãoEvitar o desperdício de tempo com problemas inerentes ao originaNãoTextoNos objectos produzidos nas versões HTML anteriores à versão 4, a etiqueta do formato texto já não é suportadaEntrada manualNenhumaNenhuma
AIP:Definição:
Fundamento:Obrigatório:Formato:Exemplo:
Fonte:Sobreposição:Notas:
QuirksGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
PDIMeios técnicos de autenticação de objectosVerificar e manter a integridade dos dadosSimTextoAplicação de checksumEntrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
AutenticaçãoGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
Página 5 de 22
Simulação de Matriz de Metadados de Preservação
PDINome da pessoa ou organização criadora dos metadadosRegistar a história da responsabilidade da criação dos metadadosSimTextoLurdes Saramago, FCULEntrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Criador dos metadadosGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
PDIData da criação do registo de metadadosFornece possibilidade de saber quando o registo foi criadoSimaaaammdd20030306Entrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Data criação registo metadadosGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
PDIQualquer informação considerada pertinente para a preservação do objecto ou ficheirosCobrir qualquer informação que pode não caber nas outros camposNãoTextoEste objecto pode ser aberto unicamente através de uma drive localEntrada manualNenhumaNenhuma
AIP:Definição:
Fundamento:
Obrigatório:Formato:Exemplo:
Fonte:Sobreposição:Notas:
ObservaçõesGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
Página 6 de 22
Simulação de Matriz de Metadados de Preservação
PDIIdentificador interno do repositórioCada objecto requer uma identificação inequívoca no repositórioSimNúmero sequencial
Entrada manual ou dada pelo sistemaPartilha Metadados descritivosNenhuma
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
ID do objectoGrupo Metadados
ESTRATÉGIA DE PRESERVAÇÃO
Elementos Metadados:
Sub-elementos:
PDIDescrição do processoIdentificação de cada tipo de processo de preservação de uma matrizSimTextoMigração por obsolênciaEntrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Qual a estratégiaGrupo Metadados
ESTRATÉGIA DE PRESERVAÇÃO
Elementos Metadados:
Sub-elementos:
PDIMotivação para aplicação da estratégiaMotivação da decisão sobre a estratégiaSimTextoCriação de uma matriz num formato actualEntrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Motivo da estratégiaGrupo Metadados
ESTRATÉGIA DE PRESERVAÇÃO
Elementos Metadados:
Sub-elementos:
Página 7 de 22
Simulação de Matriz de Metadados de Preservação
PDINome da pessoa ou organização que levou a cabo a operaçãoFornece informação acerca da pessoa/ organização que levou a cabo a operaçãoSimTextoLurdes Saramago, FCULEntrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
OperadorGrupo Metadados
ESTRATÉGIA DE PRESERVAÇÃO
Elementos Metadados:
Sub-elementos:
PDINome da pessoa ou organização responsável pela aprovação da estratégiaFornece informação acerca da pessoa/ organização que tomou a decisãoSimTextoLurdes Saramago, FCULEntrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:
Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
AutorizaçãoGrupo Metadados
ESTRATÉGIA DE PRESERVAÇÃO
Elementos Metadados:
Sub-elementos:
PDIData da autorização da estratégiaFornece possibilidade de saber quando for autorizado o processo de conversãoSimaaaammdd
Entrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Data da autorizaçãoGrupo Metadados
ESTRATÉGIA DE PRESERVAÇÃO
Elementos Metadados:
Sub-elementos:
Página 8 de 22
Simulação de Matriz de Metadados de Preservação
PDITodo o hardware usado na operaçãoFornece a história do hardware usado para executar a operação eidentifica os componentes necessários a reter para uso futuroNãoTextoDrive de disketes de 5 1/4''Entrada manualNenhumaNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Hardware usadoGrupo Metadados
ESTRATÉGIA DE PRESERVAÇÃO
Elementos Metadados:
Sub-elementos:
PDITodo o software usado na operaçãoFornece a história do software usado para executar a operação e identifica os componentes necessários a reter para uso futuroNãoTextoMS Word 2000Entrada manualNenhumaNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Software usadoGrupo Metadados
ESTRATÉGIA DE PRESERVAÇÃO
Elementos Metadados:
Sub-elementos:
PDIDescrição completa das acções de preservaçãoFornece informação que permite reverter o processo ou repeti-loSimTextoDoc. em Wordstar/Migração do doc. Para MS Word 2000/Mudança de nome do ficheiro/Testes de fidelidade/Colocação da matriz de preservação do repositório digitalEntrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:
Fonte:Sobreposição:Notas:
EtapasGrupo Metadados
ESTRATÉGIA DE PRESERVAÇÃO
Elementos Metadados:
Sub-elementos:
Página 9 de 22
Simulação de Matriz de Metadados de Preservação
PDIResultados da estratégiaFornece um registo de resultados resultantes da estratégia de preservação. Inclui a confirmação das mudanças pretendidasSimTextoMigração bem sucedidaEntrada manualNenhumaNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
ResultadoGrupo Metadados
ESTRATÉGIA DE PRESERVAÇÃO
Elementos Metadados:
Sub-elementos:
PDITodas a normas utilizadas durante as acções de preservaçãoFornece consistência ao processoSimTextoManual de Operações de preservação digital XEntrada manualNenhumaNenhuma
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Linhas orientadorasGrupo Metadados
ESTRATÉGIA DE PRESERVAÇÃO
Elementos Metadados:
Sub-elementos:
PDIData e hora da conclusão do processoIdentifica a sequência das acções de preservação significantes para a história do objectoSimaaaammdd
Entrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Data de conclusão do processoGrupo Metadados
ESTRATÉGIA DE PRESERVAÇÃO
Elementos Metadados:
Sub-elementos:
Página 10 de 22
Simulação de Matriz de Metadados de Preservação
PDIQualquer informação considerada pertinente para a preservação do objecto ou ficheirosCobrir qualquer informação que pode não caber nas outros camposNãoTextoA migração foi complicada pelo nº elevado de links de ficheiros degráficos Entrada manualNenhumaNenhuma
AIP:Definição:
Fundamento:
Obrigatório:Formato:Exemplo:
Fonte:Sobreposição:Notas:
ObservaçõesGrupo Metadados
ESTRATÉGIA DE PRESERVAÇÃO
Elementos Metadados:
Sub-elementos:
PDIIdentificador interno do repositórioCada objecto requer uma identificação inequívoca no repositórioSimNúmero sequencial
Entrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
ID do objectoGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos:
PDIIdentificador interno do repositórioCada objecto requer uma identificação inequívoca no repositórioSimNúmero sequencial
Entrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
ID do ficheiroGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos:
Página 11 de 22
Simulação de Matriz de Metadados de Preservação
PDIInformação acerca da localização de um ficheiro no contexto do objecto lógicoFornece um registo acerca das principais relações entre objectos complexos ou grupos de objectosNãoTexto
Entrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:
Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Contexto estruturalGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos:
PDINome e extensão do ficheiroPermite identificar o ficheiro em conjunto com o ID do objectoSimTexto100_20.docEntrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Nome do ficheiro e extensãoGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos:
PDIEspaço ocupado por um ficheiro no servidor, expresso num formato normalizadoFacilita o planeamento de depósito no repositórioSimAbreviaturas normalizadas
Entrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:
Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Dimensão do ficheiroGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos:
Página 12 de 22
Simulação de Matriz de Metadados de Preservação
PDIData e hora em que o ficheiro foi criado, retirada dos cabeçalhos do ficheiroFornece informação de autenticaçãoNãoaaaammdd
Entrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:
Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Data e hora da criação do ficheiroGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos:
PDITipo de ficheiro ou formato, em regra um formato MIMEFornece informação sobre as ferramentas que podem abrir o ficheiro e ajuda a identificar os ficheiros de tipos particularesSimTextoImagem/gif ; aplicação/mswordEntrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Tipos e formatos MIMEGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos:
PDIVersão do formato do ficheiroFornece informação sobre as ferramentas que podem abrir o ficheiro e ajuda a identificar os ficheiros de tipos particularesNãoTextoMSWord 2000Entrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
VersãoGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos:
Página 13 de 22
Simulação de Matriz de Metadados de Preservação
PDINo caso do objecto ser complexo, é o ficheiro globalIdentifica qual o ficheiro necessário para representar um objecto complexo integralmenteNãoTextoIndex.html / Start.exeEntrada manualNenhumaNenhuma
AIP:Definição:Fundamento:
Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Indicador globalGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos:
PDIResolução especial da imagem expressa em pixels por cm ou dots por cm
600 dpi ; 1500 d/cm
AIP:Definição:
Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
IMAGEMGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Resolução
PDIDimensões da imegem expressa em pixels na vertical e na horizontel
4096x6144 pixels
AIP:Definição:
Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
IMAGEMGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Dimensões
Página 14 de 22
Simulação de Matriz de Metadados de Preservação
PDIO bit depth de cada pixel
1;8;24
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
IMAGEMGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Resolução tonal
PDIO espaço de cor usado na imagem
Escala de cinzentos ; RGB
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
IMAGEMGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Espaço de cor
PDIQualquer sistema usado para acrescentar consistência de cor ao longo da captura, display e output da imagem
PhotoCD; OptiCal; Profile/80; Softproof (Pfotoshop pug-in)
AIP:Definição:
Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
IMAGEMGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Gestão de cor
Página 15 de 22
Simulação de Matriz de Metadados de Preservação
PDILocalização e codificação para todos os CLUT usados para mapear desde o depth bais maixo ao mais alto
Residente (se o CLUT se encontra no ficheiro de imagem), Base64 (Se o CLUT estiver codificado em binário)
AIP:Definição:
Fundamento:Obrigatório:Formato:Exemplo:
Fonte:Sobreposição:Notas:
IMAGEMGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Lookup table
PDIComo a imagem digitalizada é armazenada relativamente ao topoda imagem
000 (se a orientação é alinhada com o topo da imagem): 090 (se o topo da imagem está 90 graus desviado, seguindo os ponteiros do relógio)
AIP:Definição:
Fundamento:Obrigatório:Formato:Exemplo:
Fonte:Sobreposição:Notas:
IMAGEMGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Orientação
PDIO tipo e o nível de compressão
ITU Grupo 4
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
IMAGEMGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Compressão
Página 16 de 22
Simulação de Matriz de Metadados de Preservação
PDIA frequência da amostra em kHz
44.1kHz
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
AUDIOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Resolução
PDIO tempo de gravação audio em minutos e segundos ou minutos, segundos, 100ºs de segundo e frames
67 minutos 12 segundos; 03:12:24:20
AIP:Definição:
Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
AUDIOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Duração
PDIWord length used to encode the audio. Consequentemente uma indicação de uma série dinâmica
16 bit, 24 bit
AIP:Definição:
Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
AUDIOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Bit rate
Página 17 de 22
Simulação de Matriz de Metadados de Preservação
PDIO tipo e o nível de compressão
MPEG 3
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
AUDIOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Compressão
PDIO formato de saída e a versão
Real Audio II
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
AUDIOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Encapsulação
PDINº de pistas e realações umas com as outras
1.2 pista stereo;2.single track;3.5 canal surround
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
AUDIOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Nº e tipo de pista
Página 18 de 22
Simulação de Matriz de Metadados de Preservação
PDIResolução em pixels de uma única frame
640 pixels x 480 pixels
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
VÍDEOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Dimensões das frames
PDIO tempo de gravação vídeo em minutos e segundos ou minutos, segundos, 100ºs de segundo e frames
67 minutos 12 segundos; 03:12:24:20
AIP:Definição:
Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
VÍDEOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Duração
PDIO frame rate normalizado para vídeo por segundo
25 fps
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
VÍDEOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Frame rate
Página 19 de 22
Simulação de Matriz de Metadados de Preservação
PDIO tipo e o nível de compressão
MPEG 3
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
VÍDEOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Compressão
PDIO tipo de estrutura de codificação e a versão
MPEG 3
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
VÍDEOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Estrutura de codificação
PDIParâmetros de som incorporados numa estrutura simples de ficheiro de vídeo. Pode incluirtodos os campos especificados em audio
AIP:Definição:
Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
VÍDEOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Som
Página 20 de 22
Simulação de Matriz de Metadados de Preservação
PDIO tipo e o nível de compressão
ficheiro .zip
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
TEXTOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Compressão
PDIJogo de caracteres usado no documento
ASCII; Unicode
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
TEXTOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Jogo de caracteres
PDINome da DTD aplicada à estrutura do texto
EAD
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
TEXTOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: DTD associada
Página 21 de 22
Simulação de Matriz de Metadados de Preservação
PDIDivisões lógicas num ficheiro de texto estruturado
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
TEXTOGrupo Metadados
FICHEIROS
Elementos Metadados:
Sub-elementos: Divisões estruturais
PDIDocumenta relações dos objectos ao ambienteIdentifica as relações existentes entre o objecto e ambienteNãoTexto
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Relações dos objectosGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
PDIRestrições de acesso aos utilizadoresPermite dar ou não acesso aos utilizadoresSimTexto
Entrada manual ou dada pelo sistemaNenhumaNenhuma
AIP:Definição:Fundamento:Obrigatório:Formato:Exemplo:Fonte:Sobreposição:Notas:
Gestão de direitosGrupo Metadados
OBJECTO
Elementos Metadados:
Sub-elementos:
Página 22 de 22
GLOSSÁRIO
ARQUITECTURA PEER-TO-PEER
Tipo de rede em que cada estação de trabalho tem capacidades e responsabilidades equi-
valentes. Difere de uma arquitectura de cliente-servidor na qual existem computadores
que estão dedicados ao serviço de outros computadores.
http://www.webopedia.com/TERM/p/peer_to_peer_architecture.html (acedido em 2003-
03-21)
API (APPLICATION PROGRAM INTERFACE)
Conjunto de rotinas, protocolos e ferramentas para construção de aplicações de software.
http://www.webopedia.com/TERM/A/API.html (acedido em 2003-06-16)
CDWA (CATEGORIES FOR THE DESCRIPTION OF WORKS OF ART)
Esquema de metadados criado no âmbito da Art Information Task Force (AITF). Define um
conjunto de campos para a descrição de objectos de arte. Com efeito, tem paralelismo com
o Dublin Core, mas é muito mais especializado no âmbito e na função.
Distingue entre informação intrínseca do item (objecto de arte, arquitectura ou conjunto de
itens) e informação extrínseca, tal como informação sobre pessoas lugares e conceitos re-
lacionados com o trabalho. Tal como o DC não está ligado a nenhuma DTD mas pode ser
incorporado em sistemas XML.
Existe outro sistema similar ao CDWA que é o Visual Resources Association Core Categori-
es, que tenta definir campos fulcrais para a descrição de recursos visuais e também acres-
centa informação sobre cópias tais como imagens digitais. Ainda está em testes.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
CHECKSUM
Esquema de detecção de erros que consiste em acompanhar cada mensagem por um valor
numérico baseado no conjunto de bits que compõem a mensagem. O receptor aplica a
mesma fórmula e verifica se o valor numérico é o mesmo. Se isso não acontecer, a men-
sagem pode considerar-se corrompida.
http://www.webopedia.com/TERM/c/checksum.html (acedido em 2003-06-16)
DIGEST
Representação de um texto na forma de um conjunto de dígitos, criados usando uma fór-
mula intitulada one-way hash function.
http://www.webopedia.com/TERM/m/message_digest.html (acedido em 2003-05-25)
DUBLIN CORE (DC)
Esquema de metadados composto por uma lista de 15 campos desenhados inicialmente
para descrever recursos com base na Web, de tal forma que permitisse aos motores de
busca encontrá-los. Não é uma aplicação XML mas desenha elementos que podem ser in-
corporados nesse tipo de aplicações (como p. ex. METS). Devido ao seu âmbito genérico os
seus elementos podem ser qualificados de forma a limitar o seu campo de acção, o que
limita as suas funcionalidades de pesquisa cruzada mas aumenta a precisão. ODC tem um
grande potencial como conjunto de metadados para recursos digitais, mas na maior parte
das vezes tem que ser acrescentado por informação mais específica adequada às necessi-
dades dos objectos. Como não contém nele próprio uma DTD ou um Esquema XML neces-
sita ser usado em conjunto ou embutido numa aplicação XML.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
EAD (ENCODED ARCHIVAL DESCRIPTION)
DTD XML aplicada na comunidade arquivistica. Devido à sua grande facilidade de ligar ob-
jectos digitais é capaz de descrever colecções digitais da mesma maneira que análogos
tradicionais. É também desenhado por forma a mapear padrões chave tais como MARC,
que permite que os registos EAD sejam pesquisados no seguimento de outros formatos
estabelecidos. O formato EAD tem capacidade para descrever uma colecção digital e a sua
estrutura interna, desde o mais alto nível da colecção até aos itens individuais. As suas
descrições individuais são todavia limitadas.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
ESQUEMA DE METADADOS (METADATA SCHEME)
Fornece a estrutura formal desenhada para identificar a estrutura de conhecimento de uma
dada disciplina e para proceder à sua interligação com a informação da disciplina. Desta
forma é criado um sistema de informação que orienta a identificação, descoberta e uso da
informação no contexto da disciplina.
http://www.ala.org/alcts/organization/ccs/ccda/tf-meta3.html (acedido em 2002-06-02)
GRID
Tipo de arquitectura de rede. Ao contrário das redes convencionais que têm o seu ponto
fulcral nas comunicações entre dispositivos, a arquitectura GRID aproveita os ciclos de não
processamento de todos os computadores na rede para resolver problemas de excessiva
intensidade de tráfego para máquinas stand-alone.
http://www.webopedia.com/TERM/g/grid_computing.html (acedido em 2003-02-22)
IMS
Esquema de metadados que se destina à gestão de recursos de ensino on line. É uma DTD
para XML e inclui componentes que fornecem metadados descritivos e administrativos e foi
desenhado para mapear DC. Enquanto indiscutivelmente potente já foi criticado como mui-
to complexo e não é muito usado nas bibliotecas digitais.
http://www.odl.ox.ac.uk/metadata.htm acedido em 2002-06-02
INTEROPERABILIDADE
Capacidade de dois ou mais sistemas ou componentes trocarem informação e a manipula-
rem sem apoio de outros sistemas.
http://www.ala.org/alcts/organization/ccs/ccda/tf-meta3.html (acedido em 2002-06-02)
MARC (MACHINE READABLE CATALOGUING)
Padrão estabelecido para a criação de registos para catálogos em linha. Tem características
para descrição de informação bibliográfica mas tem fraca capacidade para a descrição de
metadados administrativos ou estruturais. É também limitado quanto à descrição de incu-
nábulos ou manuscritos que podem estar incluídos numa colecção digital. Mapeamentos ao
formato MARC existem em quase todos os sistemas de metadados.
http://www.odl.ox.ac.uk/metadata.htm acedido em 2002-06-02
LOOK-AND-FEEL
Forma, aspecto e características externas de usabilidade.
METADADOS
Informação estruturada, que pode estar inserida num cabeçalho e que descreve os recur-
sos a que se reporta. Exemplos de metadados são os elementos do catálogo de uma biblio-
teca. Enquanto os recursos interessam ao utilizador final os metadados interessam às pes-
soas ou aos programas que têm que manusear a informação. Os metadados estão presen-
tes no processo de recuperação da informação ao proporcionar aos utilizadores a descober-
ta da existência dessa informação, que a localizem e que sirva para a identificar. Frequen-
temente os metadados descrevem o conteúdo, a descrição física, a localização, o tipo, a
forma da informação, e também que informação é necessária para a sua gestão: migra-
ções, datas de expiração, segurança, autenticação e formato dos ficheiros.
CLAVEL-MERRIN, Genevieve. NEDLIB list of terms. NEDLIB Report Series Editor. 2000,
17p., ISBN 906259151-5 (NEDLIB Report Series ; 7)
http://info.wgbh.org/upf/glossary.html (acedido em 2002-06-02)
Metadados são dados estruturados, codificados que descrevem características da informa-
ção e que ajudam na sua identificação, acesso e gestão.
http://www.ala.org/alcts/organization/ccs/ccda/tf-meta3.html acedido em 2002-06-02
Tipos de metadados :
1) Metadados descritivos: informação que descreve o conteúdo intelectual de um
recurso, tal como o formato MARC ou um esquema similar
2) Metadados administrativos: informação que permite a manipulação dos recursos
por um repositório: pode incluir informação acerca da forma da sua digitaliza-
ção, do formato de armazenamento, etc. informação de copyright e licencia-
mentos e informação necessária para a preservação de longo prazo (metada-
dos de preservação)
3) Metadados estruturais: informação que liga objectos a outros objectos para
formar unidades lógicas (p. ex. informação que relaciona imagens ou páginas
de um livro a outras e dessa forma se constrói o livro)
Em geral só os metadados descritivos são visíveis para o utilizador final.
http://www.odl.ox.ac.uk/metadata.htm acedido em 2002-06-02
Num contexto de preservação digital, os metadados identificam o recurso, determinam a
sua responsabilidade, pormenorizam o conteúdo, estabelecem as relações contextuais com
outros recursos, fornecem os pormenores técnicos e o conhecimento da cadeia de bites de
forma a que seja possível recuperar o recurso e fornecem informação legal.
METS (METADATA ENCODING & TRANSMISSION STANDARD)
Standard desenhado especificamente para codificar metadados descritivos, administrativos
e estruturais de recursos de uma biblioteca digital. Surge no seguimento do MOA (Making
of America II). É escrito em Esquema XML e por isso necessita de recorrer a software que
lide com este novo formato. O formato METS depende de um sistema complicado de refe-
rências cruzadas entre documentos e é gerado automaticamente em vez de ser editado
manualmente.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
MIME (MULTIPURPOSE INTERNET MAIL EXTENSIONS)
Formatação específica para mensagens em formato não ASCII de forma a que estas pos-
sam ser enviadas através da Internet. Permite enviar e receber ficheiros de gráficos, áudio,
ou vídeo através de sistemas de email. Adicionalmente comporta outros conjuntos de ca-
racteres além de ASCII. Existem alguns tipos MIME predefinidos, p. ex.: GIF ou PostScript
http://www.webopedia.com/TERM/M/MIME.html (acedido em 2003-03-02)
OBJECTO DIGITAL (TERMINOLOGIA OAIS)
Qualquer recurso que pode ser armazenado ou recuperado, i.e., tornado significativo, por
um computador.
Definição retirada de :
Russel, Kelly & Sergeant, Derek (1999) – The Cedars Project: Implementing a model for
distributed digital archives. RLG Diginews, 3 (3)
http://www.rlg.ac.uk/preserv/diginews/diginews3-3.html (acedido em 2003-01-20)
ONE-WAY HASH FUNCTION
Algoritmo que permite transformar mensagens ou textos numa sequência de dígitos com o
propósito de garantir a gestão da segurança. One way significa que é praticamente impos-
sível afastar o texto original da sequência.
http://www.webopedia.com/TERM/O/one-way_hash_function.htm (acedido em 2003-05-
25)
ONIX
Aplicação XML desenhada para proporcionar aos editores e livreiros a troca de metadados
essenciais. Como consequência traz muitas facilidades de descrição bibliográfica, preços e
informação de stoks, mas é muito limitado em termos de metadados administrativos ou
estruturais. Tem também capacidade limitada para descrever outros recursos que não li-
vros impressos.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
OPEN ARCHIVAL INFORMATION SYSTEM (OAIS)
Modelo conceptual para um repositório digital desenvolvido sob os auspícios do CCSDS
(NASA Consultative Committee for Space Data Systems).
Este modelo determina terminologia e esclarece conceitos importantes para o repositório
digital, identifica os componentes chave e os processos comuns à maioria da actividade de
depósito digital e propõe um modelo informacional para objectos digitais e metadados as-
sociados. Este modelo pode ser aplicado a um leque alargado de objectos nascidos digitais
ou mesmo objectos com existência física e não comporta assunções acerca de estratégias
de preservação.
O modelo OAIS é entendido no âmbito duma organização de pessoas e sistemas cuja res-
ponsabilidade é preservar a informação e disponibilizá-la a uma determinada comunidade.
http://info.wgbh.org/upf/glossary.html (acedido em 2003-03-21)
OPAC (ONLINE PUBLIC ACCESS CATALOG)
Catálogo bibliográfico das colecções acessíveis em linha.
PLUG-AND-PLAY
Capacidade de um sistema informático automaticamente configurar mecanismos de expan-
são a novos serviços e dispositivos. Deve ser possível acrescentar funcionalidades sem re-
correr a mais elementos de configuração ou à utilização de dip-switches ou jumpers.
http://www.webopedia.com/TERM/p/plug_and_play.html (acedido em 2003-02-22)
PRESERVAÇÃO DIGITAL
Conjunto de operações de gestão a empreender capazes de assegurar a manutenção a
longo prazo de uma cadeia de bytes e o acesso continuado ao seu conteúdo.
http://oclc.org/research/pmwg/ (acedido em 2003-03-21)
PURL (PERSISTENT UNIFIED RESOURCE LOCATION)
Funcionalmente um PURL é um URL que não aponta directamente para a localização do
recurso mas sim para um serviço de resolução intermédio. Este associa o PURL com o URL
e retorna o URL para o cliente. Em gíria da Web é um padrão http para redireccionamento.
http://www.purl.oclc.org (acedido em 2003-03-21)
RDF (RESOURCE DESCRIPTION FRAMEWORK)
Aplicação de XML que não é um esquema de metadados de per si, mas um sistema para os
codificar através de um enquadramento padronizado. Desenhada inicialmente para descre-
ver recursos da Internet, fornece um caminho normalizado de descrição dos nomes dos
elementos e a troca de informação sobre eles. RDF expressa-se usualmente em XML e
pode ser usado como enquadramento para muitos esquemas de metadados.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
REGISTO
Contexto de arquivo
Item informacional gerado, coligido ou recebido desde o início no âmbito de uma activida-
de individual ou institucional, que contenha suficiente conteúdo, contexto e estrutura que
forneça prova da existência dessa actividade
Contexto de base de dados
Colecção de itens relacionados tratados como um todo numa base de dados
REPOSITÓRIO DIGITAL CONFIÁVEL
Um repositório digital confiável é aquele cuja missão é assegurar a manutenção e o acesso
continuado a uma designada comunidade a recursos digitais confiáveis, agora e no futuro.
Os repositórios confiáveis podem assumir diferentes formas : algumas instituições podem
optar por construir os seus próprios repositórios enquanto outras podem optar por contra-
tar serviços externos.
http://oclc.org/research/pmwg/ (Acedido em 2003-01-09)
TEI (TEXT ENCODING INITIATIVE)
Norma para codificar textos electrónicos. Sistema modular, integra um conjunto de etique-
tas às quais podem ser acrescentadas outras para adequação a aplicações particulares tais
como transcrições de manuscritos. Inclui facilidades para metadados descritivos, a maior
parte dos quais está localizada no cabeçalho TEI, comporta também a parte do documento
que contenha informação acerca do documento electrónico propriamente dito e da fonte de
onde foi extraído. O cabeçalho foi desenhado para mapear o formato MARC. O formato TEI
é muito usado em projectos com uma grande componente textual.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
XML (EXTENSIBLE MARKUP LANGUAGE)
Linguagem desenhada inicialmente para marcar texto electrónico, mas devido às suas
propriedades de robustez, à sua independência face a softwares e à fácil intercomunicabili-
dade entre sistemas, a sua estrutura mapeia facilmente objectos digitais.
Um sistema XML pode ser aplicado de duas maneiras:
1. DTD (Document type definition) método antigo que lista quais as etique-
tas (tags) que devem ser utilizadas num documento XML assim como o
seu conteúdo e relações entre elas
2. Um método mais recente de codificar XML é um esquema XML, que de-
fine as regras que um documento XML deve seguir num outro documento
XML. O esquema XML é mais potente que o DTD.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
Z39.50
Protocolo (ANSI/NISO Z39.50-1950/ISO23950) que define a interoperabilidade entre clien-
te e servidor (origem e alvo) e permite ao cliente pesquisar a base de dados, identificar os
recursos segundo determinados critérios e recuperá-los.
http://www.loc.gov/z3950/agency/ (acedido em 2003.05.25)
DESDOBRAMENTO DE SIGLAS E ACRÓNIMOS
AHDS : Arts and Humanities Data Service
AIP : Archive information package
API : Application Program Interface
ASCII : American Standards Code for Information Interchange
CAMiLEON : Creative Archiving at Michigan & Leeds : Emulating the Old on the New
CCSDS : Consultative Committee for Space Data Systems
CEDARS : CURL Exemplars in digital archives project
CLIR : Council on Library and Information Resources
COBRA : Computorized Bibliographic Record Actions
CURL : Consortium of University Research Libraries
DC : Dublin Core
DCMI : Dublin Core Metadata Inciciative
DIP : Dissemination information package
DOI : Digital object identifier
DSEP : Deposit System Electronic Publications
DSP : Digital Services Project (NLA)
DSTC : Distributed Systems Technology Centre (NLA)
DTD : Document Type Definition
EAD : Encoding Archival Description
EPCA : European Comission on Preservation and Access
EVA : Elinkeinoelämän Valtuuskunta (the acquisition and archiving of electronic network
publications)
FEDORA : Flexible Extensible Digital Object and Repository Architecture
HTML : Hypertext Modelling Text
IFLA : International Federation of Library Associations
InterPARES : International Research on Permanent Authentic Records in Electronic Sys-
tems)
ISAD(G) : International Standard for Archive Description
JISC : Joint Information Systems Committee of the Higher and Further Education Councils
Kulturarw3 : The Royal Swedish Web Archiv3
LDI : Library Digital Initiative
METS : Metadata Encoding and Transmission Standard
MIME : Multipurpose Internet Mail Extensions
NASA : National Aeronautics and Space Administration
NBN : National Bibliographic Name
NEDLIB : Networked European Deposit Library
NLA : National Library of Australia
OAI : Open Archives Initiative
OAI-PMH : Open Archives Initiative – Protocol for Metadata Harvesting
OAIS : Open Archival Information System Reference Model
OCLC : Online Computer Library Center
PAC : Preservation and Conservation
PADI : Preserving Access to Digital Information
PANDORA : Preserving and Accessing Networked DOcumentary Resources of Australia
PDF : Portable document format
PURL : Persistent Uniform Resource Locator
RDF : Resource Description Framework
RLG : Research Libraries Group
SGML : Standard Generalized Markup Language
SIP : Submission Information Package
SOAP : Simple Object Access Protocol
STMS : Secure Transaction Management Systems
UML : Unified Modeling Lanuage
UNESCO : United Nations Educational, Scientific and Cultural Organization
URI : Uniform Resource Identifier
URL : Uniform Resource Locator
URN : Uniform Resource Name
UVC : Universal Virtual Computer
VEO : VERS Encapsulated Object
VERS : Victorian Electronic Record Strategy
W3C : World Wide Web Consortium
WIPO : World Intellectual Property Organization
WSDL : Web Services Description Language
XML : Extensible Markup Language
SÍTIOS RECOMENDADOS
CAMiLEON : Creative Archiving at Michigan & Leeds : Emulating the Old on the New
http://www.si.umich.edu/CAMILEON/about/aboutcam.html
Projecto conjunto das universidades de Michigan (USA) e Leeds (UK). Desenvolve e avalia
estratégias de preservação digital de longo prazo, com especial interesse na estratégia de
emulação.
CEDARS : Curl Exemplars in Digital Archives Project
http://www.leeds.ac.uk/cedars/
Projecto conjunto das universidades de Leeds, Cambridge e Oxford no Reino Unido. Dedi-
ca-se a estudar metodologias e boas práticas no campo da preservação digital. Financiado
pelo JISC, teve início em 1998 e terminou em 2002.
CLIR : Council on Library and Information Resources
http://www.clir.org/
Organização não lucrativa patrocinada por mais de 160 instituições americanas, a maioria
universidades. Através de projectos, programas e publicações tenta aperfeiçoar e garantir
o acesso à informação a gerações futuras.
CURL : Consorcium of University Research Libraries
http://www.curl.ac.uk/about/
Consórcio que promove a investigação em ciências documentais e da informação, assim
como o ensino e a aprendizagem em bibliotecas universitárias no Reino Unido. Composto
pelas seguintes universidades :
Aberdeen, Birmingham, Bristol, British Library, Cambridge, Dublin (Trinity), Durham, Edin-
burgh, Glasgow, Leeds, Liverpool, London (Senate House), LSE, Imperial, KCL, UCL,
JRULM, National Library of Scotland, National Library of Wales, Newcastle, Nottingham, Ox-
ford, Southampton, Sheffield e Warwick.
DC : Dublin Core
http://dublincore.org/
Conjunto de 15 elementos de metadados para descrição de recursos digitais na Internet.
A iniciativa Dublin Core é também um polo de discussão, aberto, com interesse no desen-
volvimento da interoperabilidade de esquemas de metadados.
DELOS : Network of Excellence on Digital Libraries
http://delos-noe.iei.pi.cnr.it/
Iniciativa da Comissão Europeia aberta à participação e contribuição de investigadores, vi-
sando a promoção de investigação em bibliotecas digitais na Europa.
DLF : Digital Library Federation
http://www.diglib.org/
Consórcio de bibliotecas e outras organizações pioneiras no uso das tecnologias de infor-
mação digital. Através dos seus membros orienta as bibliotecas na identificação de padrões
e boas práticas para a gestão das colecções digitais e para o acesso em rede.
DPC : Digital Preservation Coalition
http://www.dpconline.org/graphics/
Consórcio criado em 2001 para fazer face aos desafios urgentes da preservação de recur-
sos digitais no Reino Unido e internacionalmente de forma a poder garantir a existência
futura de uma memória digital global.
DSP : Digital Services Project
http://www.nla.gov.au/dsp/
Projecto da Biblioteca Nacional da Austrália que visa assegurar a gestão das colecções digi-
tais assim como a sua preservação e acesso ao longo do tempo.
ECPA: European Commission on Preservation and Access
http://www.knaw.nl/ecpa/
Plataforma europeia para discussão e cooperação de instituições patrimoniais nas áreas da
preservação e acesso. Promove o intercâmbio de conhecimentos e experiências. Organiza
encontros de trabalho e conferências.
EVA : the acquisition and archiving of electronic network publications
http://www.lib.helsinki.fi/eva/english.html
Projecto conjunto de bibliotecas, editores e organizações especializadas no âmbito de pro-
grama estratégico do Ministério da Educação da Finlândia. Visa criar metodologias e ferra-
mentas para capturar, registar e arquivar recursos digitais distribuídos através da Internet
e investigar as condições para a sua preservação nas bibliotecas.
FEDORA : Flexible Extensible Digital Object and Repository Architecture
O projecto FEDORA tem sede na biblioteca da Universidade da Virgínia nos Estados Unidos
da América e é desenvolvido no âmbito de uma parceria com a Universidade de Cornell. É
subsidiado pela a Fundação Andrew W. Mellon.
IFLA : International Federation of Library Associations
http://www.ifla.org
Organização que lidera internacionalmente os interesses das bibliotecas e serviços de in-
formação. É ao mesmo tempo fonte de informação de referência em todas as áreas relaci-
onadas com as ciências da documentação e informação.
JISC : Joint Information Systems Committee of the Higher and Further Education Councils
http://www.jisc.ac.uk/
Promove o uso de sistemas e tecnologias da informação no ensino superior e de pós-
graduação no Reino Unido.
KULTURARW3 : The Swedish Archive
http://www.ifla.org/IV/ifla66/papers/154-157e.htm
Projecto que investiga métodos de recolha, preservação e acesso aos recursos digitais sue-
cos, através da Internet.
NEDLIB : Networked European Deposit Library
http://www.kb.nl/coop/nedlib/
Projecto conjunto das bibliotecas nacionais europeias. Visa construir uma infraestrutura
básica na qual uma rede europeia de bibliotecas de depósito possa operar. O seu objectivo
é assegurar que os recursos digitais do presente sejam acessíveis no futuro.
NLC : Electronic Collections Coordinating Group - Networked Electronic Publications Policy
and Guidelines
http://www.nlc-bnc.ca/9/8/index-e.html
Grupo de trabalho da Biblioteca Nacional do Canadá. Coordena, entre outros, o problema
da preservação digital de longo prazo
OCLC : Online Computer Library Center, Inc.
http://www.oclc.org/digitalpreservation/about/archive/
Consórcio que apoia cerca de 41000 bibliotecas em 82 países. Além de muitos outros ser-
viços fornece acesso a recursos digitais a longo prazo, assim como procede à sua preser-
vação.
PADI : Preserving Access to Digital Information
http://www.nla.gov.au/padi/
Portal temático australiano totalmente vocacionado para a preservação digital
PANDORA : Preserving and Accessing Networked Documentary Resources of Australia
http://pandora.nla.gov.au/
Projecto de depósito de recursos digitais no âmbito da Biblioteca Nacional da Austrália que
visa dedicar-se à preservação digital de longo prazo.
Consórcio formado pelas State Library of Victoria, ScreenSound Australia, State Library of
South Australia, State Library of New South Wales, State Library of Western Australia,
Northern Territory Library and Information Service, State Library of Queensland e National
Library of Australia.
RLG : Research Libraries Group
http://www.rlg.org/rlg.html
Consórcio de mais de 160 instituições, em todo o mundo, pioneira no desenvolvimento de
soluções cooperativas para os problemas da gestão de colecções, tais como aquisição, for-
necimento e preservação de informação.
TEL : The European Library
http://inf2.pira.co.uk/factsheets/inform/digicult/tel.html#consortium
Consórcio europeu que acompanha o desenvolvimento de bibliotecas digitais com vista à
criação de uma futura biblioteca digital europeia baseada em colecções digitais distribuí-
das. Tem nas suas funções, além de outras, o desenvolvimento de um conjunto consensual
de abordagens para as bibliotecas nacionais nas suas relações com os editores ao nível do
depósito legal.
VERS : Victorian Electronic Record Strategy
http://www.prov.vic.gov.au/vers/