Harvest de Metadados com OAI-PMH / LexML
João Lima
Introdução Comandos
Exemplos do IBICT OAI-PMH no Projeto LexML
OAI-PMH Open Archives Initiative Protocol
for Metadata Harvesting XML e HTTP Versão 2.0
http://www.openarchives.org/OAI/openarchivesprotocol.html
Criado em Janeiro/2001 Expor metadados descritivos
Data Provider / Service Provider
SF CD STF TCU
LexML
TJ SP
Data Provider / Service Provider
SF CD STF TCU
LexML
ALESP
Pref.SP Estado TJ SP
Registro OAI-PMH Header
Identificador único Timestamp (coleta seletiva) 0 ou + conjuntos (coleta seletiva)
Metadados DC (mínimo): oai_dc Proprietário: oai_lexml-br
About Rights Provenance
Informações sobre a origem do metadado, com identificadores (registro e repositório) e timestamp da origem.
Header – Exemplo<header> <identifier>oai:arXiv:cs/0112017</identifier> <datestamp>2002-02-28</datestamp> <setSpec>cs</setSpec> <setSpec>math</setSpec></header>
Metadata – Exemplo
<metadata> <oai_dc:dc xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/
http://www.openarchives.org/OAI/2.0/oai_dc.xsd"> <dc:title>Using Structural Metadata to Localize Experience of
Digital Content</dc:title> <dc:creator>Dushay, Naomi</dc:creator> <dc:subject>Digital Libraries</dc:subject> <dc:description>With the increasing technical sophistication of
both information consumers and providers, there is increasing
demand for more meaningful experiences of digital information.
</dc:description> <dc:description>Comment: 23 pages including 2 appendices, 8 figures</dc:description> <dc:date>2001-12-14</dc:date> <dc:type>e-print</dc:type> <dc:identifier>http://arXiv.org/abs/cs/0112017</dc:identifier> </oai_dc:dc></metadata
About<about> <provenance xmlns="http://www.openarchives.org/OAI/2.0/provenance" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/provenance http://www.openarchives.org/OAI/2.0/provenance.xsd"> <originDescription harvestDate="2002-02-02T14:10:02Z"
altered="true"> <baseURL>http://the.oa.org</baseURL> <identifier>oai:r2:klik001</identifier> <datestamp>2002-01-01</datestamp>
<metadataNamespace>http://www.openarchives.org/OAI/2.0/oai_dc/</metadataNamespace>
</originDescription> </provenance></about>
Eliminação de Registros No
O repositório não mantém informações sobre registros eliminados.
status=delete (nunca) Persistent
O repositório sempre manterá informações sobre registros eliminados.
status=delete (sempre) Transient
Não garante o registro persistente das informações eliminadas
status=delete (talvez)
OAI-PMH - comandos
Identify ListMetadataFormats ListSets ListIdentifiers ListRecords GetRecord
Comando Identify
Informações sobre o repositório
ListMetadataFormat
Lista formatos de metadados disponíveis no repositório.
ListSets
Lista os conjuntos de dados disponíveis no repositório
ListIdentifiers
Lista apenas os identificadores Intervalo de timestamp Por prefixo Por set Controle do fluxo (resumptionToken)
ListRecords
Lista os registros Intervalo de timestamp Por prefixo Por set Controle do fluxo (resumptionToken)
GetRecord
Obtém um registro Identificador e prefixo (metadado)
OAI-PMH - LexML Esquema de Metadados
oai_lexml-br Tabelas do Data e Service Providers
Mesma estrutura > agregação Transferência de Dados para Tabelas do Resolver Cadastro do Data-Provider por interface Web Controle de Erros Interface para Consulta no Data-Provider
Alterações pontuais Controle da Coleta (horário da última coleta) SGBDs
MySQL e Oracle (testados) ANSI
Nas organizações
Impacto mínimo nas organizações Manutenção de tabela de
metadados
Cronograma 1 mês
especificação oai_lexml-br 15 dias
modelagem das tabelas 1 mês
Data_provider – interface Serice_provider – registro e coleta
1 mês Relatório de acompanhamento erros
1 mês Rotina de cópia para tabelas do resolver
15 dias Documentação final e Teste integrado