kurz webové archivare i

24
Webarchiv Kurz webové archivace, AIS142

Upload: webarchive-of-national-library-of-the-czech-republic

Post on 13-Apr-2017

77 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Kurz webové Archivare I

WebarchivKurz webové archivace, AIS142

Page 2: Kurz webové Archivare I

Webová archivace

Web archiving is the process of collecting portions of the World Wide Web to ensure the information is preserved in an archive for future researchers, historians, and the public.

Page 3: Kurz webové Archivare I

Proč archivovat web?

Page 4: Kurz webové Archivare I

Web scale archiving

• webové archivy se snaží archivovat tak velkou část internetu, že není možné kontrolovat akvizici, ochranu, zpřístupnění ani kontrolu kvality jednotlivých webových stránek pouze lidskými silami.

Page 5: Kurz webové Archivare I

Limity webové archivace

• legislativa + budget

• deep web (?)

• web 2.0 (streaming, passwords, databases)

• dlouhodobá ochrana

Page 6: Kurz webové Archivare I

Technické překážky

• Flash, Ajax, JavaScript …

• technických překážek je mnoho, řešení?

• univerzální řešení neexistuje

Page 7: Kurz webové Archivare I

Kdo jsou webové archivy

• Internet Archive

• Národní knihovny

• Univerzity, neziskové organizace

Page 8: Kurz webové Archivare I

Memento

• agregátor webových archivů

• https://www.youtube.com/watch?v=WtZHKeFwjzk

Page 9: Kurz webové Archivare I

Dark archives

• veřejně nepřístupné archivy

• většinou pouze v místě samé, někdy ani to ne

• autorský zákon, knihovní licence

Page 10: Kurz webové Archivare I

WebarchivČeský webový archiv, více

Page 11: Kurz webové Archivare I

Historie Webarchivu

• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)

• 2001 - první archivované webové stránky

• 2005 - pravidelné sklízení obsahu

• 2007 - vstup do IIPC

Page 12: Kurz webové Archivare I

Profil archivu

• stáří archivu: 3. 9. 2001

• ~ 200 TB

• frekvence sklízení: 1x - 1x|2x|6x|12x/year

• hloubka sklízení: 5000 - 15 000 objects

• přístupnost: in house/online access

Page 13: Kurz webové Archivare I

Rozložení domén

Page 14: Kurz webové Archivare I

Tempo růstu

Page 15: Kurz webové Archivare I
Page 16: Kurz webové Archivare I

• robot.txt nerespektujeme

• velké dilema pro webové archivy

• rozhodnutí má zásadní dopady na archiv

• “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”

Page 17: Kurz webové Archivare I

Designated community

• koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS)

• definice uživatelů určuje obsah i jeho formu

1. individuální uživatelé2. institucionální uživatelé3. výzkumníci a vědci

Page 18: Kurz webové Archivare I

Zpřístupnění

• Wayback Machine (zobrazování)

• Vyhledávání:

• primárně WWW

• katalog Aleph

• Wayback Machine

Page 19: Kurz webové Archivare I

Role kurátora

• komunikace s vydavateli

• “plnění” konspektu

• správa webových zdrojů vč. hodnocení

• katalogizace

• quality assurance

Page 20: Kurz webové Archivare I

Kurátorství ve světě

• Technicky vyřešeno

• Důraz na kolekce

• IIPC collaborative collections

• Sociální sítě

Page 21: Kurz webové Archivare I
Page 22: Kurz webové Archivare I
Page 23: Kurz webové Archivare I

Jak to děláme my?

• Tematické sklizně

• Plníme konspekt

• Chystáme kolekce a zapojení dalších institucí