universidad de deusto facultad de ingenieria diploma de especialización en documentación y...
TRANSCRIPT
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Informática DocumentalIntroducción
Pablo Garaizar SagarminagaPablo Garaizar [email protected]@eside.deusto.es
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Introducción
• ¿Qué es la informática documental?
• ¿Qué es un documento?
• ¿Qué es una Base de Datos?
• El ordenador en la documentación.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Introducción
• ¿Qué es la informática documental?– Informática:
• Tratamiento automatizado de la información.• Software + Hardware.
– Documental:• Encaminada a la gestión de documentos:
– Recepción, catalogación, almacenamiento, búsqueda de documentos.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Introducción
• Hardware vs. Software:– Sistema operativo.– Ratón.– Navegador web.– Disco duro.– CD-ROM.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Introducción
• Dispositivos de entrada y de salida:– Teclado.– Pantalla.– Ratón.– Impresora.– Lector DVD.– Diskette.– Lápiz USB.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Introducción
CPU RAM
DISCODUROTARJETA
VGA
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Introducción
• ¿Qué es un documento?– Es fuente y soporte de información.
• Fuente: proporciona información.• Soporte: almacena, contiene, la información.
– Diferentes tipos en función de diferentes criterios:• Naturaleza de la información (visual, auditivo, etc.).• Tipo de soporte físico (impresos, digitalizados, etc.).• Difusión del documento (inédito, publicado, reservado).• Contenido del documento:
– Primarios: fuentes originales (libros, artículos, informes, leyes, etc.).
– Secundarios: resultado del análisis documental de documentos primarios (anuarios, bibliografías, resúmenes, fichas, etc.).
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Introducción
• ¿Qué es una Base de Datos?– Conjunto de información almacenada en
cualquier tipo de soporte, de forma que sea accesible y manipulable por un sistema informático.
– Base de Datos vs. SGBD.• AEROPUERTOS.MDB vs. Microsoft Access.• LIBROS.DOK vs. Knosys.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Introducción
• Tipos de Bases de Datos:– En función del diseño:
• Jerárquicas, en Red, Relacionales, Documentales, Orientadas a Objetos, etc.
– En función de la información almacenada:• Referenciales: almacenan documentos
secundarios:– BD bibliográficas, directorios.
• Fuentes: almacenan documentos primarios:– BD textuales, numéricas (bancos de datos), mixtas.
• Mixtas: textuales + bibliográficas.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Introducción
• El ordenador en la documentación:– Ordenador = centro de documentación:
• Como BD, almacenamiento de documentos.• Como SGBD, sistema eficaz de búsqueda y
localización de documentos.
– Modos de acceso a la información:• Conexión on-line (Teledocumentación).• Acceso local o conexión off-line
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Introducción
• Tele-documentación:
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Introducción
• Acceso local:
BD
BD
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Tareas del servicio de documentación
• Paralelismo con la informática documental:– Almacenamiento y análisis:
• Obtener una descripción del documento formalizada dentro del sistema (registro-índice).
– Interrogación y búsqueda: • Comprender las peticiones del usuario y
encontrar los documentos apropiados.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
PROCESADOR DE TEXTOS
SCANNER + OCR
LENGUAJE DEINTERROGACIÓN
ANALISISCOMPRENSIÓN
PETICIÓN
ENTRADA QUERY
TRATAMIENTODOCUMENTO
ENTRADADOCUMENTO SALIDA DOCUMENTO
VISUALIZACIÓNPANTALLA
LISTADOIMPRESORA
CINTA
DISCOMAGNÉTICO
DISCOÓPTICO
CINTA
DISCOMAGNÉTICO
DISCOÓPTICO
ALMACENAMIENTODOCUMENTO
ALMACENAMIENTOÍNDICE
ÍNDICE
ÍNDICEQUERY
COMPARACIÓN SELECCIÓN
ANÁLISIS
ANALISISINDEXADOR
DOCUMENTO
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Hardware y software para la documentación
• Entrada de documentos:– Teclado + Procesador de textos:
• Varias disposiciones: QWERTY, Dvorak, etc.• Procesador de textos: MS Word, OpenOffice
Writer, Google Docs, etc.• Ventajas: sencillo y cómodo.• Desventajas: lentitud.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Hardware y software para la documentación
• Entrada de documentos:– Scanner + software OCR:
• Reconocimiento óptico de caracteres.• Ventajas: rapidez.• Desventajas: errores y pérdida de formato.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Hardware y software para la documentación
• Salida de documentos:– Pantalla-Monitor:
• Diferentes tipos:– CRT: Tubo de rayos catódicos.– LCD-TFT: Pantalla de cristal líquido – Transistor de
Película Fina.– Plasma: excitación de sustancias fosforescentes
mediante una corriente de plasma.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Hardware y software para la documentación
• Salida de documentos:– Impresora:
• Diferentes tipos:– Matricial: matriz de agujas con tinta golpean el papel.– Chorro de tinta: pequeños eyectores de tinta.– Láser: similar a las fotocopiadoras (tóner + rodillo).
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Hardware y software para la documentación
• Almacenamiento de documentos:– Cinta magnética:
• En desuso.• Acceso secuencial: lento.
– Discos magnéticos:• Los más utilizados.• Disco girando + cabeza lectora / escritora.• Dos tipos:
– Disco flexible: diskette.– Disco rígido / duro: herméticamente sellado.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Hardware y software para la documentación
• Almacenamiento de documentos:– Discos ópticos:
• Láser y lente + picos y valles en los discos.• Tipos más comunes:
– CD-ROM: sólo lectura, 650-900 MB.– CD-R: escritura una vez, lectura varias (WORM).– CD-RW: muchas escrituras, muchas lecturas.– DVD: sólo lectura, una capa 4,7 GB, doble capa, 8,5 GB.– DVD-R, DVD+R: escritura una vez, lectura varias.– DVD-RW: muchas escrituras, muchas lecturas.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Nociones sobre ficheros
• Fichero:– Conjunto de información similar con una estructura
determinada. – Cada unidad de acceso a un fichero se llama
registro, y cada registro está compuesto por diferentes campos.
• Ejemplo: – Fichero de clientes de una empresa:
• Cada cliente es un registro.• Cada registro contiene los campos "nombre", "número",
"dirección", "teléfono"...
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Nociones sobre ficheros
• Organización y tipos de acceso:– Secuencial: el primer registro es el primero
que ha llegado.– Indexada: se define un campo clave y se
crea un árbol de índices (metadatos).
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Primera parte: análisis de contenido.• Objetivo: Documento >>> Índice (proceso de
indexación).• El registro-índice tiene un diseño
estandarizado en cada Sistema de Gestión Documental.
• Ejemplo: nombre, identificativo, fecha de entrada, 10 campos descriptores + pesos.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Análisis de contenido:• Subtareas:
• Catalogación o descripción física del documento: título, autor, etc.
• Indexación del documento: texto >>> términos-índice o descriptores (palabras clave).
• Valoración de los índices del documento: cálculo de pesos en base a frecuencias.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Análisis de contenido:• Tipos de Indexación:
• Indexación Automática / Manual: • Crear diccionarios que el sistema necesita (glosario, palabras-
vacías, tesauro).
• Indicar las zonas del documento objeto de análisis.
• Indexación de términos controlados / incontrolados:• Incontrolado: toda la variedad del lenguaje natural.
• Controlado: propio de sistemas sobre un tema en concreto.
• Indexación Postcoordinada / Precoordinada:• Postcoordinada: términos-índice individuales, posteriormente
pueden coordinarse.
• Precoordinada: términos-índice ya coordinados, como frases.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Análisis de contenido:• Diccionarios necesarios para el análisis:
• Glosario-Lexicón-Vocabulario: • Descriptores del área de conocimiento tratada (= todas las
palabras de búsqueda e identificación de los documentos).
• Stoplist-Diccionario de palabras vacías: • Palabras no útiles para la búsqueda, con valor únicamente
gramatical (artículos, preposiciones, etc.).
• Thesaurus (tesauro): • Diccionario estructurado de conceptos, con relaciones
jerárquicas y asociativas entre ellos. • Objetivo: garantizar la coincidencia entre el descriptor usado
para analizar el documento y para la formulación de la búsqueda o pregunta.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Análisis de contenido:– Tesauro:
• Componentes:• Unidades léxicas:
• Descriptores.• No-descriptores: términos rechazados, reenvían al
descriptor adecuado.• Identificadores: nombres propios, de lugares, etc..
• Relaciones conceptuales.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Análisis de contenido:• Relaciones conceptuales:
• Equivalencia: descriptor y sus sinónimos.• USE: para remitir del sinónimo al descriptor.• UP: para remitir del descriptor al sinónimo.• ORDENADOR UP COMPUTER• COMPUTER USE ORDENADOR
• Jerárquicas: cosa-tipo, género-especie, todo-parte.
• TG: Términos genéricos.• TE: Términos específicos.• TG PERRO TE CANICHE
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Análisis de contenido:• Relaciones conceptuales:
• Asociativas: horizontales, de proximidad conceptual.• TR: Término relacionado.
• TA: Término asociado.
• CRISTAL TR: TRANSPARENCIA
• LAPIZ TA: PORTAMINAS
• Definitorias: no son una definición, sino que facilitan la correcta utilización del descriptor, delimitando su uso ("nota de alcance").
• NA: Nota de alcance (en inglés SN, scope note)
• ALUMNO NA: Referido al que cursa la ESO.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Análisis de contenido:• Tareas:
1. Catalogación: trivial, rellenar una ficha con los datos físicos.
2. Indexación, Elección de los descriptores.
3. Valoración o Cálculo de los pesos de los índices.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Indexación, Elección de los descriptores:1. Identificar palabras individuales, separadas por espacios.
2. Cálculo de la frecuencia de cada palabra (FREQ ik).
3. Calculo de la frecuencia total de cada palabra (TOTFREQk).4. Ordenación de las palabras en orden decreciente por su
frecuencia total.5. Eliminación de las palabras que pertenecen al STOPLIST.6. Eliminación de las palabras de menor frecuencia.7. Elección de las palabras con mayor frecuencia individual en
el documento (FREQik) y menor frecuencia total. 8. Traducción de estas palabras a forma canónica (quitando
prefijos, sufijos, plurales, etc.).9. Identificación de las categorías semánticas en el Tesauro y
elección del PT (Preferred Term).
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Valoración o Cálculo de los pesos de los índices:
– Efectividad:• Exhaustividad de indexación: si la indexación
es exhaustiva, se asignan muchas palabras clave (normal: de 5 a 12). Poca exhausitividad = silencio.
• Especificidad o precisión del término: si los términos-índice asignados son muy generales, se recuperará mucha información útil, pero junto con otra que no lo es (ruido).
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Valoración o Cálculo de los pesos de los índices:
– Efectividad:• Ruido: conjunto de documentos no útiles
recuperados en una consulta (inverso a la precisión).
• Silencio: conjunto de documentos relevantes existentes en la base de datos que no han sido recuperados (inverso a la exhaustividad).
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Efectividad:
a: doc relevantes recuperados
b: doc relevantes no recuperados (silencio)
c: doc irrelevantes recuperados (ruido)
d: doc irrelevantes no recuperados
b d
a c
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Efectividad:– Tasas:
• Ruido: c / a + c.• Precisión: a / a + c.• Silencio: b / a + b.• Exhaustividad: a / a + b.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Pesos:– Wik = FTik x FIk
• El mejor índice es el de mayor frecuencia en el documento (FT) y menor frecuencia en los otros documentos (FI).
• Frecuencias de Término: FTk = FREQik
• Frecuencia inversa: FIk = 1 / TOTFREQk
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Elementos funcionales:– Elementos de exhaustividad:
• Objetivo: disminuir el silencio.• Estructuración jerárquica del tesauro.• Normalización de la indexación.
– Elementos de precisión: • Objetivo: disminuir el ruido.• Especificidad del lenguaje de indexación.• Nivel de coordinación: poca precoordinación → fácil
tesauro → mucha postcoordinación → más ruido.• Indicadores de unión y de función: poco usados.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Segunda parte: recuperación de la información.
– Técnicas relativas al acceso y posterior selección de información almacenada en un sistema informático.
– Dos componentes:• Interfaz de usuario: traducir la demanda del usuario a una
ecuación en lenguaje formal (lenguaje de interrogación).• Función de recuperación: comparación de esta ecuación
con la información almacenada para proporcionar la respuesta adecuada.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Recuperación de la información.– Interfaz de usuario:
• Diferentes posibilidades:– Mediante menús o ventanas.– Mediante instrucciones o comandos.– Mediante Lenguaje Natural:
» Estado-ASK: el usuario desconoce la respuesta.» NLQ: petición en lenguaje natural.» QNF: petición en lenguaje normalizad.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Gestión documental
• Recuperación de la información.– Función de recuperación:
• Modelos de operadores:– Operadores boléanos: AND, OR, etc.
» CNF: Forma Normal Conjuntiva (AND).» DNF: Forma Normal Disyuntiva (OR).» Modelos booleanos con pesos.
– Operadores de intervalo: =, >, <, etc.– Operadores de proximidad: INFORMATICA D3
DOCUMENTACION.– Operadores de cualificación: (INFORMATICA D3
DOCUMENTACION) EN TITULO.– Operadores de encadenamiento: encadenando búsquedas
precedentes.
Universidad de DeustoFacultad de Ingenieria
Diploma de Especialización en Documentación y Gestión del Patrimonio HistóricoUniversidad de Deusto. . . . . . . . .
Referencias
• DA COSTA CARBALLO, C. Introducción a la Informática Documental. Fundamentos Teóricos, Prácticos y Jurídicos. Agapea, 1995.
• GARCÍA MELERO, L. y GARCÍA CAMARERO, E.: Automatización de bibliotecas. Arco-Libros, 1999.
• KOWALSKI, G.: Information Retrieval Systems. Teory and Implementation. Kluwer Academic Press, 1997.
• MIGUEL CASTAÑO, A.d.y PIATTINI VELTHUIS, M.: Fundamentos y modelos de bases de datos. Madrid: RAMA, 1999.
• PEÑA, R., BAEZA-YATES,R. y RODRÍGUEZ, J.V.: Gestión digital de la Información. De bits a bibliotecas digitales y la web. Madrid: RA-MA, 2002.