Download - Maria esteva
Maria Esteva, Texas Advanced Computing Center, University of Texas at Austin
PANEL
Cyberinfrastructura para la administración de datos de
investigación
Maria Esteva, Texas Advanced Computing Center, University of Texas at Austin
2EieMayo 2013, Cali, Colombia
Datos & investigación
• Ciencia intensiva de datos – Teoría, experimentos, y
simulaciones en el contexto de datos masivos
• Datos sustentables– Documentados, estables,
auténticos
• Datos para diseminar conocimientos, citar, y reutilizar
Formación de colecciones• Proyectos de investigación complejos y en evolución
constante • Tecnología y conocimientos cambian continuamente• Fondos para investigación inestables• Las colecciones son mas vulnerables durante el
proceso de investigación• Arquitectura y funcionalidades de una colección
pueden involucrar a varias tecnologías
Perspectivas• La curación de datos tiene como tema central
el problema que trata la investigación• Enfoque desde las ciencias de la información• Enfoque desde la infraestructura
– Considerar la infraestructura y servicios desde la planificación del proyecto de investigación y a través del ciclo de vida del proyecto
Infraestructura de datos @ TACC
• Equipo multidisciplinario• Corral• 6 Petabits de disco en línea • Sistema de archivo paralelo
Lustre • Transferencia de datos 1 -
10 GB/seg• Acceso Web• Flexibilidad de
configuración• Librerías de código abierto• 24/7 seguridad y
mantenimiento de los sistemas
Bases de datos
• Bases de datos relacionales: MySQL, PostgreSQL, SQL Server – Pecan Street Project
• ARK y Specify• GIS (Sistema de
información geográfica)– FASTI– Instituto de Arqueología
Clásica
Flexibilidad
• Centro para la Investigación del Espacio (CSR)– Almacenamiento de datos provenientes de satélites,
radares y sensores– Terremoto de Haití – 2010– El repositorio de datos de CSR fue transformado en un
repositorio web para compartir datos con los rescatistas.
Multiples posibilidades• Gestión de datos durante el proyecto de investigación • Almacenamiento temporario de datos para procesos
computacionales • Acceso a colecciones de investigación • Archivo oscuro• El investigador es el curador• El equipo de TACC ofrece e implementa soluciones técnicas al
proceso de curación y colabora en la organización, estandarización y acceso de datos
Implementación de colecciones
• TACC administra el acceso a los sistemas, instala los servidores/bases de datos/librerías y dependencias.
• Los usuarios tienen acceso a su código
• Triage de colecciones– ICA, 5 petabytes de
datos desorganizados
• Usuarios de distintos dominios
• Usuarios con distintos niveles de conocimientos técnicos
Flujos de trabajo
– Diferentes flujos de datos
– Transición sin fisuras entre sistemas de almacenamiento y de análisis.
Metadatos e integración
Acceso
• Acceso web abierto al publico
• Acceso cerrado durante el periodo de embargo
• WebDav• Protegido por
contraseña• Acceso restringido al
equipo de investigación• Desde los sistemas de
visualización de TACC
Preservación
• iRODS: bróker de archivos distribuidos
• Replica de archivos en Ranch, un archivo de cinta y replicación geográfica
• Seguridad y mantenimiento
• Chequeo de autenticidad de los datos
• Captura automática de metadatos técnicos
• Perspectiva sobre lo que
Modelo administrativo
• 5 TB de almacenamiento gratuito a investigadores de la Universidad de Texas
• Estructura de costos anual, basada en honorarios del staff– Consultoría, curación de datos, bases de
datos y aplicaciones web
• Funciona como archivo oscuro para costear hardware
• Participamos en subsidios de investigación
Data@TACC
• Weijia Xu• Christopher Jordan• David Walling• Tomislav Urban• Siva Kulaskerian