supercomputadoras division fundamental entre estilos de supercomputadoras: 1100 d-core powerpc 4g...
TRANSCRIPT
Supercomputadoras
Division fundamental entre estilos de supercomputadoras:
1100 D-Core PowerPC 4G p/node
5120 procs (5% del uso es pago)
16 Pentium 3 (o similar) 4G total
Ejemplos de clusters (1)
Columbia / Nasa Arquitectura híbrida (SGI) 10,240 Intel ItaniumRMk 2 processors 20 clusters de 512 procs Cada cluster comparte memoria Entre los clusters conexión infiniband Storage Online: 440 terabytes of Fibre Channel
RAID storage Archive storage capacity: 10 petabytes
Ejemplos de clusters (2)
Cray Opteron Cluster / Nasa 64 nodos (dual processor) Arquitectura Master/Slave 1 head-node/front-end 63 compute-nodes 130 GB total memory Myrinet Storage: 2300Gb SuSE LinuxRMk
Ejemplos de clusters (3)
Jaguar / Nasa Cray XT - 11,708 procesadores en total 2.6Ghz Opteron dual core División entre service node y compute node 130 GB total memory Myrinet Storage: 600 TB c/ Lustre file system UNICOS/lc (Linux en service nodes y Catamount
microkernel on the compute nodes)
Interconexión (1)
Basados en cobre Hub (viejito, problemas con colisiones) Switch 10 Fast ethernet (100Mbps) Gigabit ethernet (1Gbps, ojo con PCI) 10G (IEEE 802.3ae, solo fibra y full
duplex)
Interconexión (2)
Quadrics Latencia de 3us (según ellos) 1Gbs de ancho de banda pico, 900Mbs sostenido. Funciona parecido con todas las plataformas de
procesadores Tiene versiones propietarias optimizadas de MPI Los módulos para Linux precompilados solo estan
Suse y Redhat (algo que se repite en muchos otros lugares).
Interconexión (3)
Mirynet Es un ANSI(American National Standards Institute)
Standard -- ANSI/VITA 26-1998. The link and routing specifications are public,
published, and open. Myri-10G es compatible con 10G Ethernet Myrinet-2000 es el producto específico de clusters 2Gbs - Conectores de fibra. 2.6µs–3.2µs de latencia. TCP: 1.98 Gbits/s (one-port NICs) MPI implementado sobre mensajería propietaria
Interconexión (4)
Infiniband Surgió como alternativa a las anteriores propietarias. Consorcio de empresas que definieron un standard:
Interconexión (5)
Infiniband Baja latencia (entre 1.3 y 2.6 usecs, según producto). Posibilidad de redundancia Alta escalabilidad HCA: host channel adapter (c/procesador) TCA: target channel adapter (c/periférico) In-Band: A term assigned to administration activities
traversing the IB connectivity only. Out-of-Band: A term assigned to administration activities
extending outside the IB connectivity (Ethernet or I2C). No hay un standard en software, cada empresa ofrece su
stack o su implementación de MPI. La administración intenta ser más standard, pero no es
nada trivial.
HVAC: Heating, Ventilating and Air Conditioning
Alimentación Eléctrica Si la probabilidad de falla de un nodo es 0.01
y tenemos 100 nodos… Cual es la prob de falla de alguno en el día?
Si en la probabilidad de falla, agregamos algún componente de software…
NECESITAMOS AL MENOS UN ESCLAVO QUE ATIENDA AL BICHO
Detallecitos…
Software para cluster
A manopla… con pocos nodos, solo hace falta configurar un NFS, un NIS y hacer el intercambio de passwords.
Cuando la cantidad de nodos empieza a ser considerable, se necesita más soporte de parte del SO para que el Administrador pueda ir al baño de vez en cuando.
Funciones necesarias: Sistemas de archivos de cluster (NFS tiene problemas de
escalabilidad) Sistema de colas para políticas de uso de recursos Monitoreo de funcionamiento y reporte de uso. Accounting para poder cobrar tiempo de uso o para reportar
sobre proyectos llevándose adelante. Soporte para actualización de software de manera placentera.
Software para cluster (2)
Beowulf: Es una receta para tener un cluster de tipo “standard” Se basa en commodity hardware Software open source
Oscar Open Source Cluster Application Resources Se basa en distribuciones conocidas (Fedora, Red hat
enterprise, Mandriva, Suse, Scientific, CentOS) Sin demasiada experiencia se instala un cluster y se lo puede
mantener razonablemente bien Rocks
Similar a Oscar Tiene soporte para Grid. Se basa en CentOS Hay “rolls” para muchos targets de clusters
Software para cluster (3)
Microsoft: Hace un tiempo decidió entrar en el mercado científico. No solo es por el potencial mercado de licencias, sino por
una cuestión de marketing Desarrolló un producto similar a la contraparte OS
(Microsoft Compute Cluster Pack, o algo así) Se basa en el Microsoft 2003 Server Tiene una interface MUY linda Sufrimos muchos problemas para instalar y para
debugear problemas en el uso (los mismos problemas que tiene un administrador MS solo que más críticos).
Está usando toda la maquinaría de MS para imponer de a poco su producto.