the analysis of data from small volumes and simple algorithms to large data and complex systems —...

Post on 25-Jan-2017

337 Views

Category:

Technology

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Анализ данных: от малых объемов и простых алгоритмов до больших данных и сложных систем

Дмитрий Сподарец

Обо мне

• Преподаватель ОНПУ кафедры Системного программного обеспечения

• Основатель FlyElephant и GeeksLab.

FlyElephantPlatform for scientific computing and data management

Данные

Алгоритмы

Инфраструктура

Данные Алгоритмы

Инфраструктура

Много данных - это сколько?

Данные

~30 PB / день

~10 PB / год

LSST

~15 PB / год

Инфраструктура

Данные Алгоритмы

Инфраструктура

Сценарии

Простые данные и простые алгоритмы

Много данных и сложные алгоритмы

Большие данные

Комбинирование

Простые данные и простые алгоритмыАлгоритмы

- Линейный поиск - Перемножение матриц- Поиска минимального пути- ….

Данные Инфраструктура

Библиотеки и инструментыEigen

eigen.tuxfamily.org

intel-mklsoftware.intel.com/en-us/intel-mkl

SciPywww.scipy.org

ND4Jnd4j.org

MATLABwww.mathworks.com www.scilab.org

Scilab

Juliajulialang.orgOctave

octave.org

Много данных и сложные алгоритмыАлгоритмы

- Data Mining- Machine Learning- Computer Vision- …

Данные Инфраструктура

MPI, OpenMP…

Message Passing Interface (MPI)

OpenMP

CUDA

Intel Xeon Phi

Большие данные

Данные Инфраструктура

NoSQL, MapReduce, Hadoop, Spark…

NoSQL• Хранилище «ключ-значение»

Berkeley DB, MemcacheDB, Redis, Amazon DynamoDB.

• Хранилище семейств колонокHBase, Apache Cassandra, Apache Accumulo, Hypertable, SimpleDB (amazon.com)…

• Документо-ориентированная СУБД MongoDB, CouchDB, Couchbase, MarkLogic, eXist..

• Базы данных на основе графов Neo4j, OrientDB, AllegroGraph, InfiniteGraph…

MapReduceМодель распределённых вычислений

• Map-шаг - предварительная обработка.

• Reduce-шаг - сверка результатов и формирование решения задачи.

Hadoop и Spark

https://aws.amazon.com/ru/elasticmapreduce/

http://azure.microsoft.com/ru-ru/services/hdinsight/

Комбинирование

Анализ данных при помощи FlyElephant

Уже готово

C++OpenMP

Анализ данных при помощи FlyElephant

Что ждать в ближайшем релизе

MPI

R Python

Java

http://flyelephant.net/

http://flyelephant.net/beta/

Q&A

Дмитрий Сподарецd.spodarets@flyelephant.net

top related