فناوریهای حوزهی کلان داده - introduction to big data technologies

39
نده ده ارائه: حسان عسگریان ا9/16/2016 1

Upload: ehsan-asgarian

Post on 16-Jan-2017

83 views

Category:

Data & Analytics


5 download

TRANSCRIPT

احسان عسگریان: ارائه دهنده

9/16/2016

1

9/16/20162

9/16/20163From the dawn of civilization until

2003, humankind generated five

exabytes of data. Now we produce

five exabytes every two days…and

the pace is accelerating.

Eric Schmidt,

Executive Chairman, Google

9/16/20164

9/16/20165

9/16/20166

The ‘Datafication’

of our World;

• Activities

• Conversations

• Words

• Voice

• Social Media

• Browser logs

• Photos

• Videos

• Sensors

• Etc.

Volume

Variety

Velocity

Analysing

Big Data:

• Text analytics

• Sentiment analysis

• Face recognition

• Voice analytics

• Movement analytics

• Etc.

Value

9/16/20167

9/16/20168

9/16/2016

10

9/16/201611

9/16/201612

9/16/201613

Ambari™: A web-based tool for provisioning, managing, and monitoring Apache

Hadoop clusters which includes support for Hadoop HDFS, Hadoop MapReduce, Hive,

HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop.

Hue : a web interface for Hadoop projects, supports many of the more widely used

components of the Hadoop ecosystem. It features file browsers for HDFS and HBase

and a job browser for MapReduce/YARN.

ZooKeeper™: is a service for coordination and synchronization of distributed systems.

Mahout™: A Scalable machine learning and data mining library.

9/16/201615

9/16/201616

9/16/201617

9/16/201618

9/16/201619

9/16/201620

9/16/201621

9/16/2016

22

9/16/201623

9/16/201624

مزایای پایگاه داده هایNoSql:

oسرعت بیشتر درج اطالعات

o ترراحتمقیاس پذیر و امکان گسترش

o دادهقالب های مشخص مناسب و بهینه شده برایو داده های غیرساختیافته(مقدار-گراف، کلید)

ضعف پایگاه داده های نقاطNoSql:

o های ویژگیتمام عدم پشتیبانی آنها از ACID

o براینامناسبjoinداده

o سرعت بازیابی(select ) و ایندکس )داده های نرمالل نسبت به پایگاه داده های رابطه ای بطور قاب( شده

.مالحظه پایین تر هست

o عدم پشتیبانی ازtrigger

9/16/201625

https://en.wikipedia.org/wiki/NoSQL

http://nosql-database.org/

9/16/2016

27

9/16/201628

9/16/201629

9/16/201630

9/16/201631

9/16/201632

9/16/201633

9/16/201638

9/16/201640

9/16/2016

41

9/16/201642

9/16/201644

9/16/201645

9/16/201646

Tehran MSTT Data Warehouse (18M data per

day)

AVL6M locations a

day

BluetoothSensors

1.2M vehicles a day

SCATSlog files

2M log a day of 1400 approaches

Speed Cameras

5M vehicles a day

e-Ticket4M transactions a

day

Traffic Zone Cameras

300K vehicles a day

تولید روزانه هزاران داده الگشهرداریسیستم شهرسازی

چند میلیون دادهتولید روزانهترافیکی از منابع مختلف

ه میلیون دادصدها روزانه تولیدCDR وADSL مخابراتدر

ذخیره سازی داده ها با تکنولوژی های کالن داده مناسب:هزینه باالی ایجاد و نگهداری بستر کالن داده و کمبود متخصصین در زمینه کالن دادهبایت-نیاز به گزارش روی حجم داده های پتا تکنولوژی های انباره داده و پایگاه داده های رابطه ای از قبیلOracle وSQL Serverجوابگو نیستند (مانند متن)تنوع در انواع داده ها یا داده های غیرساختیافته برخی موارد که میتواند کاربرد داشته باشد:

تراکنش های بانکیداده های داده های کارکرد مشتریان مخابرات(CDR وADSL) (موتور جستجوی پارسی جو)داده های وب (سرورها و )داده های الگ...

پردازش داده ها با تکنولوژی های کالن داده مناسب برای: تحلیل دسته ای داده ها(Batch Processing :) داده( گیگابایت)روی حجم زیاد ... یادگیری ماشین و تحلیل جریان داده ها(Stream Real-time Processing :) مواردی که تصمیم ... )تشخیص رویداد و

(لحظه ای روی داده های که با سرعت زیاد ایجاد می شوند

9/16/201647

48 9/16/2016