فناوریهای حوزهی کلان داده - introduction to big data technologies
TRANSCRIPT
9/16/20163From the dawn of civilization until
2003, humankind generated five
exabytes of data. Now we produce
five exabytes every two days…and
the pace is accelerating.
Eric Schmidt,
Executive Chairman, Google
9/16/20166
The ‘Datafication’
of our World;
• Activities
• Conversations
• Words
• Voice
• Social Media
• Browser logs
• Photos
• Videos
• Sensors
• Etc.
Volume
Variety
Velocity
Analysing
Big Data:
• Text analytics
• Sentiment analysis
• Face recognition
• Voice analytics
• Movement analytics
• Etc.
Value
9/16/201613
Ambari™: A web-based tool for provisioning, managing, and monitoring Apache
Hadoop clusters which includes support for Hadoop HDFS, Hadoop MapReduce, Hive,
HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop.
Hue : a web interface for Hadoop projects, supports many of the more widely used
components of the Hadoop ecosystem. It features file browsers for HDFS and HBase
and a job browser for MapReduce/YARN.
ZooKeeper™: is a service for coordination and synchronization of distributed systems.
Mahout™: A Scalable machine learning and data mining library.
9/16/201624
مزایای پایگاه داده هایNoSql:
oسرعت بیشتر درج اطالعات
o ترراحتمقیاس پذیر و امکان گسترش
o دادهقالب های مشخص مناسب و بهینه شده برایو داده های غیرساختیافته(مقدار-گراف، کلید)
ضعف پایگاه داده های نقاطNoSql:
o های ویژگیتمام عدم پشتیبانی آنها از ACID
o براینامناسبjoinداده
o سرعت بازیابی(select ) و ایندکس )داده های نرمالل نسبت به پایگاه داده های رابطه ای بطور قاب( شده
.مالحظه پایین تر هست
o عدم پشتیبانی ازtrigger
9/16/201625
https://en.wikipedia.org/wiki/NoSQL
http://nosql-database.org/
9/16/201646
Tehran MSTT Data Warehouse (18M data per
day)
AVL6M locations a
day
BluetoothSensors
1.2M vehicles a day
SCATSlog files
2M log a day of 1400 approaches
Speed Cameras
5M vehicles a day
e-Ticket4M transactions a
day
Traffic Zone Cameras
300K vehicles a day
تولید روزانه هزاران داده الگشهرداریسیستم شهرسازی
چند میلیون دادهتولید روزانهترافیکی از منابع مختلف
ه میلیون دادصدها روزانه تولیدCDR وADSL مخابراتدر
ذخیره سازی داده ها با تکنولوژی های کالن داده مناسب:هزینه باالی ایجاد و نگهداری بستر کالن داده و کمبود متخصصین در زمینه کالن دادهبایت-نیاز به گزارش روی حجم داده های پتا تکنولوژی های انباره داده و پایگاه داده های رابطه ای از قبیلOracle وSQL Serverجوابگو نیستند (مانند متن)تنوع در انواع داده ها یا داده های غیرساختیافته برخی موارد که میتواند کاربرد داشته باشد:
تراکنش های بانکیداده های داده های کارکرد مشتریان مخابرات(CDR وADSL) (موتور جستجوی پارسی جو)داده های وب (سرورها و )داده های الگ...
پردازش داده ها با تکنولوژی های کالن داده مناسب برای: تحلیل دسته ای داده ها(Batch Processing :) داده( گیگابایت)روی حجم زیاد ... یادگیری ماشین و تحلیل جریان داده ها(Stream Real-time Processing :) مواردی که تصمیم ... )تشخیص رویداد و
(لحظه ای روی داده های که با سرعت زیاد ایجاد می شوند
9/16/201647