mitä on big data, aamiaistilaisuus 13.03.2012

35
Mitä on Big Data? 13.03.2012 Immo Salo Eufris

Upload: eufris

Post on 05-Dec-2014

1.179 views

Category:

Technology


2 download

DESCRIPTION

13.03.2012 pidetty aamiaistilaisuus Big Datasta.

TRANSCRIPT

Page 1: Mitä on big data, Aamiaistilaisuus 13.03.2012

Mitä  on  Big  Data?13.03.2012Immo  SaloEufris

Page 2: Mitä on big data, Aamiaistilaisuus 13.03.2012

Big  Data:  yleisesi>ely

Page 3: Mitä on big data, Aamiaistilaisuus 13.03.2012

Gartnerin  top  10  strategista  teknologiaa1. Media  Tablets  and  Beyond

2. Mobile-­‐Centric  Applica9ons  and  Interfaces

3. Contextual  and  Social  User  Experience

4. Internet  of  Things

5. App  Stores  and  Marketplaces

6. Next-­‐Genera9on  Analy9cs

7. Big  Data

8. In-­‐Memory  Compu9ng

9. Extreme  Low-­‐Energy  Servers

10.Cloud  Compu9ng

Page 4: Mitä on big data, Aamiaistilaisuus 13.03.2012

Big  Data  ja  Cloud  CompuEng

• Vuodet  2009-­‐2011  olivat  ak2ivista  Cloud  Compu2ng-­‐markkinoin2a

• Vuonna  2012  fokus  on  siirtynyt  Big  Dataan

• Osa  toimijoista  on  samoja  ja  osa  tarjoomista  en2siä  uudelleen  nimeAyinä

Cloud Envy Big Data Envy

Page 5: Mitä on big data, Aamiaistilaisuus 13.03.2012

Pari  yleistä  kuvaa

2012 2015 2020

Page 6: Mitä on big data, Aamiaistilaisuus 13.03.2012

Mitä  on  Big  Data?

• Big  Data  on  kaAokäsite  joukolle  teknologioita

Kuvat: riak.com, aws.amazon.com, appengine.google.com, oracle.com, apache.org (Cassandra, Hadoop)

Page 7: Mitä on big data, Aamiaistilaisuus 13.03.2012

Mitä  on  Big  Data?

• Se  on  markkinoin2termi,  aivan  kuten  Cloud  Compu2ng

Kuvat: rackspace.com, salesforce.com, appengine.google.com, aws.amazon.com, windowsazure.com

Page 8: Mitä on big data, Aamiaistilaisuus 13.03.2012

Big  Data-­‐määritelmiä

"Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis"IDC

"Big Data is a technlogy that helps extract value from the digital universe.”IDC

"Techniques and technologies that make handling data at extreme scale economical."Forrester

Page 9: Mitä on big data, Aamiaistilaisuus 13.03.2012

Miksi  Big  Datan  pitäisi  kiinnostaa?

• McKinseyn  ennustus:• $250  mrd/vuosi  säästöpoten5aali  EU-­‐alueen  julkisella  sektorilla

• $600  mrd/vuosi  poten5aalinen  taloudellinen  lisäarvopoten5aali  paikka5etojen  hyödyntämisessä

• Tiedon  määrä  kasvaa  vauhdilla• Datan  määrä  50-­‐kertaistuu(!)  seuraavan  kymmenen  vuoden  aikana  maailmassa

Page 10: Mitä on big data, Aamiaistilaisuus 13.03.2012

Mistä  dataa  oikein  tulee?

Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com, apple.com, nokia.com

Page 11: Mitä on big data, Aamiaistilaisuus 13.03.2012

Osaajapula  uhkaa

“There will be a shortage of talent necessary for organizations to take advantage of big data. By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills as well as 1.5 million managers and analysts with the know-how to use the analysis of big data to make effective decisions.”

Lähde: McKinsey

Page 12: Mitä on big data, Aamiaistilaisuus 13.03.2012

Big  Data:  viitekehyksiä

Page 13: Mitä on big data, Aamiaistilaisuus 13.03.2012

Big  Datan  ABC

• Analy2cs  (analy5ikka)• Data  pitää  jalostaa  informaa2oksi,  2edoksi  ja  ymmärrykseksi.  Visualisoin2,  

konkre2soin2,  ennusteiden  tekeminen,  tunnuslukujen  laskeminen,  korrelaa2oiden  hakeminen...

• Bandwidth  (5etoliikenne)• Suurten  2etomäärien  liikuAelu  on  yhä  useammin  pullonkaula.  Lähtökohtainen  päätös  

siitä,  missä  2etoja  säilytetään  ja  missä  niitä  prosessoidaan  on  yhtä  merkiAävä  kuin  käytetyt  teknologiat  ja  analyysin  hyödyntämiskohteet.

• Content  (sisältö)• Edelleen  suuri  osa  2edosta  säilytetään,  muAa  jätetään  käyAämäAä  tai  vielä  

pahempaa:  heitetään  hukkaan  ilman  ensimmäistäkään  analyysia.

Lähde: Netapp.com

Page 14: Mitä on big data, Aamiaistilaisuus 13.03.2012

Big  Datan  kolme  V-­‐kirjainta  (3V)

• Variety  (vaihtelevuus)• Dataa  on  strukturoitua  ja  strukturoimatonta.  Molempia  pitää  pystyä  hyödyntämään.

• Velocity  (vauh5)• Datan  määrä  kasvaa  vauhdilla  ja  sitä  tulee  lukemaAomista  lähteistä.  Lähes  

reaaliaikaisen  analyysi  tavoiAeena.

• Volume  (voluumi)

• Data  pitää  pystyä  analysoimaan  ja  säilyAämään  myöhempää  käyAöä  varten.

Lähde: Netapp.com

Page 15: Mitä on big data, Aamiaistilaisuus 13.03.2012

Kaksi  V-­‐kirjainta  lisää  (3V+2V  =  5V)

• Viscosity  (viskositeeD)

• MiAaa  sitä,  miten  nopeas2  datasta  saadaan  jalosteAua  jotain  liiketoiminnalle  hyödyllistä.

• Virality  (viraalisuus)• Kuvaa  2edon  siirtymisen  nopeuAa  ihmiseltä  toiselle  (viraalisuuAa)  organisaa2on  sisällä  

tai  sen  toimintaverkostossa.

Lähde: Netapp.com

Page 16: Mitä on big data, Aamiaistilaisuus 13.03.2012

Big  Data:  käsi>eitä

Page 17: Mitä on big data, Aamiaistilaisuus 13.03.2012

Hadoop

• Avoimen  lähdekoodin  Apache-­‐projek2,  joka  on  ehkä  tunnetuin  yksiAäinen  tuotenimi  Big  Data-­‐tarjoomista

• TarkoiteAu  suurten  datamäärien  hajauteAuun  prosessoin2in

• Asennetaan  palvelinklusteriin,  joka  on  vikasietoinen  eli  yksiAäisen  palvelimen  vikaantuminen  ei  haiAaa

• Kolme  alaprojek2a1. Hadoop  Common

2. Hadoop  Distributed  Filesystem

3. Hadoop  MapReduce

Page 18: Mitä on big data, Aamiaistilaisuus 13.03.2012

Esimerkki:  Facebook

• Facebook  on  yksi  suurista  Hadoopin  käyAäjistä.  KäyAäjien  vies2en  osalta  HBaseen  yritys  siirtyi  täysin  kesällä  2011.  Luvut  ovat  massiivisia:• 8  miljardia(!)  vies9ä  päivässä

• yli  75  miljardia  luku-­‐/kirjoitustapahtumaa  päivässä

• ruuhka-­‐aikoina  1.5  miljoonaa  luku-­‐/kirjoitustapahtumaa  sekunnissa(!)

• 2  petatavua  online  dataa  (ja  6  petatavua  varmuuskopioita)

• datan  määrä  kasvaa  250  teratavua  kuukaudessa

Page 19: Mitä on big data, Aamiaistilaisuus 13.03.2012

MapReduce

• Googlen  vuonna  2004  esiAelemä  laskentamalli

Map

2

2

2

1

2

3

Reduce 3

4

5

Page 20: Mitä on big data, Aamiaistilaisuus 13.03.2012

NoSQL

• Määritelmä  1:

“Next Generation Databases mostly addressing some of the points: being non-relational, distributed, open-source and horizontally scalable. The original intention has been modern web-scale databases. The movement began early 2009 and is growing rapidly. Often more characteristics apply as: schema-free, easy replication support, simple API, eventually consistent, a huge data amount, and more.”

Nosql-database.org

Page 21: Mitä on big data, Aamiaistilaisuus 13.03.2012

NoSQL

• Määritelmä  2:

“In computing, NoSQL (sometimes expanded to "not only SQL") is a broad class of database management systems that differ from the classic model of the relational database management system (RDBMS) in some significant ways. These data stores may not require fixed table schemas, usually avoid join operations, and typically scale horizontally.”

Wikipedia.org

Page 22: Mitä on big data, Aamiaistilaisuus 13.03.2012

Big  Data  tuo>eita

Page 23: Mitä on big data, Aamiaistilaisuus 13.03.2012

Oracle  Big  Data  Appliance

• Hinta  n.  500  000  $

18 Oracle Sun Servers• 864 GB main memory;• 216 CPU cores;• 648 TB of raw disk storage;• 40 Gb/s InfiniBand connectivity between nodes and engineered systems;• 10 Gb/s Ethernet connectivity.

Page 24: Mitä on big data, Aamiaistilaisuus 13.03.2012

Autonomy  IDOL  10

"For far too long, organizations have confined structured data to relational databases and unstructured data to simplistic keyword matching technologies..."

“IDOL 10 brings these worlds together, allowing organizations to automatically process, understand, and act on 100 percent of their data, in real-time. The results will be dramatic, as businesses can develop entirely new applications that explore the richness and color of Human Information that live in unstructured, semi-structured, and structured forms.”

Hinta?

Page 25: Mitä on big data, Aamiaistilaisuus 13.03.2012

IBM  InfoSphere  BigInsights• “A core component of IBM’s platform for big data, IBM InfoSphere BigInsights is

inspired by, and is compatible with, open source Apache Hadoop and used to store, manage, and gain insights from Internet-scale data at rest...”

• “InfoSphere BigInsights combines IBM’s unique knowledge of SQL-based big data approaches with Apache Hadoop-based workloads.”

• Lisenssihinta n. 24 000 € / vuosi

• Ominaisuudet:

http://www-01.ibm.com/software/data/infosphere/biginsights/features.html

Page 26: Mitä on big data, Aamiaistilaisuus 13.03.2012

SAP  HANA

“Why wait for old-fashioned data analysis? Tap into huge volumes of detailed information as events unfold with the SAP HANA appliance - our new flexible, multipurpose, game-changing in-memory computing software.”

Suomessa Nordea otti käyttöönsä HANA:n ja joidenkin analyysien suorittamisaika putosi 2-3 tunnista 4 minuuttiin.Lähde: Tietoviikko.fi

Page 27: Mitä on big data, Aamiaistilaisuus 13.03.2012

Big  Data  pilvipalveluna

Page 28: Mitä on big data, Aamiaistilaisuus 13.03.2012

MapReduce  ja  NoSQL  pilvessä

S3EC2

+ DynamoDB

Page 29: Mitä on big data, Aamiaistilaisuus 13.03.2012

Amazon  ElasEc  MapReduce

• Hadoop-­‐klusteri  palveluna

• Ei  sitoutumista,  ei  kiinteitä  kustannuksia

Page 30: Mitä on big data, Aamiaistilaisuus 13.03.2012

Amazon  ElasEc  MapReduce  hinnat

Käyttöönotto 0 €, ei sitoumuksia.

Page 31: Mitä on big data, Aamiaistilaisuus 13.03.2012

Amazon  DynamicDB

• NoSQL-­‐2etokanta  palveluna

• Ei  sitoutumista,  ei  kiinteitä  kustannuksia

• Saatavilla  EU-­‐alueella  maaliskuusta  2012  alkaen

Page 32: Mitä on big data, Aamiaistilaisuus 13.03.2012

Amazon  DynamoDB  hinnat

Käyttöönotto 0 €, ei sitoumuksia.

Page 33: Mitä on big data, Aamiaistilaisuus 13.03.2012

Google  BigQuery  ja  Cloud  SQL

• Google  BigQuery• OLAP                      Online  Analy5cal  Processing

• Tällä  hetkellä  (maaliskuu  2012)  vain  beta-­‐testaajille

• Google  Cloud  SQL• Hosted  MySQL

• OLTP                      Online  Transac5onal  Processing

• Toimii  ainoastaan  App  Engine-­‐sovellusten  kanssa

Page 34: Mitä on big data, Aamiaistilaisuus 13.03.2012

Google  BigQuery  esimerkkiAineisto: Wikipedia

Kysymys: “Montako ‘th’ kirjainparin sisältävää otsikkoa löytyy?”

Aika: 7,6 sekuntia

Page 35: Mitä on big data, Aamiaistilaisuus 13.03.2012

KIITOS!