s.m. iacus - social media, big data & statistics

22
Social Media, Big Data & Sta1s1cs Voices from the Blogs we capture the sentiment of the net Stefano Maria Iacus | Università degli Studi di Milano & Voices from the Blogs

Upload: istituto-nazionale-di-statistica

Post on 29-Jun-2015

37.700 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: S.M. Iacus - Social Media, Big Data & Statistics

Social  Media,  Big  Data  &  Sta1s1cs

Voices from the Blogswe capture the sentiment of the net

Stefano Maria Iacus | Università degli Studi di Milano & Voices from the Blogs

Page 2: S.M. Iacus - Social Media, Big Data & Statistics

Cosa  si  intende  per  Big  Data?

35% della popolazione mondiale sul Web (raddoppiata tra il 2006 e il 2011)il 72% di questi scrive e partecipa sui social media500 milioni di tweet al giorno in tutto il mondo e oltre 500 milioni di account15% della popolazione USA su Twitter, l’8% ogni giorno10 milioni di tweet durante le ore dei dibattiti presidenziali Obama-Romney

!!!

Page 3: S.M. Iacus - Social Media, Big Data & Statistics

Cosa  si  intende  per  Big  Data  in  Italia?

75% della popolazione italiana usa Internet40% della popolazione italiana è attivo sui social media20% parla di temi politici e sociali in rete19 milioni di italiani accendono ad internet in mobilità mobile400 mila tweet nella prima serata di Sanremo4.7 milioni di account Twitter attivi settimanalmente

Quali  sfide  per  la  Sta1s1ca?

Page 4: S.M. Iacus - Social Media, Big Data & Statistics

Cara<eris1che  dell’analisi  dei  Social  Media

dati geo-localizzati (Twitter)analisi retrospettive (catturare l’opinione nel momento in cui viene espressa)analisi real-time (monitoraggio continuo dei temi di interesse)velocità di esecuzione di analisi raccolta di opinioni non sollecitateanalisi censuarie: si analizza l’intera popolazione di tweet espressi su un particolare tema

popolazione sui social media non rappresentativa di quella demograficanon si possono fare domande, si può solo ascoltarese un tema non interessa i social, non si può indagareanalisi testuale, il linguaggio cambia a seconda dei temi

very Big data

Page 5: S.M. Iacus - Social Media, Big Data & Statistics

Ogge<o  dell’analisi:  distribuzione  aggregata

Ciò  che  interessa  non  è  la  classificazione  dell’opinione  in  un  singolo  testo  ma  la  distribuzione  aggregata  delle  opinioni

Non  ci  interessa  l’ago  nel  pagliaio...

...ma  cara2erizzare  l’intero  pagliaio!

Page 6: S.M. Iacus - Social Media, Big Data & Statistics

Problema  sta1s1co:  errore  di  classificazione

Anche  il  miglior  classificatore  sta1s1co  a<ribuisce  una  risposta  ad  un  testo  non  le<o  con  una  certa  probabilità  <  1

L’errore  di  missclassifica4on  sia  amplifica  quando  si  aggregano  le  s1me  anziché  ridursi

Risultato:  s1me  fortemente  distorte  e  con  alta  variabilità

Page 7: S.M. Iacus - Social Media, Big Data & Statistics

Come  funziona  in  pra1ca?

Post Cat Word:nuclear

Word:fear

Word:radiation

Word:pollution

Word:waste

Word:economic

post#1 a favore 1 0 0 0 0 1post#2 NA 1 0 0 0 1 0post#3 contro 1 1 1 1 1 0post#4 contro 1 1 1 1 1 0post#5 a favore 1 0 1 0 0 1

... ... ... ... ... ... ... ...post#1000 NA 1 0 0 0 0 1

train set

train set

train set

test set

test set

train set

Codificamanuale

Stemming

Page 8: S.M. Iacus - Social Media, Big Data & Statistics

Come  funziona  in  pra1ca?

test set

Post Di Word:nuclear

Word:fear

Word:radiation

Word:pollution

Word:waste

Word:economic

post#1 a favore 1 0 0 0 0 1

Di = “a favore” Si = (1,0,0,0,0,1)

Goal: stima della distribuzione P(D)

0

0,1

0,2

0,3

0,4

a favore ok, ma ho paura contrario contrario, ma economico

10%

40%

20%

30%

Page 9: S.M. Iacus - Social Media, Big Data & Statistics

Come  funziona  in  pra1ca?

test set

Approccio  sta1s1co  classico

P(D) = P(D|S) * P(S) train & test train+testgoal

modello  sta1s1co  classicoproduce  missclassifica1on

distribuzione  degli  stem

S1me  distortealta  variabilità

Page 10: S.M. Iacus - Social Media, Big Data & Statistics

Come  funziona  in  pra1ca?

test set

Approccio  sta1s1co  innova1vo  (King&Hopkins,  2010)

P(S) = P(S|D) * P(D) traintrain+test goal

P(S|D) * P(S) = P(D) -1

ed eccoil goal

Semplice  quanto  inver1re  una  matriceNessun  problema  di  Big  Data

Page 11: S.M. Iacus - Social Media, Big Data & Statistics

Accorgimen1  necessari

U1lizzare  tecniche  supervised,  cioè  con  codificatori  umani  NO:  dizionari  ontologiciNO:  pure  machine  learning Why human and not

ontological dictionaries?

๏ “What a nice rip-off” (“che bella fregatura”)

50% positive & 50% negative=

misclassification

100% negative=

no misclassification

Semantic rules do work ? ๏ Language evolves continuously: one cannot code all

possible semantic rules unless reading the posts !!!

“horses andbayonets” ????

ironic ! Guardare  ai  da1

Guardare  nei  da1

Page 12: S.M. Iacus - Social Media, Big Data & Statistics

Soluzione:  l’approccio  di  Voices  from  the  Blogs

Screening(di cosa parlano i testi?)

CrawlerFase dicodifica

Stemming

AnalisiStatistica

Page 13: S.M. Iacus - Social Media, Big Data & Statistics

Esempio1:  Monitoraggio  con1nuo  di  Twi<er-­‐Felicità

49  Milioni  di  tweet  in  12  mesi,  media  di  130mila  a  secmana

Page 14: S.M. Iacus - Social Media, Big Data & Statistics

Esempio2:  Analisi  retrospecva  geolocalizzata

5,8  Milioni  di  tweet  in  12  mesi  su  5  paesi  in  5  lingue

20

30

40

50

Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12

% d

i fav

orev

oli

Monti Merkel Hollande Rajoy Cameron

Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12

Popularity

Spain on Mariano Rajoy

time frameoctober 2011

september 2012

Germany on Angela Merkel

Popularity: 34%123.887 posts - Males: 81%

Italy on Mario Monti

Popularity: 44%430.945 posts - Males: 59% Popularity: 36%

2.018.509 posts - Males: 69%

UK on David Cameron

Popularity: 32%1.539.921 posts - Males: 72%

France onFrançois Hollande

Popularity: 27%1.710.111 posts - Males: 65%

5.823.373total

tweetsanalyzed

5 countries5 different languages

Periodo  o<.  2011-­‐o<.2012

100

10000

Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12

num

ero

di p

ost i

n sc

ala

loga

ritm

ica

Monti Merkel Hollande Rajoy Cameron

Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12

Numb

er of

twee

ts - lo

g sca

le

Page 15: S.M. Iacus - Social Media, Big Data & Statistics

Esempio3:  Analisi  retrospecva  geolocalizzata

2,4  Milioni  di  tweet,  Gen-­‐Ago  2012,  analisi  su  Europa  a  15

Europe

Euro Sentiment2.413.971 Tweet

15 European Countries January - August 2012

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0.50

0.55

47%

40%45%

15%16%23%

41%

37%

54%

44%

21% 33%

51%

36%

10%

20%

30%

40%

50%

60%

10% 20% 30% 40% 50% 60%

Eurobarometer (source: European Commission)

Euro

Senti

ment

on Tw

itter

Eurobarometro

Belgium

NetherlandsFrancePortugal

Spain

DenmarkItaly

Greece

Sweden

UKIreland

Finland

Austria Luxemburg

Germany

Correlation = 0.55

Euroscetticismo

Page 16: S.M. Iacus - Social Media, Big Data & Statistics

Esempio4:  Previsioni  ele<orali  presidenziali  USA

50  Milioni  di  tweet  in  40  gg

Follower:  Obama  16,8  M                                    Romney  0,6  M

Distanza  guardando  alle  intenzioni  di  voto  molto  minore

Da1  simili  a  quelli  dei  sondaggi  tradizionali  ma  in  tempo  reale

La  rete  amplifica  i  cambiamen1  di  opinione  e  an1cipa  le  espressioni  di  voto

35,0%

40,0%

45,0%

50,0%

28/9 30/9 2/10 4/10 6/10 8/10 10/10 12/10 14/10 16/10 18/10 20/10 22/10 24/10 26/10 28/10 30/10 1/11 3/11 5/11

Obama Romney

Firstdebate

Seconddebate

Thirddebate

#Mourdock

#Benghazi

(“Other” & “Don’t know” omitted)

#Sandy

#revenge/love

#who cares of “47%”

#US2012 Presidential Elections

Page 17: S.M. Iacus - Social Media, Big Data & Statistics

Esempio4:  Previsioni  ele<orali  presidenziali  USA

Previsione: Obama +3,5%, Effettivo +2,8%

5 Nov, 24h ora italianaPorta a Porta, Rai1

Sbagliati solo 2 stati, solo Nate Silver ci ha battuto!

Page 18: S.M. Iacus - Social Media, Big Data & Statistics

Esempio5:  Fes1val  di  Sanremo  2013

Indovina1  2  vincitori  del  Fes1val

Page 19: S.M. Iacus - Social Media, Big Data & Statistics

Esempio6:  Popolarità  dei  leader

Page 20: S.M. Iacus - Social Media, Big Data & Statistics

Esempio7:  Elezioni  Poli1che  2013

E’  possibile  prevedere  la  propensione  al  voto  ascoltando  Twi<er?

Sì,  ma...

Page 21: S.M. Iacus - Social Media, Big Data & Statistics

Esempio7:  Elezioni  Poli1che  2013

E’  possibile  prevedere  la  propensione  al  voto  ascoltando  Twi<er?

Sì,  ma...    AGCOM  blocca  lo  speciale  Elezioni  del  Corriere  della  Sera  che  mostra  l’analisi  di  VfB  poiché  il  dato  è  ritenuto  equiparabile  a  sondaggio  di  opinione

Page 22: S.M. Iacus - Social Media, Big Data & Statistics

Conclusioni

La  società  è  cambiata  e  si  organizza  in  re1  virtuali  e  fisiche

Siamo  sempre  più  connessi  in  rete  e  interconnessi

CATI  &  CAWI  sono  ormai  strumen1  supera1

I  campioni  “rappresenta1vi”  non  sono  più  tali  (tassi  di  risposta  a<orno  al  10%  e  ricampionamen1  anche  tramite  randomizzazione  dei  numeri  di  cellulare!!!)

L’analisi  dei  da1  provenien1  dai  social  network  è  oggi  uno  strumento  indispensabile  (ma  non  esclusivo)  per  la  conoscenza  ma  servono  tecniche  sta1s1che  adeguate