data mining & machine learning (i) -...

46
DATA MINING & MACHINE LEARNING (I) Thiago Marzag˜ ao

Upload: dangthu

Post on 10-Nov-2018

230 views

Category:

Documents


0 download

TRANSCRIPT

DATA MINING & MACHINE LEARNING (I)

Thiago Marzagao

analise de grafos

analise de grafos

I Exemplos de grafos:

I ... redes sociais (fulano e amigo de beltrano, etc)

I ... crime organizado (fulano envia dinheiro p/ beltrano, etc)

I ... processos judiciais (processo A menciona processo B, etc)

I ... licitacoes (empresa A e co-licitante da empresa B, etc)

I ... sociedades (fulano e socio de beltrano, etc)

I ... filmes (ator A contracenou com ator B, etc)

I ... relacionamentos diversos (cf. Bearman, Moody e Stovel2004)

I ... Panama Papers

analise de grafos

I Exemplos de grafos:

I ... redes sociais (fulano e amigo de beltrano, etc)

I ... crime organizado (fulano envia dinheiro p/ beltrano, etc)

I ... processos judiciais (processo A menciona processo B, etc)

I ... licitacoes (empresa A e co-licitante da empresa B, etc)

I ... sociedades (fulano e socio de beltrano, etc)

I ... filmes (ator A contracenou com ator B, etc)

I ... relacionamentos diversos (cf. Bearman, Moody e Stovel2004)

I ... Panama Papers

analise de grafos

I Exemplos de grafos:

I ... redes sociais (fulano e amigo de beltrano, etc)

I ... crime organizado (fulano envia dinheiro p/ beltrano, etc)

I ... processos judiciais (processo A menciona processo B, etc)

I ... licitacoes (empresa A e co-licitante da empresa B, etc)

I ... sociedades (fulano e socio de beltrano, etc)

I ... filmes (ator A contracenou com ator B, etc)

I ... relacionamentos diversos (cf. Bearman, Moody e Stovel2004)

I ... Panama Papers

analise de grafos

I Exemplos de grafos:

I ... redes sociais (fulano e amigo de beltrano, etc)

I ... crime organizado (fulano envia dinheiro p/ beltrano, etc)

I ... processos judiciais (processo A menciona processo B, etc)

I ... licitacoes (empresa A e co-licitante da empresa B, etc)

I ... sociedades (fulano e socio de beltrano, etc)

I ... filmes (ator A contracenou com ator B, etc)

I ... relacionamentos diversos (cf. Bearman, Moody e Stovel2004)

I ... Panama Papers

analise de grafos

I Exemplos de grafos:

I ... redes sociais (fulano e amigo de beltrano, etc)

I ... crime organizado (fulano envia dinheiro p/ beltrano, etc)

I ... processos judiciais (processo A menciona processo B, etc)

I ... licitacoes (empresa A e co-licitante da empresa B, etc)

I ... sociedades (fulano e socio de beltrano, etc)

I ... filmes (ator A contracenou com ator B, etc)

I ... relacionamentos diversos (cf. Bearman, Moody e Stovel2004)

I ... Panama Papers

analise de grafos

I Exemplos de grafos:

I ... redes sociais (fulano e amigo de beltrano, etc)

I ... crime organizado (fulano envia dinheiro p/ beltrano, etc)

I ... processos judiciais (processo A menciona processo B, etc)

I ... licitacoes (empresa A e co-licitante da empresa B, etc)

I ... sociedades (fulano e socio de beltrano, etc)

I ... filmes (ator A contracenou com ator B, etc)

I ... relacionamentos diversos (cf. Bearman, Moody e Stovel2004)

I ... Panama Papers

analise de grafos

I Exemplos de grafos:

I ... redes sociais (fulano e amigo de beltrano, etc)

I ... crime organizado (fulano envia dinheiro p/ beltrano, etc)

I ... processos judiciais (processo A menciona processo B, etc)

I ... licitacoes (empresa A e co-licitante da empresa B, etc)

I ... sociedades (fulano e socio de beltrano, etc)

I ... filmes (ator A contracenou com ator B, etc)

I ... relacionamentos diversos (cf. Bearman, Moody e Stovel2004)

I ... Panama Papers

analise de grafos

I Exemplos de grafos:

I ... redes sociais (fulano e amigo de beltrano, etc)

I ... crime organizado (fulano envia dinheiro p/ beltrano, etc)

I ... processos judiciais (processo A menciona processo B, etc)

I ... licitacoes (empresa A e co-licitante da empresa B, etc)

I ... sociedades (fulano e socio de beltrano, etc)

I ... filmes (ator A contracenou com ator B, etc)

I ... relacionamentos diversos (cf. Bearman, Moody e Stovel2004)

I ... Panama Papers

analise de grafos

I Exemplos de grafos:

I ... redes sociais (fulano e amigo de beltrano, etc)

I ... crime organizado (fulano envia dinheiro p/ beltrano, etc)

I ... processos judiciais (processo A menciona processo B, etc)

I ... licitacoes (empresa A e co-licitante da empresa B, etc)

I ... sociedades (fulano e socio de beltrano, etc)

I ... filmes (ator A contracenou com ator B, etc)

I ... relacionamentos diversos (cf. Bearman, Moody e Stovel2004)

I ... Panama Papers

Panama Papers

citacoes academicas

redes sociais

six degrees of Kevin Bacon

nos e arestas

I Nos. Sao os “pontos” da rede. Pessoas, empresas, artigosacademicos, etc.

I (As vezes sao chamados de vertices.)

I Arestas. Sao as “ligacoes” entre os nos.

I Arestas podem ser direcionadas (ex.: Twitter) ounao-direcionadas (ex.: Facebook).

nos e arestas

I Nos. Sao os “pontos” da rede. Pessoas, empresas, artigosacademicos, etc.

I (As vezes sao chamados de vertices.)

I Arestas. Sao as “ligacoes” entre os nos.

I Arestas podem ser direcionadas (ex.: Twitter) ounao-direcionadas (ex.: Facebook).

nos e arestas

I Nos. Sao os “pontos” da rede. Pessoas, empresas, artigosacademicos, etc.

I (As vezes sao chamados de vertices.)

I Arestas. Sao as “ligacoes” entre os nos.

I Arestas podem ser direcionadas (ex.: Twitter) ounao-direcionadas (ex.: Facebook).

nos e arestas

I Nos. Sao os “pontos” da rede. Pessoas, empresas, artigosacademicos, etc.

I (As vezes sao chamados de vertices.)

I Arestas. Sao as “ligacoes” entre os nos.

I Arestas podem ser direcionadas (ex.: Twitter) ounao-direcionadas (ex.: Facebook).

nos e arestas

I Cada no tem um grau.

I Grau = qtde. de arestas do no.

I (As vezes chamado de valencia.)

I Se o grafo e direcionado cada no tem dois graus: o de saıda eo de entrada.

nos e arestas

I Cada no tem um grau.

I Grau = qtde. de arestas do no.

I (As vezes chamado de valencia.)

I Se o grafo e direcionado cada no tem dois graus: o de saıda eo de entrada.

nos e arestas

I Cada no tem um grau.

I Grau = qtde. de arestas do no.

I (As vezes chamado de valencia.)

I Se o grafo e direcionado cada no tem dois graus: o de saıda eo de entrada.

nos e arestas

I Cada no tem um grau.

I Grau = qtde. de arestas do no.

I (As vezes chamado de valencia.)

I Se o grafo e direcionado cada no tem dois graus: o de saıda eo de entrada.

caminhos

I Caminho mınimo: e o caminho mais curto entre dois nos.

como identificar os nos mais importantes?

I Metricas de centralidade:

I centralidade de grau: e simplesmente o grau do no

I centralidade de proximidade: 1 / (soma dos caminhosmınimos ate todos os outros nos)

I centralidade de intermediacao: qtde. de caminhos mınimosque passam pelo no (as vezes dividida pelo total de caminhosmınimos existentes no grafo)

I ... diversas outras (exemplo: PageRank, que se baseia nacentralidade dos nos adjacentes)

como identificar os nos mais importantes?

I Metricas de centralidade:

I centralidade de grau: e simplesmente o grau do no

I centralidade de proximidade: 1 / (soma dos caminhosmınimos ate todos os outros nos)

I centralidade de intermediacao: qtde. de caminhos mınimosque passam pelo no (as vezes dividida pelo total de caminhosmınimos existentes no grafo)

I ... diversas outras (exemplo: PageRank, que se baseia nacentralidade dos nos adjacentes)

como identificar os nos mais importantes?

I Metricas de centralidade:

I centralidade de grau: e simplesmente o grau do no

I centralidade de proximidade: 1 / (soma dos caminhosmınimos ate todos os outros nos)

I centralidade de intermediacao: qtde. de caminhos mınimosque passam pelo no (as vezes dividida pelo total de caminhosmınimos existentes no grafo)

I ... diversas outras (exemplo: PageRank, que se baseia nacentralidade dos nos adjacentes)

como identificar os nos mais importantes?

I Metricas de centralidade:

I centralidade de grau: e simplesmente o grau do no

I centralidade de proximidade: 1 / (soma dos caminhosmınimos ate todos os outros nos)

I centralidade de intermediacao: qtde. de caminhos mınimosque passam pelo no (as vezes dividida pelo total de caminhosmınimos existentes no grafo)

I ... diversas outras (exemplo: PageRank, que se baseia nacentralidade dos nos adjacentes)

como identificar os nos mais importantes?

I Metricas de centralidade:

I centralidade de grau: e simplesmente o grau do no

I centralidade de proximidade: 1 / (soma dos caminhosmınimos ate todos os outros nos)

I centralidade de intermediacao: qtde. de caminhos mınimosque passam pelo no (as vezes dividida pelo total de caminhosmınimos existentes no grafo)

I ... diversas outras (exemplo: PageRank, que se baseia nacentralidade dos nos adjacentes)

coeficiente de clusterizacao

I Atencao! Aqui usamos o termo “clusterizacao num sentidototalmente distinto daquele que vimos nas auals 2-3.

I Os nos adjacentes ao no x formam uma “comunidade”?

I Coeficiente de clusterizacao: qtde. de arestas entre osvizinhos imediatos de x / qtde. de arestas que poderiamexistir entre os vizinhos imediatos de x.

I Em outras palavras: o quao “conectados” entre si sao osvizinhos de x?

coeficiente de clusterizacao

I Atencao! Aqui usamos o termo “clusterizacao num sentidototalmente distinto daquele que vimos nas auals 2-3.

I Os nos adjacentes ao no x formam uma “comunidade”?

I Coeficiente de clusterizacao: qtde. de arestas entre osvizinhos imediatos de x / qtde. de arestas que poderiamexistir entre os vizinhos imediatos de x.

I Em outras palavras: o quao “conectados” entre si sao osvizinhos de x?

coeficiente de clusterizacao

I Atencao! Aqui usamos o termo “clusterizacao num sentidototalmente distinto daquele que vimos nas auals 2-3.

I Os nos adjacentes ao no x formam uma “comunidade”?

I Coeficiente de clusterizacao: qtde. de arestas entre osvizinhos imediatos de x / qtde. de arestas que poderiamexistir entre os vizinhos imediatos de x.

I Em outras palavras: o quao “conectados” entre si sao osvizinhos de x?

coeficiente de clusterizacao

I Atencao! Aqui usamos o termo “clusterizacao num sentidototalmente distinto daquele que vimos nas auals 2-3.

I Os nos adjacentes ao no x formam uma “comunidade”?

I Coeficiente de clusterizacao: qtde. de arestas entre osvizinhos imediatos de x / qtde. de arestas que poderiamexistir entre os vizinhos imediatos de x.

I Em outras palavras: o quao “conectados” entre si sao osvizinhos de x?

atributos do grafo

I Qtde. de nos.

I Qtde. de arestas.

I Qtde. de arestas / qtde. de arestas que poderiam existir:N(N − 1)

2I Direcionado ou nao-direcionado?

I Diametro: maior caminho mınimo.I Grau medio

I grafo nao-direcionado: (2L)/NI grafo direcionado: L/N

I Coeficiente de clusterizacao medio.

atributos do grafo

I Qtde. de nos.

I Qtde. de arestas.

I Qtde. de arestas / qtde. de arestas que poderiam existir:N(N − 1)

2I Direcionado ou nao-direcionado?

I Diametro: maior caminho mınimo.I Grau medio

I grafo nao-direcionado: (2L)/NI grafo direcionado: L/N

I Coeficiente de clusterizacao medio.

atributos do grafo

I Qtde. de nos.

I Qtde. de arestas.

I Qtde. de arestas / qtde. de arestas que poderiam existir:N(N − 1)

2

I Direcionado ou nao-direcionado?

I Diametro: maior caminho mınimo.I Grau medio

I grafo nao-direcionado: (2L)/NI grafo direcionado: L/N

I Coeficiente de clusterizacao medio.

atributos do grafo

I Qtde. de nos.

I Qtde. de arestas.

I Qtde. de arestas / qtde. de arestas que poderiam existir:N(N − 1)

2I Direcionado ou nao-direcionado?

I Diametro: maior caminho mınimo.I Grau medio

I grafo nao-direcionado: (2L)/NI grafo direcionado: L/N

I Coeficiente de clusterizacao medio.

atributos do grafo

I Qtde. de nos.

I Qtde. de arestas.

I Qtde. de arestas / qtde. de arestas que poderiam existir:N(N − 1)

2I Direcionado ou nao-direcionado?

I Diametro: maior caminho mınimo.

I Grau medio

I grafo nao-direcionado: (2L)/NI grafo direcionado: L/N

I Coeficiente de clusterizacao medio.

atributos do grafo

I Qtde. de nos.

I Qtde. de arestas.

I Qtde. de arestas / qtde. de arestas que poderiam existir:N(N − 1)

2I Direcionado ou nao-direcionado?

I Diametro: maior caminho mınimo.I Grau medio

I grafo nao-direcionado: (2L)/NI grafo direcionado: L/N

I Coeficiente de clusterizacao medio.

atributos do grafo

I Qtde. de nos.

I Qtde. de arestas.

I Qtde. de arestas / qtde. de arestas que poderiam existir:N(N − 1)

2I Direcionado ou nao-direcionado?

I Diametro: maior caminho mınimo.I Grau medio

I grafo nao-direcionado: (2L)/N

I grafo direcionado: L/N

I Coeficiente de clusterizacao medio.

atributos do grafo

I Qtde. de nos.

I Qtde. de arestas.

I Qtde. de arestas / qtde. de arestas que poderiam existir:N(N − 1)

2I Direcionado ou nao-direcionado?

I Diametro: maior caminho mınimo.I Grau medio

I grafo nao-direcionado: (2L)/NI grafo direcionado: L/N

I Coeficiente de clusterizacao medio.

atributos do grafo

I Qtde. de nos.

I Qtde. de arestas.

I Qtde. de arestas / qtde. de arestas que poderiam existir:N(N − 1)

2I Direcionado ou nao-direcionado?

I Diametro: maior caminho mınimo.I Grau medio

I grafo nao-direcionado: (2L)/NI grafo direcionado: L/N

I Coeficiente de clusterizacao medio.

o que nao vamos ver

I Grafos aleatorios.

I Algoritmos de caminho mınimo.

I ... muito mais!

o que nao vamos ver

I Grafos aleatorios.

I Algoritmos de caminho mınimo.

I ... muito mais!

o que nao vamos ver

I Grafos aleatorios.

I Algoritmos de caminho mınimo.

I ... muito mais!

exercıcio - Panama Papers