redes biologicas´ - dcc.fc.up.ptpribeiro/aulas/bioinformatica1718/bioinf1718... · nós adjacentes...

62
Bioinform´ atica MIM 2017/2018 Pedro Ribeiro Redes Biol ´ ogicas

Upload: doanhuong

Post on 28-Dec-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

BioinformaticaMIM

2017/2018

Pedro Ribeiro

Redes Biologicas

Biologia de Sistemas (Systems Biology)

• Entender a biologia ao nıvel dos seus sistemas

• Analisar nao apenas componentes individuais, mas tambem as suas interaccoes e ocomportamento emergente

• Aprender algo a partir da topologia das redes de interaccao

Introducao a Redes

• O que e uma rede (ou grafo) ?

? Um conjunto de nos ou vertices (V) e das suas ligacoes ou arestas (E)? As ligacoes descrevem uma relacao entre os nos

• Um grafo pode modelar uma multitude de sistemas naturais ou artificiais

Exemplo de Redes

• Redes Sociais

? Amigos no Facebook

? Coautoria e/ou citacoes de artigos, envio de e-mails, confianca (ex: epini-ons.com), ...

Exemplo de Redes

• Redes com existencia fısica

? Rede de energia electrica

? Ligacoes aereas, estradas, computadores (ethernet), ...

Exemplo de Redes

• Redes de software

? Rede de dependencias entre modulos

? Estado de um programa, fluxo de informacao, ...

Exemplo de Redes

• Muitas outras redes

? Rede semantica

? Hiperligacoes entre paginas, resultados desportivos, ...

Redes biologicas

• Claro que tambem existem... redes biologicas!

• Intra-celulares

? Rede Metabolica? Redes de Interaccao entre proteınas (PPI)? Rede de Transcricao (transcriptional regulation)? Rede de Estrutura de Proteınas? ...

• Outras redes

? Rede Neurologica de Ligacoes Sinapticas? Rede de Funcoes Cerebrais? Rede de Cadeia Alimentar? Rede Filogenetica? ...

Rede Metabolica

• Nos: Enzimas, Produtos quımicos

• Ligacoes: Reaccoes Quımicas

• Descricao: O sistema de reaccoes quımicas interligadas que produz componentescomo amino-acidos, acucares ou lıpidos.

Rede de Interaccao entre Proteınas (PPI)

• Nos: Proteınas

• Ligacoes: Interaccoes (binds)

• Descricao: As interaccoes entre diferentes proteınas regulam uma serie de processosbiologicos (tais como a replicacao de ADN)

Rede de Transcricao(transcriptional regulation)

• Nos: Genes

• Ligacoes: Interaccoes

• Descricao: Expressao de genes (como uns influenciam os outros)

Rede Cerebrais (funcionais e estruturais)

• Nos: Regioes do cerebro (neuronios)

• Ligacoes: Correlacao na actividade (ligacao sinaptica)

• Descricao: Medem a actividade do cerebro

Cadeias Alimentares

• Nos: Especies

• Ligacoes: Quem e alimento de quem (relacoes predador-presa)

• Descricao: Descrevem a cadeia alimenatar de um determinado ecossistema

Pedro Ribeiro

Ciência das Redes (“Network Science”)

Por detrás de muitos sistemas complexosestá uma rede que define as interacções

entre os componentes

Para compreender estes sistemasprecisamos de compreender as redes!

Pedro Ribeiro

Porquê agora?● A “Network Science” tem emergido como uma

nova área de estudo– Origens na teoria de grafos e estudos sociológicos

Imagem: Adaptado de (Barabasi, 2015)

Pedro Ribeiro

Porquê agora?● Dois importantes factores que contribuem:

1) O aparecimento dos dados

• 436 nós – 2003(emails, Adamic-Adar, redes sociais)

• 43,553 nós – 2006(emails, Kossinets-Watts, co-autorias)

4.4 milhões nós – 2005(amizades, Liben-Nowell, PNAS)

• 800 milhões nós – 2011(Facebook, Backstrom et al.)

O tamanho importa!

• Rede de actores: 1998• World Wide Web: 1999• Rede de citações: 1998• Rede metabólica: 2000• Rede de proteínas: 2001

Pedro Ribeiro

Porquê agora?● Dois importantes factores que contribuem:

Image: Adaptado de (Newman, 2005)

Ex: “power laws”

Image: Adaptado de (Leskovec, 2015)

2) Universalidade das características das redes

• A arquitectura e topologia das redes de diferentes domínios exibe mais semelhanças do que aquilo que seria de esperar

A Ciência das Redes

Alguns conceitos e vocabulário

Pedro Ribeiro

Terminologia de Redes

● Objectos: nós, vértices N● Interacções: ligações, arestas E● Sistema: rede, grafo G(N,E)

Pedro Ribeiro

Terminologia de Redes

● co-authoria

● actores

● amizades no Facebook

Não dirigida Dirigida

● hiperligações na web

● chamadas de telefone

● estradas

Pedro Ribeiro

Terminologia de Redes

● Exemplos:

– Peso (duração da chamada, distância da estrada, ...)

– Ranking (melhor amigo, segundo melhor, …)

– Tipo (amigo, familiar, colega, ...) [arestas coloridas]

Atributos de uma ligação

Atributos de um nó

● Exemplos

– Peso (idade, peso, ...)

– Tipo (nacionalidade, …) [nós coloridos]

Pedro Ribeiro

Propriedades de um Nó● Das ligações imediatas

– Grau de saídaquantas ligações directas têm início no nó

– Grau de entradaQuantas ligações vão ter ao nó

– Grau (de saída ou entrada)Número de ligações de entrada ou saída

Grau saída = 3

Grau entrada = 2

Grau = 5

Pedro Ribeiro

Redes Reais● As redes reais são muito esparsas!

Rede Dir/NãoDir Nós Ligações Grau Médio

Internet Não Dirigida 192,244 609,066 6.33

Páginas Web Dirigida 325,729 1,479,134 4.60

Rede Eléctrica Não Dirigida 4,941 6,594 2.67

Chamadas Telemóvel Dirigida 36,595 91,826 2.51

Email Dirigida 57,194 103,731 1.81

Colaboração Ciência Não Dirigida 23,133 93,439 8.08

Rede Atores Não Dirigida 702,388 29,397,908 83.71

Rede Citaçoes Dirigida 449,673 4,689,479 10.43

Metabolismo E. Coli Dirigida 1,039 5,082 5.58

Interação Proteínas Não Dirigida 2,018 2,930 2.90

Tabela: Adaptada de (Barabasi, 2015)

Pedro Ribeiro

Propriedades de um Nó● Métricas relacionados com o grau:

– Sequência de grausuma sequência ordenada (in,out) do grau de cada nó

● In-degree sequence: [4, 2, 1 , 1, 0]● Out-degree sequence: [3, 2, 2, 1, 0]● Degree sequence: [4, 3, 3, 3, 3]

– Distribuição de Grauscontagem da frequência de cada grau[normalmente “desenhada” como probabilidade → normalização]

0 1 2 3 4

0

0.5

1

1.5

2

2.5

In-degree Distribution

0 1 2 3 40

0.51

1.52

2.5

Out-degree Distribution

0 1 2 3 40

1

2

3

4

5

Degree Distribution

Pedro Ribeiro

Propriedades de um Nó● A distribuição dos graus não conta “tudo”

sobre a topologia da redes:

Pedro Ribeiro

Caminhos● Um caminho entre dois nós é uma sequência de

nós adjacentes e das duas respectivas arestas de ligação

● A distância entre dois nós (numa rede não pesada) é o número de arestas no caminho mais curto entre elas

● Diâmetro: distância máxima entre dois nós

Exemplo:- Distância de A a D é 3- Distância de A a E é 4- Distância de E a F é 2

Exemplo: para o grafo de cima o diâmetro é 4

Pedro Ribeiro

Caminhos● Qual é a distância média entre dois nós numa

rede?– Ser esparso implica distâncias grandes?

PlanetaTerra

7,4 Biliõesde pessoas

Quantos “passos”

nos separam?

Frigyes Karinthy 1929

“Se escolheres uma pessoa de qualquer um dos1.5 biliões de habitantes do planeta, aposto

que, usando não mais do que cinco indivíduos,um deles um conhecido meu, consigo contactar

a pessoa que escolheste usando apenas alista de conhecidos de cada um”

1969 Stanley Milgram

● Escolhidas pessoas à sorte num estado● Pedido para enviarem cartas até um certo destinatário noutro estado:

– Se a pessoa conhecer o destinatário, enviar directamente para ele

– Se não conhecer enviar para alguém que achem mais provável conhecer

1969 Stanley Milgram

Média entre 5.5 e 6

intermediários

2003 Projecto “Small World”

● Mais 20.000 cadeias de emails para 18 pessoas de 13 países.

Mediana estimada

entre 5 e 7

2008 Microsoft Messenger

● 30 biliões de conversas entre 240 milhões de pessoas

Média Global: 5,6

2011 Amizades no Facebook

● 69 biliões de amizades entre 721 milhões de pessoas

Média Global: 3,74

2016 Amizades no Facebook

● 1.59 biliões de pessoas!

Média Global: 3,57

Pedro Ribeiro

Como explicar isto?● Imaginem que uma pessoa tem em média 100

amigos– 0 intermediários: 100

– 1 intermediário: 100^2 = 10.000

– 2 intermediários: 100^3 = 1.000.000

– 3 intermediários: 100^4 = 100.000.000

– 4 intermediários: 100^5 = 10.000.000.000

– 5 intermediários: 100^6 = 1.000.000.000.000

● Na prática nem todos os amigos são novos, mas mesmo assim cresce muito rapidamente

O poder daexponenciação

Pedro Ribeiro

Mais Exemplos do “Mundo Pequeno”● Os seis graus de Kevin Bacon

– Quantas ligações para ligarKevin Bacon a qualquer outroactor, produtor, realizador, …

– “Jogo” inicado em 1994

Pedro Ribeiro

Mais Exemplos do “Mundo Pequeno”● Os seis graus de Kevin Bacon

Número de Kevin Bacon # de pessoas

0 1

1 3150

2 373876

3 1340703

4 340756

5 28820

6 3383

7 451

8 52

9 8

10 1

(nº médio: 3.009)

Pedro Ribeiro

Mais Exemplos do “Mundo Pequeno”● Os seis graus de Kevin Bacon

https://oracleofbacon.org/

Pedro Ribeiro

Mais Exemplos do “Mundo Pequeno”● Número de Erdös

– Artigos científicos e um matemático

http://wwwp.oakland.edu/enp/

Pedro Ribeiro

Algumas possíveis tarefas● Deteção de Comunidades

– Que grupos de nós estão relacionados?

– Nós com muitas ligações

“internas” e poucas para “fora”

– Muitas variações e algoritmos● Girvan-Newman● Modularidade● …Ex Aplicação: qual o grupo de proteínas

responsável por um dado processo biológico ?

Pedro Ribeiro

Algumas possíveis tarefas● Classificação/Ordenação de Nós

– Centralidade: quão importante é um nó?● “Betwenness”: percentagem de caminhos mínimos a

que o nó pertence● “Closeness”: distância média a todos os outros nós

Ex Aplicação: quais são os seres vivosessenciais num ecossistma?

Pedro Ribeiro

Algumas possíveis tarefas● Classificação/Ordenação de Nós

         |  Degree  |  Closeness  |  Betweeness­­­­­­­­­+­­­­­­­­­­+­­­­­­­­­­­­­+­­­­­­­­­­­­­­Highest  |    D     |    F,G      |      H         |          |             |         |   F,G    |    D,H      |     F,Gto       |   A,B    |    A,B      |      I         |  C,E,H   |    C,E      |      D         |    I     |    I        |     A,BLowest   |    J     |    J        |    C,D,J­­­­­­­­­+­­­­­­­­­­+­­­­­­­­­­­­­+­­­­­­­­­­­­­­

Pedro Ribeiro

PageRank: um olhar sobre o algoritmo

1) Ranking de cada nó começa em 1/N2) Repetir o seguinte K vezes:

- Cada nó divide o seu ranking igualmente pelas suas ligações (arestas de saída)

Detalhe

Pedro Ribeiro

PageRank: um olhar sobre o algoritmo

Detalhe

# A B C D E F G H

0 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8

1 1/2 1/16 1/16 1/16 1/16 1/16 1/16 1/8

2 3/16 1/4 1/4 1/32 1/32 1/32 1/32 1/16

Pedro Ribeiro

Algumas possíveis tarefas● Como se propaga a informação?

Ex Aplicação: como se espalha uma doença?

Pedro Ribeiro

Algumas possíveis tarefas

Pedro Ribeiro

Algumas possíveis tarefas● Previsão de novas arestas

Ex Aplicação: prever desenvolvimento de doença

Pedro Ribeiro

Algumas possíveis tarefas● Comparação de redes

Ex Aplicação: doente ou saudável?

Pedro Ribeiro

O que eu faço?● Deteção de padrões de subgrafos

– Caracterização e comparação de redes

– Algoritmos eficientes (ex: aproximação, paralelismo)

Pedro Ribeiro

O que eu faço?● Deteção de comunidades

– Formatos diferentes

● Análise Temporal– Eventos?

● Ranking

de nós– Ex: ténis

hands-on experience

Network Visualizationand Exploration

Pedro Ribeiro - An Exploratory Journey Into Network Analysis

Why Visualization?

“The greatest value of a picture is when it forces to notice what we never expected to see”

Pedro Ribeiro - An Exploratory Journey Into Network Analysis

Exploratory Data Analysis● Visualization alone is not enough

– Part of a larger process to extract insight

● Data process chain

Images: Ben Fry, 2004

Non-linear

Trial and Error!

Pedro Ribeiro - An Exploratory Journey Into Network Analysis

Exploring a Network● 1) See the network

– Draw using a certain layout, ...

● 2) Interact in real time

– Group, filter, compute metrics, ...

● 3) Build a visual language

– Size of nodes, thickness of edges,colors, ...

Pedro Ribeiro - An Exploratory Journey Into Network Analysis

Exploring Graphs● Today we are going to use Gephi

– Open-Source Network Analysis and Visualization Platform (written in Java)

Pedro Ribeiro - An Exploratory Journey Into Network Analysis

Why Gephi?● Because it has a large community

● Because it has history and will continue to have

– Started at 1998

– Version 0.9 recently launched

– Maintained by a consortium (long-term vision)

● Because it is extensible with plugins

– Gephi marketplace

● Because I am familiar with it! :)

● There are other options:

– The main concepts and ideas we will showcan be used on any other visualization tool

Pedro Ribeiro - An Exploratory Journey Into Network Analysis

Datasets for Today

● Co-Authorships in Network Science– http://www-personal.umich.edu/~mejn/netdata/netscience.zip

– Compiled by Mark Newman in May 2006

– Available in gml (Graph Modeling Language)

– 1,589 scientists, 2,742 collaborations

● Flights Data

– http://openflights.org/data.html

– Compiled by Open Flights website

– 3,440 airports, 67,663 routes from 531 airlines

Pedro Ribeiro - An Exploratory Journey Into Network Analysis

What to do?

● Load graph– Opening a network vs importing data

● Filter– Main operators, selecting, ranges, combining

● Compute metrics– Centralities, degrees, distances, communities

● Draw using a layout– Force Directed, Geographical, Circular, (polishing the results)

● Ranking– Color or size of the nodes and edges according to a metric

● Partition– Coloring according to a partition

Pedro Ribeiro - An Exploratory Journey Into Network Analysis

What to do?

DEMO!