Download - PD 00 Introducao
-
Introduo Disciplina
Francisco Couto
Processamento de Dados
2015/16
-
Pgina Disciplina
http://moodle.ciencias.ulisboa.pt/course/view.php?id=2177
-
Quantidade Growth of entries in DNA-sequence databases
Fonte: http://www.nature.com/nrg/journal/v5/n11/fig_tab/nrg1474_F1.html
-
4
Artigos cientficos
MEDLINE
over 21 million citations in total
809,636 citations added in 2013
reading 10 articles per day, takes more than 221 years to read those articles
Fonte: http://www.nlm.nih.gov/bsd/medline_cit_counts_yr_pub.html
-
Variedade EBI: a data hub for bioinformatics in Europe
Source: http://www.slideshare.net/saymaztoma/emblebi
-
Multidisciplinariedade
Fonte: http://dbdmg.polito.it/twiki/bin/view/Public/Bioinformatics
-
Objetivo da Disciplina
-
Vantagens Extra
An Explosion Of Bioinformatics Careers in Science of June 13, 2014 DOI
http://dx.doi.org/10.1126/science.opms.r1400143
Global Bioinformatics Market Will reach USD
12,542.4 million in 2020 in Finances, December 31, 2014
http://www.finances.com/analyses-and-opinions/analysis-opinions/49771-global-bioinformatics-market-will-reach-usd-12542-4-million-2020.htm
Bioinformticos so muito requisitados e so
poucos
-
Testemunhos
Experts agree that the most successful bioinformaticians (and the ones
who land the jobs) are those who have a multitude of skills
At Roche, we offer continuous training in various areas and
encourage our staff to attend conferences, publish, or pursue higher degrees
In An Explosion Of Bioinformatics Careers in Science of June 13, 2014
-
Docentes
Francisco Couto Cordenador, T12, T11, TP11, TP12, TP15, TP16, TP17a
e TP17b Sala 6.3.23 Horrio de Dvidas: Quintas, 15h30 - 16h30 http://www.di.fc.ul.pt/~fjmc
Joo Ferreira TP13, TP14, TP18 e TP110 Sala 6.3.33 Horrio de Dvidas: Segunda, 13h30 - 14h30 http://www.lasige.di.fc.ul.pt/user/55
-
Planeamento Tericas
1. Manipulao de Texto
2. Manipulao de Ficheiros
3. Listas e Ciclos
4. Condies
5. Expresses Regulares
6. Bases de dados
7. Linguagens de Interrogao s Bases de Dados (SQL)
-
Planeamento TPs
1. Dados de vias metablicas
2. Seleo simples e guardar informao em disco
3. UniProt como servio web
4. Cruzamento de dados
5. Seleo de informao com expresses regulares
6. Criar uma base de dados SQL
7. Inserir e consultar a informao na base de dados
-
Funcionamento das TPs
Ter conta FCUL para aceder aos PCs
podem usar portteis
Os trabalhos so individuais
Submeter todas as semanas um zip com o material produzido
Faam os tutorias do Codecademy antes
Ferramentas:
Python e Access
-
Codecademy python
-
Bibliografia
Livros Python for Biologists, by Dr. Martin Jones, 2013 Database Management Systems (third edition), R.
Ramakrishnan and J. Gehrke, McGraw-Hill, 2007 Introduction to Bioinformatics by Arthur M. Lesk, 2008
Tutorials: Python from scratch
http://userpages.fu-berlin.de/digga/ W3Schools
http://www.w3schools.com/ Codeacademy
https://www.codecademy.com/
-
Avaliao
Trabalhos nas TPs Peso 30% na nota final;
Nota individual de 0 a 2 em cada TP.
Avaliao periodica, ou seja no est disponvel na poca especial.
Exame Escrito Peso 70% nota final;
Nota individual de 0 a 20;
Nota mnima 8,5
-
Exame
Ideia
Conjunto de perguntas (tericas e prticas) de resposta mltipla
Mais um ou dois exerccios de desenvolvimento
-
PYTHON
-
20
O que o Python?
Linguagem popular de programao
Muito usada na bioinformtica
Python (interpretador) tambm uma aplicao que se instala no computador:
Freeware
traduz as instrues do python para instrues que o computador entende e executa.
-
21
O que um programa?
Conjunto de instrues escritas numa linguagem (python) que pode ser interpretada pelo computador
Pode ser to simples como imprimir uma sequencia de DNA no ecr:
print ('ACCTGGTAACCCGGAGATTCCAGCT');
-
22
O que uma linguagem de programao?
Um conjunto de regras de como escrever programas de computador
Semelhante s lnguas faladas (portugus)
Mas mais bem definida sem ambiguidades
Pode ser compilada ou interpretada
Python interpretada
-
23
Vantagens do Python
Linguagens de programao esto sobre-valorizadas se depois precisar de usar Perl a adaptao ser fcil
os problemas mais simples de Biologia podem ser resolvidos em qualquer linguagem
Fcil iniciao
Syntax consistente
Paragrafao obrigatria
Biblioteca de funes extensa
Tem uma forma obvia de se resolver
Muito usada em biologia e no s
-
24
Instalar o Python
https://www.python.org/getit/
Verso 2.7
Mac OSX e Linux
Na maior parte dos casos j est instalado
Editor de texto
Notepad++
No usar Word
Usam caracteres especiais
-
DICAS DE PROGRAMAO
-
26
Edite Execute - Corriga
como andar de bicicleta, s ir aprender a programao se tentar muitas vezes e apreender com os erros
Comece com programa simples que funcione e v adicionando funcionalidades passo a passo
Grave os programas e faa backups
Os discos no duram para sempre
-
27
Erros sintticos
Erros tipogrficos como esquecer de um
Numa receita culinria: aroz em vez de arroz
Simples de corrigir
Leia as mensagem de erro com ateno e corrija
Verifique apenas os primeiros erros deixe os outros para a prxima execuo
-
28
Erros Semnticos
O interpretador consegue executar o programa mas no devolve o que estava espera
Numa receita culinria: acar em vez de arroz
Verifique os resultados intermdios at encontrar o erro
-
DADOS
-
Armazenamento de Dados
-
DBMS
Uma base de dados uma coleco de dados
SGBD (Sistema de Gesto de Base de Dados)
DBMS (Database Management System)
Aplicao que apoia a manuteno e acesso a grandes coleces de dados
Bases de Dados Relacionais
Classe dominante de SGBD
-
Vantagens do SGBD (1)
Independncia dos dados
Aplicaes no esto expostas aos detalhes de como os dados esto representados e armazenados
SGBD disponibiliza uma viso abstracta dos dados
Acesso Eficiente aos Dados:
O SGBD utiliza uma variedade de tcnicas sofisticadas para armazenar e recolher dados de uma forma eficiente
-
SGBD Vantagens (2)
Integridade dos Dados e Segurana
O SGBD pode aplica restries de integridade durante o acesso aos dados
Administrao dos dados:
Profissionais experientes podem organizar a representao dos dados por forma a minimizar a redundncia e melhorar o armazenamento e recolha dos dados
-
SGBD Vantagens (3)
Acesso Concorrente e Recuperao de Falhas Acesso aos dados como fosse acedido por um
utilizador de cada vez Minimiza os efeitos de falhas no sistema
Reduo do tempo de desenvolvimento de aplicaes Disponibiliza funes de acesso comuns Interface de alto nvel para os dados Mais robusto:
Tarefas executadas pelo DBMS no precisam de ser verificadas
-
SGBD Desvantagens
Aplicaes complexas de software
Desempenho inaceitvel para algumas aplicaes
Aplicaes de tempo-real
No disponibiliza anlise flexvel dos dados em texto
Nem sempre os benefcios dos SGBD so necessrias
-
Modelo Relacional
Composto por relaes
O esquema para uma relao especifica:
O seu nome
O nome de cada atributo (ou campo)
O tipo de cada atributo
Exemplo:
Students( sid: string, name: string, login: string, age: integer, gpa: real)
* Age est incorrecto usado apenas para no complicar
-
Instncia de uma relao
Cada linha na relao Students um registo que descreve um aluno
Cada linha segue o esquema da relao Students
-
Interrogaes ao SGBD
Exemplo: Qual a fraco de estudantes na disciplina CS564 que
obteve uma nota superior a B7?
Traduo para a linguagem de interrogao do SGBD Nos SGBD relacionais usa-se o SQL
DDL create, drop, alter o esquema conceptual
DML insert, delete, update, select os dados
O SGBD tenta executar as interrogaes da forma mais eficiente
-
EXCEL vs CSV
EXCEL
Formato proprietrio
acesso restrito
CSV
Menos opes (formulas, formatao)
Mas acesso universal (qualquer editor de texto)
Converter de EXCEL para CSV e vice versa simples
-
Porqu o Microsoft Access
Tem o SQL
Est includo no Microsoft Office
Interface fcil
um SGBD muito limitado
-
ODBC (Open Database Connectivity) Fonte: https://commons.wikimedia.org/wiki/File:ODBC_Driver_Architecture.png