substitution matrix - gnu.ac.krbio.gnu.ac.kr/lecture/bi/bi_seq_align/seqalign2.pdf ·...
TRANSCRIPT
생물정보학 강의 경상대학교 생화학과 생물정보학연구실Bioinformatics Lab http://bio.gsnu.ac.kr
Substitution MatrixSubstitution MatrixSubstitution MatrixSubstitution Matrix((((치환치환치환치환 행렬행렬행렬행렬))))
Bioinformatics Lecture By Prof. Keun Woo Lee
생물정보학 강의 경상대학교 생화학과 생물정보학연구실Bioinformatics Lab http://bio.gsnu.ac.kr
What is Substitution Matrix(Score Matrix)?
치환행렬의 기본형태:log (공통조상에 의한 확률/ 우연에 의한 확률)
가장 단순한 형태:실무율(all-or-nothing)
Uij= 1 or 0 (1 for i=j, 0 for the rest)
정의정의정의정의::::-어떤 아미노산이가 다른 아미노산로 치환되었을때, 전체적인 단백질에
영향을 미치는 확률적인 정도. -서열정렬시, 아미노산이 서로 비슷한 정도.
생물정보학 강의 경상대학교 생화학과 생물정보학연구실Bioinformatics Lab http://bio.gsnu.ac.kr
PAM (Point Accepted Mutation)
Dayhoff 등이 1960년대 중반부터72개 family 에 속하는 1572개의 단백질서열데이터와 Pairwise alignment 방법을이용하여 20가지 아미노산이 치환될 확률을통계적으로 분석.
-PAM1, PAM10, PAM20,…., PAM500처럼 뒤에 나오는 숫자는 단위 진화시간이 그숫자만큼 반복할 경우 나타날 아미노산 치환확률이다.즉, PAM10은 PAM1을 10번 곱해서 만들고 PAM1단위의 진화적 시간이 10번 반복될경우 나나타는아미노산의 치환확률의 수치화된 표현이다.
-일반적 기본값: PAM120 or PAM250
생물정보학 강의 경상대학교 생화학과 생물정보학연구실Bioinformatics Lab http://bio.gsnu.ac.kr
PAM Unit
1 PAM 이란?:100 개의 아미노산중 치환돌연변이 가 1개 존재할때(따라서 PAM 단위는 진화적 거리의 척도로도 사용된다.)
생물정보학 강의 경상대학교 생화학과 생물정보학연구실Bioinformatics Lab http://bio.gsnu.ac.kr
PAM Matrix
생물정보학 강의 경상대학교 생화학과 생물정보학연구실Bioinformatics Lab http://bio.gsnu.ac.kr
PAM Matrix
생물정보학 강의 경상대학교 생화학과 생물정보학연구실Bioinformatics Lab http://bio.gsnu.ac.kr
PAM Matrix
생물정보학 강의 경상대학교 생화학과 생물정보학연구실Bioinformatics Lab http://bio.gsnu.ac.kr
BLOSUM (Blocks Substitution Matrix)
-Steven Henikoff 등이 1992년 PAM을 개선하기위하여 고안되었고 따라서 PAM보다 우수한결과를 제공한다.
-BLOSUM(m) 의 형태: m 은 다중서열일치정도
-일반적 기본값: BLOSUM62 (NCBI의 BLASTP)or BLOSUM50 (FASTA)
생물정보학 강의 경상대학교 생화학과 생물정보학연구실Bioinformatics Lab http://bio.gsnu.ac.kr
BLOSUM 행렬 형성 과정
생물정보학 강의 경상대학교 생화학과 생물정보학연구실Bioinformatics Lab http://bio.gsnu.ac.kr
BLOSUM Matrix
생물정보학 강의 경상대학교 생화학과 생물정보학연구실Bioinformatics Lab http://bio.gsnu.ac.kr
PAM vs. BLOSUM