Lecture 16: Summary and outlook
Felix Held, Mathematical Sciences
MSA220/MVE440 Statistical Learning for Big Data
24th May 2019
The big topics
1. Statistical Learning2. Supervised learning
โถ Classificationโถ Regression
3. Unsupervised learningโถ Clustering
4. Data representations and dimension reduction5. Large scale methods
1/58
The big data paradigms
โถ Small to medium sized dataโถ โGood old statsโโถ Typical methods: ๐-nearest neighbour (kNN), linear andquadratic discriminant analysis (LDA and QDA), Gaussianmixture models, โฆ
โถ High-dimensional dataโถ big-๐ paradigmโถ Typical methods: Feature selection, penalized regressionand classification (Lasso, ridge regression, shrunkencentroids, โฆ), low-rank approximations (SVD, NMF), โฆ
โถ Curse of dimensionalityโถ Large scale data
โถ big-๐ paradigm (sometimes in combination with big-๐)โถ Typical methods: Random forests (with its big-๐extensions), subspace clustering, low-rankapproximations (randomized SVD), โฆ 2/58
Statistical Learning
What is Statistical Learning?
Learn a model from data by minimizing expected predictionerror determined by a loss function.
โถ Model: Find a model that is suitable for the dataโถ Data: Data with known outcomes is neededโถ Expected prediction error: Focus on quality of prediction(predictive modelling)
โถ Loss function: Quantifies the discrepancy betweenobserved data and predictions
3/58
Statistical Learning for Regression
โถ Theoretically best regression function for squared errorloss
๐(๐ฑ) = ๐ผ๐(๐ฆ|๐ฑ)[๐ฆ]โถ Approximate (1) or make model-assumptions (2)
1. k-nearest neighbour regression
๐ผ๐(๐ฆ|๐ฑ)[๐ฆ] โ1๐ โ
๐ฑ๐๐โ๐๐(๐ฑ)๐ฆ๐๐
2. linear regression (viewpoint: generalized linear models(GLM))
๐ผ๐(๐ฆ|๐ฑ)[๐ฆ] โ ๐ฑ๐๐ท
4/58
Statistical Learning for Classification
โถ Theoretically best classification rule for 0-1 loss and ๐พpossible classes (Bayes rule)
๐(๐ฑ) = arg max1โค๐โค๐พ
๐(๐|๐ฑ)
โถ Approximate (1) or make model-assumptions (2)1. k-nearest neighbour classification
๐(๐|๐ฑ) โ 1๐ โ
๐ฑ๐โ๐๐(๐ฑ)1(๐๐ = ๐)
2. Multi-class logistic regression
๐(๐|๐ฑ) = ๐๐ฑ๐๐ท(๐)
1 +โ๐พโ1๐=1 ๐๐ฑ๐๐ท(๐)
and ๐(๐พ|๐ฑ) = 11 +โ๐พโ1
๐=1 ๐๐ฑ๐๐ท(๐)
5/58
Empirical error rates (I)
โถ Training error
๐ ๐ก๐ = 1๐
๐โ๐=1
๐ฟ(๐ฆ๐, ๐(๐ฑ๐|๐ฏ))
where๐ฏ = {(๐ฆ๐, ๐ฑ๐) โถ 1 โค ๐ โค ๐}
โถ Test error๐ ๐ก๐ = 1
๐๐โ๐=1
๐ฟ( ๐ฆ๐, ๐(๏ฟฝ๏ฟฝ๐|๐ฏ))
where ( ๐ฆ๐, ๏ฟฝ๏ฟฝ๐) for 1 โค ๐ โค ๐ are new samples from thesame distribution as ๐ฏ, i.e. ๐(๐ฏ).
6/58
Splitting up the data
โถ Holdout method: If we have a lot of samples, randomlysplit available data into training set and test set
โถ ๐-fold cross-validation: If we have few samples1. Randomly split available data into ๐ equally large subsets,so-called folds.
2. By taking turns, use ๐ โ 1 folds as the training set and thelast fold as the test set
7/58
Approximations of expected prediction error
โถ Use test error for hold-out method, i.e.
๐ ๐ก๐ = 1๐
๐โ๐=1
๐ฟ( ๐ฆ๐, ๐(๏ฟฝ๏ฟฝ๐|๐ฏ))
where ( ๐ฆ๐, ๏ฟฝ๏ฟฝ๐) for 1 โค ๐ โค ๐ are the elements in the test set.โถ Use average test error for c-fold cross-validation, i.e.
๐ ๐๐ฃ = 1๐
๐โ๐=1
โ(๐ฆ๐,๐ฑ๐)โโฑ๐
๐ฟ(๐ฆ๐, ๐(๐ฑ๐|โฑโ๐))
where โฑ๐ is the ๐-th fold and โฑโ๐ is all data except fold ๐.
Note: For ๐ = 1 this is called leave-one-out cross validation(LOOCV)
8/58
Careful data splitting
โถ Note: For the approximations to be justifiable, test andtraining sets need to be identically distributed
โถ Splitting has to be done randomlyโถ If data is unbalanced, then stratification is necessary.Examples:
โถ Class imbalanceโถ Continuous outcome is observed more often in someintervals than others (e.g. high values more often than lowvalues)
9/58
Bias-Variance Tradeoff
Bias-Variance Decomposition๐ = ๐ผ๐(๐ฏ,๐ฑ,๐ฆ) [(๐ฆ โ ๐(๐ฑ))2] Total expected prediction error
= ๐2 Irreducible Error+ ๐ผ๐(๐ฑ) [(๐(๐ฑ) โ ๐ผ๐(๐ฏ) [๐(๐ฑ)])
2] Bias2 averaged over ๐ฑ
+ ๐ผ๐(๐ฑ) [Var๐(๐ฏ) [๐(๐ฑ)]] Variance of ๐ averaged over ๐ฑ
๐
Underfit Overfit
Model complexity
Error
Bias2 Variance
Irreducib
le Error
10/58
Classification
Overview
1. ๐-nearest neighbours (Lecture 1)2. 0-1 regression (Lecture 2)
โถ just an academic example - do not use in practice3. Logistic regression (Lecture 2, both binary andmulti-class; Lecture 11 for sparse case)
4. Nearest Centroids (Lecture 2) and shrunken centroids(Lecture 10)
5. Discriminant analysis (Lecture 2)โถ Many variants: linear (LDA), quadratic (QDA),diagonal/Naive Bayes, regularized (RDA; Lecture 5),Fisherโs LDA/reduced-rank LDA (Lecture 6), mixture DA(Lecture 8)
6. Classification and Regression trees (CART) (Lecture 4)7. Random Forests (Lecture 5 & 15)
11/58
Multiple angles on the same problem
1. Bayes rule: Approximate ๐(๐|๐ฑ) and choose largestโถ e.g. kNN or logistic regression
2. Model of the feature space: Assume models for ๐(๐ฑ|๐) and๐(๐) separately
โถ e.g. discriminant analysis3. Partitioning methods: Create explicit partitions of thefeature space and assign each a class
โถ e.g. CART or Random Forests
12/58
Finding the parameters of DA
โถ Notation: Write ๐(๐) = ๐๐ and consider them as unknownparameters
โถ Given data (๐๐, ๐ฑ๐) the likelihood maximization problem is
arg max๐,๐บ,๐
๐โ๐=1
๐(๐ฑ๐|๐๐๐ , ๐บ๐๐)๐๐๐ subject to๐พโ๐=1
๐๐ = 1.
โถ Can be solved using a Lagrange multiplier (try it!) andleads to
๐๐ =๐๐๐ , with ๐๐ =
๐โ๐=1
1(๐๐ = ๐)
๐๐ =1๐๐
โ๐๐=๐
๐ฅ๐
๐บ๐ =1
๐๐ โ 1 โ๐๐=๐(๐ฅ๐ โ ๐๐)(๐ฅ๐ โ ๐๐)๐
13/58
Performing classification in DA
Bayesโ rule implies the classification rule
๐(๐ฑ) = arg max1โค๐โค๐พ
๐(๐ฑ|๐๐, ๐บ๐)๐๐
Note that since log is strictly increasing this is equivalent to
๐(๐ฑ) = arg max1โค๐โค๐พ
๐ฟ๐(๐ฑ)
where
๐ฟ๐(๐ฑ) = log๐(๐ฑ|๐๐, ๐บ๐) + log๐๐= log๐๐ โ
12(๐ฑ โ ๐๐)๐๐บโ1๐ (๐ฑ โ ๐๐) โ
12 log |๐บ๐| (+๐ถ)
This is a quadratic function in ๐ฑ.
14/58
Different levels of complexity
โถ This method is called Quadratic Discriminant Analysis(QDA)
โถ Problem: Many parameters that grow quickly withdimension
โถ ๐พ โ 1 for all ๐๐โถ ๐ โ ๐พ for all ๐๐โถ ๐(๐ + 1)/2 โ ๐พ for all ๐บ๐ (most costly)
โถ Solution: Replace covariance matrices ๐บ๐ by a pooledestimate
๏ฟฝ๏ฟฝ =๐พโ๐=1
๏ฟฝ๏ฟฝ๐๐๐ โ 1๐ โ ๐พ = 1
๐ โ ๐พ๐พโ๐=1
โ๐๐=๐
(๐ฅ๐ โ ๐๐)(๐ฅ๐ โ ๐๐)๐
โถ Simpler correlation and variance structure: All classesare assumed to have the same correlation structurebetween features
15/58
Performing classification in the simplified case
As before, consider
๐(๐ฑ) = arg max1โค๐โค๐พ
๐ฟ๐(๐ฑ)
where
๐ฟ๐(๐ฑ) = log๐๐ + ๐ฑ๐๐บโ1๐๐ โ12๐
๐๐ ๐บโ1๐๐ (+๐ถ)
This is a linear function in ๐ฑ. The method is therefore calledLinear Discriminant Analysis (LDA).
16/58
Even more simplifications
Other simplifications of the correlation structure are possible
โถ Ignore all correlations between features but allowdifferent variances, i.e. ๐บ๐ = ๐ฒ๐ for a diagonal matrix ๐ฒ๐(Diagonal QDA or Naive Bayesโ Classifier)
โถ Ignore all correlations and make feature variances equal,i.e. ๐บ๐ = ๐ฒ for a diagonal matrix ๐ฒ (Diagonal LDA)
โถ Ignore correlations and variances, i.e. ๐บ๐ = ๐2๐๐ร๐(Nearest Centroids adjusted for class frequencies ๐๐ )
17/58
Classification and Regression Trees (CART)
โถ Complexity of partitioning:ArbitraryPartition
> RectangularPartition
> Partition from asequence of binary splits
โถ Classification and Regression Trees create a sequence ofbinary axis-parallel splits in order to reduce variability ofvalues/classes in each region
111 1
11 00 00 00
11 1
111 0
0 0000
00 00 00 00 0 0
00
00 00 0
0 0000 00
00 0
000 00
00 00
1
2
3
4
2 4 6x1
x 2
x2 >= 2.2
x1 >= 3.50
1.00 .0060%
01.00 .00
20%
1.00 1.00
20%
yes no
18/58
Bootstrap aggregation (bagging)
1. Given a training sample (๐ฆ๐, ๐ฑ๐) or (๐๐, ๐ฑ๐), we want to fit apredictive model ๐(๐ฑ)
2. For ๐ = 1,โฆ , ๐ต, form bootstrap samples of the trainingdata and fit the model, resulting in ๐๐(๐ฑ)
3. Define
๐bag(๐ฑ) =1๐ต
๐ตโ๐=1
๐๐(๐ฑ)
where ๐๐(๐ฑ) is a continuous value for a regressionproblem or a vector of class probabilities for aclassification problem
Majority vote can be used for classification problems insteadof averaging
19/58
Random Forests
Computational procedure1. Given a training sample with ๐ features, do for ๐ = 1,โฆ , ๐ต
1.1 Draw a bootstrap sample of size ๐ from training data (withreplacement)
1.2 Grow a tree ๐๐ until each node reaches minimal node size๐min1.2.1 Randomly select๐ variables from the ๐ available1.2.2 Find best splitting variable among these๐1.2.3 Split the node
2. For a new ๐ฑ predictRegression: ๐๐๐(๐ฑ) =
1๐ตโ๐ต
๐=1 ๐๐(๐ฑ)Classification: Majority vote at ๐ฑ across trees
Note: Step 1.2.1 leads to less correlation between trees builton bootstrapped data.
20/58
Regression and feature selection
Overview
1. ๐-nearest neighbours (Lecture 1)2. Linear regression (Lecture 1)3. Filtering (Lecture 9)
โถ F-score, mutual information, RF variable importance, โฆ4. Wrapping (Lecture 9)
โถ Forward-, backward-, and best subset selection5. Penalized regression and variable selection
โถ Ridge regression and lasso (Lecture 9), group lasso andelastic net (Lecture 10), adaptive lasso and SCAD(Lecture 11)
6. Computation of the lasso (Lecture 10)7. Applications of penalisation
โถ For Discriminant Analysis: Shrunken centroids (Lecture 10)โถ For GLM: sparse multi-class logistic regression (Lecture 11)โถ For networks: Graphical lasso (Lecture 14)
21/58
Intuition for the penalties
The least squares RSS is minimized for ๐ทOLS. If a constraint isadded (โ๐ทโ๐๐ โค ๐ก) then the RSS is minimized by the closest ๐ทpossible that fulfills the constraint.
ฮฒ1
ฮฒ2
ฮฒOLS
โ
โ
ฮฒlasso
Lasso
ฮฒ1
ฮฒ2
ฮฒOLS
โ
โ
ฮฒridge
Ridge
The blue lines are the contour lines for the RSS. 22/58
A regularisation path
Prostate cancer dataset (๐ = 67, ๐ = 8)Red dashed lines indicate the ๐ selected by cross-validation
โ0.25
0.00
0.25
0.50
0.75
0 2 4 6 8
Effective degrees of freedom
Coe
ffici
ent
Ridge
โ0.25
0.00
0.25
0.50
0.75
0.00 0.25 0.50 0.75 1.00
Shrinkage
Coe
ffici
ent
Lasso
โ0.25
0.00
0.25
0.50
0.75
โ5 0 5 10
log(ฮป)
Coe
ffici
ent
โ0.25
0.00
0.25
0.50
0.75
โ5 0 5 10
log(ฮป)
Coe
ffici
ent
23/58
Potential caveats of the lasso
โถ Sparsity of the true model:โถ The lasso only works if the data is generated from asparse process.
โถ However, a dense process with many variables and notenough data or high correlation between predictors canbe unidentifiable either way
โถ Correlations: Many non-relevant variables correlatedwith relevant variables can lead to the selection of thewrong model, even for large ๐
โถ Irrepresentable condition: Split ๐ such that ๐1 containsall relevant variables and ๐2 contains all irrelevantvariables. If
|(๐๐2๐1)(๐๐
1 ๐1)โ1| < 1 โ ๐ผfor some ๐ผ > 0 then the lasso is (almost) guaranteed topick the true model 24/58
Elnet and group lasso
โถ The lasso sets variables exactly to zero either on a corner (allbut one) or along an edge (fewer).
โถ The elastic net similarly sets variables exactly to zero on acorner or along an edge. In addition, the curved edgesencourage coefficients to be closer together.
โถ The group lasso has actual information about groups ofvariables. It encourages whole groups to be zerosimultaneously. Within a group, it encourages the coefficientsto be as similar as possible. 25/58
Clustering
Overview
1. Combinatorial Clustering (Lecture 6)2. k-means (Lecture 6)3. Partion around medoids (PAM)/k-medoids (Lecture 7)4. Cluster count selection (Lecture 7 & 8)
โถ Ellbow heuristic, Silhouette Width, Cluster StrengthPrediction, Bayesian Information Criterion (BIC) for GMM
5. Hiearchical clustering (Lecture 7)6. Gaussian Hierarchical Models (GMM; Lecture 8)7. DBSCAN (Lecture 8)8. Non-negative matrix factorisation (NMF; Lecture 11)9. Subspace clustering (Lecture 14)
โถ In particular, CLIQUE and ProClus10. Spectral clustering (Lecture 14)
26/58
k-means and the assumption of spherical geometry
โ
โโ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โโ
โ
โ
โ
โ โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โโ
โ
โโ
โโโโ
โ
โ
โโ
โ
โ โโ
โโ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โโ
โโ โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ โ
โ
โโ
โโโ
โโ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โโโ
โ
โโ
โโ
โ
โ โ โ โ
โ
โ
โ
โโ
โโ
โโ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โโ
โ
โโ
โ
โโ
โ
โ
โ
โ
โโโ
โโ โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โโ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โโโ
โโ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ2
โ1
0
1
2
โ2 โ1 0 1 2
x
y
Simulated
โ
โโ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โโ
โ
โ
โ
โ โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โโ
โ
โโ
โโโโ
โ
โ
โโ
โ
โ โโ
โโ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โโ
โโ โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ โ
โ
โโ
โโโ
โโ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โโโ
โ
โโ
โโ
โ
โ โ โ โ
โ
โ
โ
โโ
โโ
โโ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โโ
โ
โโ
โ
โโ
โ
โ
โ
โ
โโโ
โโ โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โโ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โโโ
โโ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ3
0
3
โ3 0 3
x
y
kโmeans directly on data
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โโโ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ1
0
1
โ1 0 1
r
ฮธ
Polarโcoordinates
โ
โโ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โโ
โ
โ
โ
โ โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โโ
โ
โโ
โโโโ
โ
โ
โโ
โ
โ โโ
โโ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โโ
โโ โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ โ
โ
โโ
โโโ
โโ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โโโ
โ
โโ
โโ
โ
โ โ โ โ
โ
โ
โ
โโ
โโ
โโ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โโ
โ
โโ
โ
โโ
โ
โ
โ
โ
โโโ
โโ โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โโ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โโโ
โโ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ2
โ1
0
1
2
โ2 โ1 0 1 2
x
y
kโmeans on polar coord
27/58
Spectral Clustering
1. Determine the weighted adjacency matrix๐ and the graphLaplacian ๐
2. Find the ๐พ smallest eigenvalues of ๐ that are near zero andwell separated from the others
3. Find the corresponding eigenvectors ๐ = (๐ฎ1, โฆ , ๐ฎ๐พ) โ โ๐ร๐พ
and use k-means on the rows of ๐ to determine clustermembership
โ
โ
โ
โโ
โ โโ
โ
โ
โ
โโ
โโโ
โ
โ
โโ
โ
โโ
โ
โ
โโ
โ
โโโ
โ
โ
โ
โ
โ โ
โโโ
โโ
โ
โโ
โ
โ
โ
โโ
โ โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โโ
โ
โ
โ
โโ
โโโ
โ
โ
โ โโ
โโ
โ
โ โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ โ
โ
โ
โ
โโ
โ
โโโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
Raw data (n = 500
โ
โ
โ
โโ
โ โโ
โ
โ
โ
โโ
โโโ
โ
โ
โโ
โ
โโ
โ
โ
โโ
โ
โโโ
โ
โ
โ
โ
โ โ
โโโ
โโ
โ
โโ
โ
โ
โ
โโ
โ โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โโ
โ
โ
โ
โโ
โโโ
โ
โ
โ โโ
โโ
โ
โ โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
Spectral clustering
28/58
Hierarchical Clustering
Procedural idea:
1. Initialization: Let each observation ๐ฑ๐ be in its owncluster ๐0๐ for ๐ = 1, โฆ , ๐
2. Joining: In step ๐, join the two clusters ๐๐โ1๐ and ๐๐โ1๐ thatare closest to each other resulting in ๐ โ ๐ clusters
3. After ๐ โ 1 steps all observations are in one big cluster
Subjective choices:
โถ How do we measure distance between observations?โถ What is closeness for clusters?
29/58
Linkage
Cluster-cluster distance is called linkage
Distance between clusters ๐ and โ
1. Average Linkage:
๐(๐, โ) = 1|๐| โ |โ| โ
๐ฑ๐โ๐๐ฑ๐โโ
๐๐,๐
2. Single Linkage๐(๐, โ) = min๐ฑ๐โ๐
๐ฑ๐โโ๐๐,๐
3. Complete Linkage๐(๐, โ) = max๐ฑ๐โ๐
๐ฑ๐โโ๐๐,๐
30/58
Dendrograms
Hierarchical clustering applied to iris dataset0
12
34
56
Complete Linkage
Hei
ght
โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ
โถ Leaf colours represent iris type: setosa, versicolor and virginicaโถ Height is the distance between clustersโถ The tree can be cut at a certain height to achieve a finalclustering. Long branches mean large increase in within clusterscatter at join 31/58
Remember QDA
In Quadratic Discriminant Analysis (QDA) we assumed
๐(๐ฑ|๐) = ๐ (๐ฑ|๐๐, ๐บ๐) and ๐(๐) = ๐๐
This is known as a Gaussian Mixture Model (GMM) for ๐ฑ where
๐(๐ฑ) =๐พโ๐=1
๐(๐)๐(๐ฑ|๐) =๐พโ๐=1
๐๐๐ (๐ฑ|๐๐, ๐บ๐)
QDA used that the classes ๐๐ and feature vectors ๐ฑ๐ of theobservations were known to calculate ๐๐ , ๐๐ and ๐บ๐ .
What if we only know the features ๐ฑ๐?
32/58
Expectation-Maximization for GMMs
Finding the MLE for parameters ๐ฝ in GMMs results in aniterative process called Expectation-Maximization (EM)
1. Initialize ๐ฝ2. E-Step: Update
๐๐๐ =๐๐๐(๐ฑ๐|๐๐, ๐บ๐)
โ๐พ๐=1 ๐๐๐(๐ฑ๐|๐๐, ๐บ๐)
3. M-Step: Update
๐๐ =โ๐
๐=1 ๐๐๐๐ฑ๐โ๐
๐=1 ๐๐๐๐๐ =
โ๐๐=1 ๐๐๐๐
๐บ๐ =1
โ๐๐=1 ๐๐๐
๐โ๐=1
๐๐๐(๐ฑ๐ โ ๐๐)(๐ฑ๐ โ ๐๐)๐
4. Repeat steps 2 and 3 until convergence33/58
Density-based clusters
A cluster ๐ถ is a set of points in ๐ท s.th.
1. If ๐ โ ๐ถ and ๐ is density-reachable from ๐ then ๐ โ ๐ถ(maximality)
2. For all ๐, ๐ โ ๐ถ: ๐ and ๐ are density-connected(connectivity)
This leads to three types of points
1. Core points: Part of a cluster and at least ๐min points inneighbourhood
2. Border points: Part of a cluster but not core points3. Noise: Not part of any cluster
Note: Border points can have non-unique cluster assignments
34/58
Density-based clusters
A cluster ๐ถ is a set of points in ๐ท s.th.
1. If ๐ โ ๐ถ and ๐ is density-reachable from ๐ then ๐ โ ๐ถ(maximality)
2. For all ๐, ๐ โ ๐ถ: ๐ and ๐ are density-connected(connectivity)
This leads to three types of points
1. Core points: Part of a cluster and at least ๐min points inneighbourhood
2. Border points: Part of a cluster but not core points3. Noise: Not part of any cluster
Note: Border points can have non-unique cluster assignments
34/58
Density-based clusters
A cluster ๐ถ is a set of points in ๐ท s.th.
1. If ๐ โ ๐ถ and ๐ is density-reachable from ๐ then ๐ โ ๐ถ(maximality)
2. For all ๐, ๐ โ ๐ถ: ๐ and ๐ are density-connected(connectivity)
This leads to three types of points
1. Core points: Part of a cluster and at least ๐min points inneighbourhood
2. Border points: Part of a cluster but not core points3. Noise: Not part of any cluster
Note: Border points can have non-unique cluster assignments
34/58
Density-based clusters
A cluster ๐ถ is a set of points in ๐ท s.th.
1. If ๐ โ ๐ถ and ๐ is density-reachable from ๐ then ๐ โ ๐ถ(maximality)
2. For all ๐, ๐ โ ๐ถ: ๐ and ๐ are density-connected(connectivity)
This leads to three types of points
1. Core points: Part of a cluster and at least ๐min points inneighbourhood
2. Border points: Part of a cluster but not core points3. Noise: Not part of any cluster
Note: Border points can have non-unique cluster assignments
34/58
Density-based clusters
A cluster ๐ถ is a set of points in ๐ท s.th.
1. If ๐ โ ๐ถ and ๐ is density-reachable from ๐ then ๐ โ ๐ถ(maximality)
2. For all ๐, ๐ โ ๐ถ: ๐ and ๐ are density-connected(connectivity)
This leads to three types of points
1. Core points: Part of a cluster and at least ๐min points inneighbourhood
2. Border points: Part of a cluster but not core points3. Noise: Not part of any cluster
Note: Border points can have non-unique cluster assignments
34/58
DBSCAN algorithm
Computational procedure:
1. Go through each point ๐ in the dataset ๐ท2. If it has already been processed take the next one3. Else determine its ๐-neighbourhood. If less than ๐minpoints in neighbourhood, label as noise. Otherwise, starta new cluster.
4. Find all points that are density-reachable from ๐ and addthem to the cluster.
35/58
Dependence on ๐min
โถ Controls how easy it is to connect components in acluster
โถ Too small and most points are core points, creating manysmall clusters
โถ Too large and few points are core points, leading to manynoise labelled observations
โถ A cluster has by definition at least ๐min pointsโถ Choice of ๐min is very dataset dependentโถ Tricky in high-dimensional data (curse of dimensionality,everything is far apart)
36/58
Dependence on ๐
โถ Controls how much of the data will beclustered
โถ Too small and small gaps in clusterscannot be bridged, leading to isolatedislands in the data
โถ Too large and everything is connectedโถ Choice of ๐ is also dataset dependentbut there is a decision tool
โถ Determine distance to the ๐ nearestneighbours for each point in thedataset
โถ Inside clusters, increasing ๐ shouldnot lead to a large increase of ๐
โถ The optimal ๐ is supposed to beroughly at the knee
0 500 1000 1500 2000
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Points (sample) sorted by distance
4โN
N d
ista
nce
37/58
Dimension reduction and datarepresentation
Overview
1. Principal Component Analysis (PCA; Lecture 5)2. Singular Value Decomposition (SVD; Lecture 5, 11 & 15)3. Factor Analysis (Lecture 11)4. Non-negative matrix factorization (NMF; Lecture 11 & 12)5. Kernel-PCA (kPCA; Lecture 12)6. Multi-dimensional scaling (MDS; Lecture 13)
โถ Classical scaling and metric MDS for general distancematrices
7. Isomap (Lecture 13)8. t-distributed Stochastic Neighbour Embedding (tSNE;Lecture 13)
9. Laplacian Eigenmaps (Lecture 14)
38/58
Principal Component Analysis (PCA)
Computational Procedure:
1. Centre and standardize the columns of the data matrix๐ โ โ๐ร๐
2. Calculate the empirical covariance matrix ๐บ = 1๐ โ 1๐
๐๐3. Determine the eigenvalues ๐๐ and correspondingorthonormal eigenvectors ๐ซ๐ of ๐บ for ๐ = 1,โฆ , ๐ and orderthem such that
๐1 โฅ ๐2 โฅ โฏ โฅ ๐๐ โฅ 04. The vectors ๐ซ๐ give the direction of the principalcomponents (PC) ๐ซ๐๐ ๐ฑ and the eigenvalues ๐๐ are thevariances along the PC directions
Note: Set ๐ = (๐ซ1, โฆ , ๐ซ๐) and ๐ = diag(๐1, โฆ , ๐๐) then๐บ = ๐๐๐๐ and ๐๐๐ = ๐๐๐ = ๐๐ 39/58
PCA and Dimension Reduction
Recall: For a matrix ๐ โ โ๐ร๐ with eigenvalues ๐1, โฆ , ๐๐ itholds that
tr(๐) =๐โ๐=1
๐๐
For the empirical covariance matrix ๐บ and the variance of the๐-th feature Var[๐ฅ๐]
tr(๐บ) =๐โ๐=1
Var[๐ฅ๐] =๐โ๐=1
๐๐
is called the total variation.Using only the first ๐ < ๐ principal components leads to
๐1 +โฏ+ ๐๐๐1 +โฏ+ ๐๐
โ 100% of explained variance40/58
Better data projection for classification?
Idea: Find directions along which projections result inminimal within-class scatter and maximal between-classseparation.
Projection ontofirst principal component
Projection ontofirst discriminant
LDA decisionboundary
PC1
LD1
41/58
Non-negative matrix factorization (NMF)
A non-negative matrix factorisation of ๐ with rank ๐ solves
arg min๐โโ๐ร๐,๐โโ๐ร๐
โ๐ โ๐๐โ2๐น such that ๐ โฅ 0,๐ โฅ 0
โถ Sum of positive layers: ๐ โ๐โ๐=1
๐โ ๐๐๐โ ๐
โถ Non-negativity constraint leads to sparsity in basis (in๐)and coefficients (in ๐) [example on next slides]
โถ NP-hard problem, i.e. no general algorithm exists
42/58
SVD vs NMF โ Example: Reconstruction
MNIST-derived zip code digits (๐ = 1000, ๐ = 256)100 samples are drawn randomly from each class to keep theproblem balanced.
NMF 1 NMF 2 NMF 3 NMF 4 NMF 5
PCA 1 PCA 2 PCA 3 PCA 4 PCA 5
Red-ish colours are for negative values, white is around zeroand dark stands for positive values
43/58
SVD vs NMF โ Example: Basis Components
Large difference betweenSVD/PCA and NMF basiscomponents
NMF captures sparsecharacteristic parts whilePCA components capturemore global features.
NMF 6 NMF 7 NMF 8 NMF 9 NMF 10
NMF 1 NMF 2 NMF 3 NMF 4 NMF 5
PCA 6 PCA 7 PCA 8 PCA 9 PCA 10
PCA 1 PCA 2 PCA 3 PCA 4 PCA 5
44/58
SVD vs NMF โ Example: CoefficientsSVD coefficients
NMF coefficients
Note the additional sparsity in the NMF coefficients. 45/58
t-distributed Stochastic Neighbour Embedding (tSNE)
t-distributed stochastic neighbour embedding (tSNE) followsa similar strategy as Isomap, in the sense that it measuresdistances locally.Idea: Measure distance of feature ๐ฑ๐ to another feature ๐ฑ๐proportional to the likelihood of ๐ฑ๐ under a Gaussiandistribution centred at ๐ฑ๐ with an isotropic covariance matrix.
46/58
Computation of tSNE
For feature vectors ๐ฑ1, โฆ , ๐ฑ๐, set
๐๐|๐ =exp(โโ๐ฑ๐ โ ๐ฑ๐โ22/(2๐2๐ ))
โ๐โ ๐ exp(โโ๐ฑ๐ โ ๐ฑ๐โ22/(2๐2๐ ))and ๐๐๐ =
๐๐|๐ + ๐๐|๐2๐ , ๐๐๐ = 0
The variances ๐2๐ are chosen such that the perplexity (here:approximate number of close neighbours) of each marginaldistribution (the ๐๐|๐ for fixed ๐) is constant.In the lower-dimensional embedding distance between ๐ฒ1, โฆ , ๐ฒ๐ ismeasured with a t-distribution with one degree of freedom orCauchy distribution
๐๐๐ =(1 + โ๐ฒ๐ โ ๐ฒ๐โ22)
โ1
โ๐โ ๐ (1 + โ๐ฒ๐ โ ๐ฒ๐โ22)โ1 and ๐๐๐ = 0
To determine the ๐ฒ๐ the KL divergence between the distributions๐ = (๐๐๐)๐๐ and ๐ = (๐๐๐)๐๐ is minimized with gradient descent
KL(๐||๐) = โ๐โ ๐
๐๐๐ log ๐๐๐๐๐๐47/58
Caveats of tSNE
tSNE is a powerful method but comes with some difficulties aswell
โถ Convergence to local minimum (i.e. repeated runs cangive different results)
โถ Perplexity is hard to tune (as with any tuning parameter)
Letโs see what tSNE does to our old friend, the moons dataset.
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ โ
โโ
โ
โ
โ
โโโ
โ โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ โ โ
โ
โโ
โโ
โ
โ
โ โ
โโโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโโ
โ
โ
โ โ
โ
โ
โ
โ
โ
โโ โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โโ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโโ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โโ
โโ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ โ โโโ โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โโ โโ
โ โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โโ
โ
โโ
โ
โ
โ
โ โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โโ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โโโ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โโ
โโ
โโ
โโ
โโ2
0
2
โ4 โ2 0 2 4 6
x
y
48/58
Influence of perplexity on tSNE
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ โโ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ โ
โ
โโ
โโ
โโโ
โโโ
โ
โโ
โโ
โ
โ
โโ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ โ
โ
โ
โ
โโโ
โ
โ
โ
โโ
โโ
โ
โโ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โโโ
โ
โ
โโโ
โโ
โโ
โ
โโ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โโโ
โโ
โ
โโโโโโ
โ
โ
โโ
โโโโ
โโ
โ
โ
โโโ
โโ
โ
โโ
โ
โโ
โโ
โ
โ
โ
โ
โโ
โ
โโโ
โโ
โ
โ
โโ
โโ
โ
โโโโโ
โ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โโโ
โโ
โ
โ
โ
โโโ
โ
โ
โ
โโ
โ
โโ
โโ
โ
โโ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โโโโ
โโ
โโโโโ
โโโ
โ
โ
โ
โ
โโ
โโ
โ
โ
โโ
โ
โ
โโโโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโโโ
โ
โ
โโ
โ
โ
โ
โโ
โ
โโ
โ
โโ
โ
โ
โโ
โโ
โโโ
โโโ
โโ
โโโ
โ
โโ
โโ
โ
โ
โ
โ
โโ
โ
โ
โโโ
โโ
โ
โโ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โ
โ
โโ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โโ
โโ
โโ
โ
โ
โโ
โโ โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โโโ
โโ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โโ
โโ
โ
โโ
โโ
โโ
โโ
โ
โ
โโ
โ
โโ
โโ
โโโ
โ
โโ
โ
โโ
โโ
โโโ
โ
โโ
โโโ
โ
โ
โโโโโ
โ
โโ
โโ
โ
โโ
โโ
โโโโ
โ
โ
โ
โโ
โโ
โ
โโโ
โ
โโ
โ
โ
โโโโ
โโ
โโ
โ
โ
โโ
โโ
โ
โ
โ โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โโโ
โโ
โโ โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ โโ
โ
โโโ
โ
โโ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ โโ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โโ
โ โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโโ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โโ
โ โ
โ
โ
โ
โ
โโ
โโ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โโ
โ
โ
โโโ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โโ
โ
โ
โโ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โโ
โโ
โ
โ
โ
โ
โโ
โโ
โโ
โ
โ
โโ
โ โโโ
โ
โโ
โโ โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ โโ
โ
โ
โ
โโ
โโ
โ
โโ โ
โ
โโ
โ
โโ
โโโโ
โ
โ
โ
โ
โ
โ โ
โโ
โ
โโ
โโโโโ
โโโโ
โโ
โโโ
โ
โโ
โ
โโโ
โโ
โโโ โ
โ
โโโ
โโโ
โ
โ
โ
โโโโ
โ
โ
โโ
โโโโ
โ
โ โโ
โ
โ
โโ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โโ
โโโโ
โโ
โโโโโ
โโ
โ
โโ
โ
โโ
โโโโ
โ
โโ
โ
โโโโ
โโ
โ
โโโโโโ
โ
โ
โโ
โโโโ
โโ
โ
โ
โโโ
โโ
โ
โโโ
โโ
โโ
โโ
โ
โ
โโ
โโโโ
โโ
โโ
โโโโ
โ
โโโโโโ
โ
โ
โ โโโ
โ
โ
โ
โโ
โโโ
โโโ
โ
โ
โโโ
โโ
โโโโ
โโ
โโ โ
โโ
โ
โโโ
โ
โ
โ
โโ
โ โโ
โ
โโโโ
โโโ
โโโโ
โโ
โโโโ โโ
โโโ โโ
โ
โโ
โโโ
โ
โโโ
โ
โโโโ
โ
โ
โโ
โ
โโ
โ
โโ
โ
โโ
โ
โโโโ
โ
โโโ
โ
โ
โ
โโ
โโ
โโ
โโ
โ
โ
โโ
โโ
โโโ
โโโ
โโโ
โโโ
โโ
โโ
โ
โโ
โ
โโ
โ
โ
โโโ
โโโโโ
โโ
โโ
โโ
โ
โ
โโโ
โ
โโ
โ
โโ
โโ
โโ
โโ
โ
โโ
โ
โโ
โ โโ
โโ
โโ
โ
โโโโโ
โโ
โโโ
โ
โโโ
โโโโ
โโ
โโ
โโโ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โโ
โโ
โโ
โโ
โโโ
โโ
โโ
โโ
โโโ
โโโโโ
โ
โโ
โโโ
โโ
โโโ
โ
โโ
โโโ
โ
โ
โโโโโ
โโโโโ
โ
โโ
โโ
โโโโ
โ
โ
โโโ
โโ
โโโโ
โโโ
โ
โ
โโโโ
โโ
โโ
โ
โโโ
โโโ
โ
โ
โโ โโ
โโโ
โ
โ
โ โโ
โ
โ
โ
โโ
โโโ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ โโ
โ
โ
โ
โโ
โโ โ
โ
โโ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ โ
โ
โ
โโ โ
โ
โ
โ
โ โโ
โ
โ โโ
โ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โโ
โ
โโโโ
โ
โ
โ
โ
โโ
โโ โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ โโ
โ
โ
โโ
โโ
โโ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โโ โ
โ
โ
โ
โ
โ โโ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โโ โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โโ
โโโโ
โ
โโ
โ
โ
โ
โ
โโโ
โ
โโ
โโ
โ
โ
โ
โโโโ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโโ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ โ
โ
โโ
โโ โ
โ
โโ
โโโ
โ
โโ
โ โโ
โโ โ
โโ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ โ
โ
โ โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โโ โ
โ
โโ
โ โ
โ
โ โโโ
โ
โโ
โ
โ
โโ
โ
โ โ
โ
โ
โ
โโ โ
โ
โโ โ
โ โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โโ
โ
โโ
โโ
โโโ
โ
โ
โ
โ
โโ
โโ
โโโ
โ
โโ
โ
โ โ
โ
โ
โ
โ
โโโ
โ
โโ
โ โ
โ
โโ
โโ
โโโโ
โ
โโ
โโ
โโ
โ
โโโ
โ
โโ
โ
โ
โ
โโโ
โ
โโโ
โ
โ
โ โ
โโ
โ
โโโโโโโโโโ
โโโโ
โโ
โ
โโ
โโโ
โโ
โโโ
โโโ
โโโโโโ
โโ
โโโโโโ
โ
โโโโโโโ
โโโโ
โโ
โโโ
โโ
โโโ
โ
โ
โโโโ
โโโโ
โโ
โโโโโโโโ
โโโ
โโโ
โโโโ
โโ
โ
โโโโโโ
โโโโโโโ
โ
โ
โโ
โโโโ
โโโ
โโโโ
โโโ
โโโโโ
โโโ
โ
โ
โโโ
โโโโ
โโ
โโ
โโโโ
โโโโโโโ
โ
โ
โโโโโโโ
โโ
โโโโโโโ
โ
โโโ
โโโโโ
โโโ
โโโ
โโโโโโ
โโ
โ
โโ
โโโ
โโโโ
โโโโ
โโโโโโ
โโโโโโโ
โโโโ
โโโโโโโโโโ
โ
โโโโโโ
โโ
โโโโ
โโโ
โโโโโโโ
โโโโโโ
โโโ
โโโโโโ
โโ
โโโโ
โโโโ
โโโโโโโโ
โโโโ
โโโโโโ
โโ
โโโโโโโโโโ
โโโโโ
โโโโ
โ
โโโ
โโโโ
โโโ
โโ
โโโ
โโโโโโโโโ
โโโโโโ
โโโโโ
โโโโ
โโโโโโ
โโ
โโโโ
โโ
โโ
โโ
โโ
โโโโโ
โโ
โโ
โ
โโโ
โโโโ
โโโ
โโโโโโโโ
โโโโโโโโโโโโโ
โโโ
โโโโโโโ
โ
โโโโโโ
โโโโโโ
โโโโโโ
โโโโโโโโ
โโ
โโโโโ
โโโโโโโ
โโ
โโโโ โโโโโ
โโโโโโ
30 50 100
2 5 15
โ100 โ50 0 50 โ100 โ50 0 50 โ100 โ50 0 50
โ50
0
50
โ50
0
50
tSNE1
tSN
E2
Varying perplexity
Transformed with tSNE
49/58
tSNE multiple runs
โ โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โโ
โ
โโ โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โโโ
โโ
โ โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โโโ
โโ
โโ
โ
โ
โ
โ
โโ
โโโ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โโ
โ
โโ
โ
โ
โโโ
โ
โโโ
โโโ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ โ
โ
โโ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โโโ
โโ
โ
โ
โ
โ
โ
โ
โโ
โโโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โโ
โโ
โ
โ โ
โ
โ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโโ
โ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ โโ โโ โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ โโ
โ
โ
โโโ โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โโ
โโ
โโ โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ โโ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โโ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ โ
โโ
โโ
โ
โ
โ โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ โ
โ
โโ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ โ
โ
โ โ
โโ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโโโ
โ
โ โโ
โ
โ
โโ โ
โ
โโ
โโโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ โ
โ โ
โ
โโ
โ
โ
โโ
โโ
โ
โ
โโโ
โโ
โ โโ โ
โ โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ โ
โ โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ โ
โ
โโ โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โโ
โโโ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ โโ
โ
โโ
โ
โ
โ
โโ
โ
โโโ
โโโ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ โ
โ
โโ
โ
โ
โโโ
โ
โ
โโ
โ
โ
โ
โโ
โ
โโ
โ
โโโ
โ
โ
โ
โโ
โโโ
โโ
โโ
โ
โโ โ
โ
โโ
โ โโ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โโ
โโ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ โ
โ
โโ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โโโ
โ
โ
โ
โโโโ
โ
โโ
โโโ โ
โ
โ
โโโ
โโ
โ โ
โ
โ โโ
โ
โ
โ
โโ
โโ
โ
โโ
โ
โ
โโ
โโโ
โโ โ
โ
โโ
โ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โโโ
โโ
โ
โ
โโโ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โโ โ
โ
โ
โ
โ โ
โโ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโโ
โ
โ
โโโ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โโโ โโ
โ
โ
โ
โ
โ
โโโโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โโ
โโ
โ โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ โ โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโโ
โ
โ
โโโโ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โโ
โ
โโโโ
โ
โ
โโ
โ
โ
โ
โ โ
โ
โ
โ โ
โ
โ
โ
โ
โโ
โโ
โโโโ โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โโโ
โโ
โ
โ โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โโ
โ โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โโ
โ
โโ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โโ
โโโ
โ
โ
โ
โโ โ โ
โ
โโ
โโโโ
โโ
โโ โ
โโ
โโโ
โโ โ
โ
โ
โ
โโ
โโ
โ
โโ
โ
โ
โโ
โ
โ
โโโโ โโ
โโ
โ
โ
โโ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โโ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โโ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โโ
โ
โ
โ โโ
โโโ
โโ
โ
โโ
โโโ
โ
โ
โโ
โ
โ
โ
โ โ
โ
โ
โโ
โโ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โ
โโ
โโ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ โ
โ
โ
โโ
โ
โ โโ
โ
โโ
โโ
โโ
โโ
โโโ โ
โ
โ โ
โ
โโ
โ
โ
โ โโ
โโ
โ
โโโโ
โโโ
โโ
โ
โโ
โ โโโ
โ
โ
โ
โ
โ
โโ
โโ
โ โโ โ
โ
โโโ
โ
โ
โ
โ
โ
โโ
โ
โ
โโโ
โ
โ
โโโ
โโ
โโ โ
โโ
โ
โ
โโ
โ
โโโ
โ
โ
โ
โ
โโ โ
โ
โ โโ
โ
โ
โโโโ
โ
โ
โโ
โ
โ โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ โ
โ
โโ
โ
โโ
โ
โโ
โ โโ
โโโ
โโโ
โโโ
โ
โ
โ
โ
โโ
โโโ
โ
โโ โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ โโโโ
โ
โ
โ
โ
โ
โ
โโ
โโโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โโโ
โ
โ
โ
โโ
โโ
โ
โโโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโโ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โโ
โโโ
โ
โ
โ
โ
โ
โ
โโ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โโโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ โโ
โ
โโ
โ
โ
โ โโ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ โโโ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โโ
โ
โ
โ
โโโ
โ
โ โโ
โ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โโ โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โโ
โ
โ
โโ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ โโ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โโโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโโ
โ
โ
โ
โโ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโโ
โโ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โโ โ
โโ
โ
โ โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโโ
โ
โ
โ
โโโ
โ
โโโ
โ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ โโ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โโ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โโโ
โ
โ
โ
โ
โ
โ โ โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ โโ โ
โ
โ
โโ
โ
โโโ
โ
โ
โ
โ
โโ
โ
โโโ
โโโโ
โ
โ
โโ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโโ
โ
โโ
โ โ
โ
โ
โ
โ
โโ
โโ
โ
โโ
โ
โ
โโ
โ
โ
โโโ
โโ
โ
โ
โ โ
โโ
โ โโ
โ
โ โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ โ
โ
โโ
โ
โ
โ
โโ โ
โ
โ
โ
โ
โ
โโ โ
โ
โ
โโ
โโ
โโโ
โ
โ
โ โโโ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โโ
โ
โ
โโ
โโโ
โ
โ โโ
โ
โ
โโโ
โโ
โโ โโ โ
โโโโ
โ
โโ
โ
โโ
โ
โ
โ
โ
โโโ
โโ โ โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โโโ
โโ
โโโ โ
โ
โ โ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โโ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ โ
โ
โ
โ
โโ
โ
โ
โโ
โโโ
โ
โโ
โ
โ
โ
โ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ โ
โ
โโโ
โ
โโโ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โโโ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ โ
โ
โโ
โโ
โ
โโ
โ
โ
โ
โ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโ
โ
โ
โโ
โโ
โ
โ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ
โโโ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โ
โโโ
โ โ
โโโ
โ
โโโ
โ
โ
โโ
โ
โ
โ
โ
โโ
โโ โ
โโโ
โ
โโ
โ
โ
โ
โโ
โ
โ
โ
โ โ
โ
โ
โโ
โโ
โ
6 7 8 9 10
1 2 3 4 5
โ20 0 20 โ20 0 20 โ20 0 20 โ20 0 20 โ20 0 20
โ20
0
20
40
โ20
0
20
40
tSNE1
tSN
E2
Perplexity = 20, multiple runs
Transformed with tSNE
50/58
Large scale methods
Overview
โถ Randomised low-rank SVD (Lecture 15)โถ Divide and Conquer (Lecture 15)โถ Random Forests with big-๐ extensions (Lecture 15)โถ Leveraging (Lecture 15)
51/58
Random projection
There are multiple possibilities how the map ๐ in theJohnson-Lindenstrauss theorem can be found.Let ๐ โ โ๐ร๐ be a data matrix and ๐ the target dimension.
โถ Gaussian random projection: Set
ฮฉ๐๐ โผ ๐ (0, 1๐) for ๐ = 1, โฆ , ๐, ๐ = 1,โฆ , ๐
โถ Sparse random projection: For a given ๐ > 0 set
ฮฉ๐๐ =โ๐ ๐โงโจโฉ
โ1 1/(2๐ )0 with probability 1 โ 1/๐ 1 1/(2๐ )
for ๐ = 1, โฆ , ๐, ๐ = 1,โฆ , ๐ where often ๐ = 3(Achlioptas, 2003) or ๐ = โ๐ (Li et al., 2006)
then ๐ = ๐๐ โ โ๐ร๐ is a random projection for ๐. 52/58
Randomized low-rank SVD
Original goal: Apply SVD in cases where both ๐ and ๐ are large.Idea: Determine an approximate low-dimensional basis forthe range of ๐ and perform the matrix-factorisation in thelow-dimensional space.
โถ Using a random projection ๐ โ ๐๐๐๐ = ๐๐โถ Note that ๐ โ โ๐ร๐
โถ Calculate the SVD of ๐ = ๐0๐ร๐
โ ๐๐ร๐
โ ๐๐๐ร๐
โถ Set ๐ = ๐๐0 โ โ๐ร๐, then ๐ โ ๐๐๐๐
The SVD of ๐ can therefore be found by random projectioninto a ๐-dimensional subspace of the range of ๐, performingSVD in the lower-dimensional subspace and subsequentreconstruction of the vectors into the original space.
53/58
Divide and conquer
๐ โฎ
๐2
๐1
๐๐พโ1
๐๐พ
โฎ
๐(๐2)
๐(๐1)
๐(๐๐พโ1)
๐(๐๐พ)
sum, mean, โฆ
DivideAll data Conquer Recombine
54/58
Random forests for big-๐
Instead of the standard RF with normal bootstrapping,multiple strategies can be taken
โถ Subsampling (once): Take a subsample of size ๐ andgrow RF from there. Very simple to implement, butdifficult to ensure that the subsample is representative.
โถ ๐-out-of-๐ sampling: Instead of standard bootstrapping,draw repeatedly ๐ samples and grow a tree on eachsubsample. Recombine trees in the usual fashion.
โถ BLB sampling: Grow a forest on each subset byrepeatedly oversampling to ๐ samples.
โถ Divide and Conquer: Split original data in ๐พ parts andgrow a random forest on each.
55/58
Leverage
Problem: RepresentativenessHow can we ensure that a subsample is still representative?
We need additional information about the samples. Considerthe special case of linear regression and ๐ >> ๐.
Recall: For least squares predictions it holds that๏ฟฝ๏ฟฝ = ๐ ๐ท = ๐(๐๐๐)โ1๐๐๐ฒ = ๐๐ฒ
with the hat-matrix ๐ = ๐(๐๐๐)โ1๐๐ .
Specifically ๐ฆ๐ = โ๐๐=1๐ป๐๐๐ฆ๐ , which means that ๐ป๐๐ influences
its own fitted values.
Element ๐ป๐๐ is called the leverage of the observation.Leverage captures if the observation ๐ is close or far from thecentre of the data in feature space. 56/58
Leveraging
Goal: Subsample the data, but make the more influential datapoints, those with high leverage, more likely to be sampled.
Computational approach
โถ Weight sample ๐ by
๐๐ =๐ป๐๐
โ๐๐=1๐ป๐๐
โถ Draw a weighted subsample of size ๐ โช ๐โถ Use the subsample to solve the regression problem
This procedure is called Leveraging (Ma and Sun, 2013).
57/58
Outlook
Where to go from here?
โถ Support vector machines (SVM): Chapter 12 in ESLโถ (Gradient) Boosting: Chapter 10 in ESLโถ Gaussian processes: Rasmussen and Williams (2006)Gaussian Processes for Machine Learning1
โถ Streaming/online methods2โถ Neural networks/Deep Learning: Bishop (2006) PatternRecognition and Machine Learning
โถ Natural Language Processing: Course3 by RichardJohansson, CSE, on this topic in the fall
โถ Reinforcement Learning: Sutton and Barto (2015)Reinforcement Learning: An Introduction4
1http://www.gaussianprocess.org/gpml/chapters/RW.pdf2https://en.wikipedia.org/wiki/Online_machine_learning3https://chalmers.instructure.com/courses/79164https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf
58/58