2014 hpocon 姚仁捷 唯品会 - data driven ops

45
Data Driven Ops @超杯摩卡星冰乐 2014-11-08

Upload: michael-zhang

Post on 03-Jul-2015

135 views

Category:

Internet


3 download

DESCRIPTION

2014 Hpocon 姚仁捷 唯品会 - data driven ops

TRANSCRIPT

Page 1: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

Data Driven Ops@超⼤大杯摩卡星冰乐

2014-11-08

Page 2: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

Agenda

• Ops/Biz Data in VIP

• How to Debug

• Maths-Driven Ops

Page 3: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

Ops Data in VIP

Page 4: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

What We have Done

Page 5: 2014 Hpocon 姚仁捷   唯品会 - data driven ops
Page 6: 2014 Hpocon 姚仁捷   唯品会 - data driven ops
Page 7: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

What We are Doing now

• Full Nginx Data Into HBase for searching

Page 8: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

Metrics Layer

• System:Linux

• App:Java,PHP,tomcat…

• Biz:things about Money…

Page 9: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

数据可视化的重要性

• 单⼀一的⼀一个数据点不说明任何意义

• 数据的趋势才是我们需要关注的

Page 10: 2014 Hpocon 姚仁捷   唯品会 - data driven ops
Page 11: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

• 皇上---------Boss

• 太监说的事---------数据说明的问题

Page 12: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

太监是什么?

Page 13: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

太监是把裸露的枯燥的数据变成⽼老板愿意看的,能从中看出内容的⼯工具——数据可视化

Page 14: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

How to Debug

Page 15: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

⾼高性能意味着什么

• ⼤大量服务器

• 分布式系统

• ⼤大量的错误

Page 16: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

What is Maths

• ⾼高中数学——解⽅方程,⼏几何

• ⼤大学数学——微积分

Page 17: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

⼀一道题

• ⼩小明有⼀一天想测试⼀一下⾛走路快还是骑⾃自⾏行⻋车快。如果你是⼩小明,你怎么测试?

Page 18: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

控制变量法

Page 19: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

Rule: Changes makes issues

Page 20: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

纵向,横向分析问题

• 分布式集群中某个节点出了问题

Page 21: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

横向

• 出问题的节点和同⼀一个集群中其他节点⽐比较

Page 22: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

纵向

• 出问题的节点在出问题的时间点和之前有什么区别

Page 23: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

⽐比较什么

• Linux Metrics

• App Metrics

• Log⽇日志

Page 24: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

怎么去看⽇日志

• 出问题的时间点附近,有没有异常

• 灵活使⽤用awk,sort,cut,uniq。。。

Page 25: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

数学在容量规划上的⽤用处

Page 26: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

• 这次⼤大促,要⽤用多⼤大的机器才能顶得住

Page 27: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

解⼀一个⼀一元⼆二次⽅方程

• f(x)=ax+b

• f(1)=3

• f(2)=4

Page 28: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

类线性系统的容量预测

• ⼤大促需要多少服务器,就是寻找服务器数量和流量之间的关系

• 我们使⽤用线性模型进⾏行预测

Page 29: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

为什么是线性模型

Page 30: 2014 Hpocon 姚仁捷   唯品会 - data driven ops
Page 31: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

⺫⽬目标

Page 32: 2014 Hpocon 姚仁捷   唯品会 - data driven ops
Page 33: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

原理

• 最⼩小⼆二乘拟合

• 对于线性模型,有现成公式套

Page 34: 2014 Hpocon 姚仁捷   唯品会 - data driven ops
Page 35: 2014 Hpocon 姚仁捷   唯品会 - data driven ops
Page 36: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

⽤用途

• 根据现有机器的运⾏行状况,去预测未来将要碰到的问题

Page 37: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

智能化报警

Page 38: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

• 当我们看到trend,⼈人类是怎么分辨是否出问题的?

• 能不能⽤用计算机语⾔言来表⽰示?

• 这就是报警条件

• 如何⾃自动⽣生成报警条件

Page 39: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

Etsy Kale

• skyline:extendible algorithms automatically detect what it means for each metric to be anomalous

• oculus:Once you’ve identified an interesting or anomalous metric, Oculus will find all of the other metrics in your systems which look similar.

Page 40: 2014 Hpocon 姚仁捷   唯品会 - data driven ops
Page 41: 2014 Hpocon 姚仁捷   唯品会 - data driven ops
Page 42: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

Further

• Andrew-NG在Cousera的课程——Machine Learning

Page 43: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

回顾

• 数据可视化重要性

• 横向,纵向debug问题

• 线性模型的容量规划

• 智能报警

Page 44: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

Q&A

Page 45: 2014 Hpocon 姚仁捷   唯品会 - data driven ops

Thanks all!