信号统计建模概述 - ustchome.ustc.edu.cn/~nnf8185/ppt/no.1.pdf · 信号统计建模概述...

信号统计建模概述

杜俊[email protected]

演示者演示文稿备注信号统计建模这门课其实是在今年暑假的时候由加拿大约克大学的江辉教授开授，初衷是想结合一些实际应用的介绍，让大家知道自己在本科阶段所学的数学知识是很有用的，其实江老师这门课在约克大学已经讲了好几个学期，我基本上全程都旁听了，觉得讲的很好。现在由于系里这学期还要再开一次，所以就让我来讲，而且这也是我第一次在科大开课，所以其实是压力山大的。我希望上课时没讲清楚的地方大家能够及时指出来，更多的进行讨论。

自我介绍2004-2009 科大讯飞语音实验室语音识别/增强

2009-2010 科大讯飞研究院语音识别/增强

2010-2013 微软亚洲研究院手写识别/光学字符识别

2013- 中科大语音及语言信息处理国家工程实验室

Google Scholar主页

演示者演示文稿备注下面我简单自我介绍一下，其实我是个土著，不仅是科大土著，也是合肥土著。我00年本科入学，09年博士毕业，专业是语音信号处理，那毕业以后在科大讯飞做了一年，然后又在微软亚洲研究院做了两年半，今年年初加入科大的语音国家工程实验室。所以我算是即在外企呆过，也在民企呆过；即在工业界呆过，也在学术界呆过，在以后上课的时候除了讲知识以外，也想和大家分享一些看到的想到的东西，希望对大家将来的继续深造或者就业，都能有一些启发。我现在的主要研究方向偏多模态交互技术，包括语音识别，手写识别，光学字符识别，然后还有语音增强等等。

课程信息及考核• 课程主页

http://home.ustc.edu.cn/~nnf8185/

• 课程考试– 随堂小测验（40分，共4次）– 期末考试（60分）

演示者演示文稿备注好，下面先来说一下课程信息和考核相关的事情。课程的主要信息大家可以通过访问这个主页来获得，包括课件下载，参考阅读材料和课程作业及考试信息等等。这次的课件在江老师英文课件的基础上进行了修改，首先内容改成中文，方便大家上课时更好地回忆消化，另外是应用方面减少了一部分，加入了一些我自己比较熟悉也是当前比较热门的应用。这门课的助教是我们实验室的王青同学，大家关于课程或者作业有什么问题都可以反馈给她，当然也可以直接发邮件给我。这门课的考核呢，考虑到学期中才开课，同学们还有其他课程，所以相对比暑假课程来说，任务量已经有所减少。分为三个部分，第一个是随堂小测验，随机性的，共4次，每次5道是非题，内容都在课件里面，只要大家来上课，基本上是送分的。第二个是作业，包括理论和实验两部分，这部分其实是考察的重点，也是希望同学们通过这门课能收获到的部分。第三部分是期末考试，主要是对重点理论知识的一些考核，大家也不用太担心，基础上都是平时作业改头换面，所以你只要把作业中涉及到的知识点把握了，需要大家复习准备的范围其实很有限。最后我想强调一点的是考核不是目的，只是觉得大家选了这么课，花了时间上课，总要有些收获，所以大家可以把考核当成是对收获的一个自我评价，因此关于课后作业，你可以从网上去找相关资料或者代码来参考，从而解决问题，但千万不要互相抄袭，因为将来不管你是做科研还是具体工作中，你都很难有现成的东西给你照着抄。

课程知识架构

应用层

中间层

底层

语音信号、图像信号、生物信号等等

微积分数理统计、线性代数、优化方法等等

各种模型工具：GMM 、 HMM、 NN等等

演示者演示文稿备注那么这门课到底要讲什么呢？这里我给出了一个知识架构。我把所有知识分为三层：底层、中间层和应用层。底层顾名思义，就是最基本的一些数学知识，包括微积分数理统计、线性代数、优化方法等等。中间层可以看成是把底层的东西进行包装得到的一些有用的工具，比如我们后面会介绍的高斯混合模型，隐马尔科夫模型，神经网络等等。应用层则是我们在实际中直接要打交道的各种信号，包括语音信号，图像信号，生物信号等等。实际中的这些信号满足什么样的特性，其实是无从知晓的，所以这个时候就需要把中间层的各种模型工具拿过来从统计的角度一一尝试，这其实也是我们这门课名称的由来。

课时初步安排• 信号统计建模概述• 数学基础知识回顾• 模式分类• 手写识别• 光学字符识别• 语音增强

演示者演示文稿备注这门课一共40个学时，我初步做了一些分配，当然后面也可能会根据进度的快慢进行一些调整。如果按照上一页的分类，基本上就是四个部分，概述，底层，中间层，应用层。

课程定位• 注重应用层面，不追求知识点面面俱到

• 注重概念介绍，不深入探讨细节

• 结合热门应用，对常用数学工具进行重新认识和学习

• 结合实例，认识到工程化能力的重要性

演示者演示文稿备注也因为这门课只有40个学时，所以会注重应用层面，不会追求知识点的面面俱到，注重概念介绍，不深入探讨细节。从另一方面来看，这门课将结合热门应用的介绍，对常用数学工具进行重新认识和学习，同时结合编程实践，让大家认识到工程化能力的重要性。

参考资料• 教材相关

• 课后读物• Wikipedia, Coursera• 预备知识

– 概率统计相关– 线性代数和矩阵分析– 常用编程语言：C/C++, Matlab, Perl

演示者演示文稿备注最后关于这门课的参考资料，这里列了一些。首先是推荐几本相关的教材，前面两本和模式识别和分类相关偏中间层，而最后一本是和语音相关偏应用层。这里重点推荐一下第一本教材，我当时粗粗读完第一遍的时候感觉特别好，一是因为这本书很接地气，提供的很多东西都很前言，不会让你觉得离实用特别远；二是知识架构梳理的非常清晰，总结很全面，让我明白了很多数学工具模型之间的内在关系。这个书网上能下到电子版，但由于版权问题，就没有在主页上给出链接。除了教材之外，还会在课程主页上针对某些知识提供一些课后读物，供有兴趣的同学深入了解。同时也希望大家能够充分利用互联网，比如Wikipedia就能提供给你关于某个概念的权威解释及相关文献。（这门课原来是研究生课）那么大家在听这门课的时候，还是需要有一定的基础，比如概述统计，线性代数和矩阵分析等等，但我相信这些对6系快毕业的学生来说都不是大问题，另外为了实验部分，还需要大家对常用的编程语言有所了解，比如C/C++,Matlab，Perl等等。

微博

在正式开始具体内容之前，问一下同学关于课程方面还有没有什么问题？

概述• 多模态技术应用简介

– 语音识别– 手写识别– 光学字符识别（OCR）

• 模式分类– 总体架构– 特征提取

演示者演示文稿备注好，下面我们正式进入第一部分。关于这门课的概述我打算分两次课讲，今天主要讲一讲多模态交互技术的相关应用，主要还是偏向于语音部分，包括传统应用和新兴应用，以及将来的发展趋势等等；因为这门课的具体应用基本上都和模式分类或者识别有关，所以下次课作为概述的第二部分，将会简单介绍模式分类的概念，总体架构，以及特征提取部分。

为啥要选多模态技术来讲，因为非常重要，在去年北京召开的ACM SIGKDD（数据挖掘知识发现）大会上，李彦宏被邀请做了大会报告，他向学术界和工业界提出了当前还没有很好解决的九大难题，其中OCR和语音识别就排在前两位。这也足以可见这些核心技术对将来应用发展的重要性。

自然用户界面（NUI）

演示者演示文稿备注语音，手势等等众多模态中，那种最自然？这个可能众说纷纭，大家都会各有各的理由，但最起码我们知道传统的鼠标键盘一定不是最自然的，因为多模态交互技术必然是未来人机交互的一个重要趋势。

多模态技术相关子方向• 语音编码（Speech Coding）• 语音增强（Speech Enhancement）• 语音合成（Speech Synthesis）• 语音识别（Speech Recognition）• 语种识别（Language Identification）• 说话人识别/确认（Speaker Identification/Verification）• 手势识别（Gesture Recognition）• 手写识别（Handwriting Recognition）• 光学字符识别（Optical Character Recognition）

演示者演示文稿备注先来介绍下多模态技术的相关子方向（提一下NUI概念）。首先是语音部分。语音编码，为了更好的进行语音通信，对语音进行压缩编解码，这个问题在语音通讯中较早的被解决，并且有各种标准，现在这方面的研究已不多。语音增强也是个经典问题，为了降低语音通信中噪声的影响，实用方面的技术较早成型，最近的进展也不大。语音合成是将文本自动转成相应的语音，比如车载地图中的应用，也很早开始实用，以讯飞为代表。可以看到，语音编码/增强/合成之所以都可以较早实用化的关键在于语音的内容部分不会有变化，有影响的只是在语音的音质部分。而下面要说的语音识别则不同，语音识别是将人说话的内容转成文本，也就是让机器能听懂人说话，这听上去就有人工智能的味道。所以语音识别在所有的语音方向中，技术门槛相对来说是最高的，在识别准确率没达到一定程度后，根本无法实用，一方面因为用户无法接受，另一方面是因为识别错误可能会产生很严重的后果。所以语音识别直到移动互联网时代，并结合大数据和云计算的兴起，才开始了大规模应用的趋势。另外还有两类特殊的语音识别，一个是语种识别，识别的是哪个国家的语言，另一个是说话人识别，识别当前的说话人是谁；语种识别和说话人识别在国家安全方面都有很重要的作用，比如判断罪犯的声音，再如通过语种来初步判断恐怖分子来自什么地方组织。除了语音这个模态外，比较常用的还有手势，比如你的手做一个动作然后机器进行识别，我们成为手势识别，又或者你用手指写一段文字或者符号，我们称为手写识别。最后给一个图像的例子，我们知道图像里面可能存在的物体有很多，比如猫狗啊，车啊，人啊，而这里介绍的是一类比较特殊的，就是文字，那么所谓的光学字符识别，也就是大家可能常听到的OCR就是将图片或者视频里面的文字给识别出来。这里虽然列出了很多子方向，但后面的具体应用我们将主要关注三个，即语音识别，手写识别和光学字符识别。

什么是语音识别• 人与人语音交流时，识别无处不在

• 让机器听懂人说话– 最基本的方式：从语音到文本– 更高级的方式：从语音到理解

• 语音识别的重要意义– 最自然快捷的人机交互方式之一– 残疾人士：手和眼睛有使用障碍时

语音识别领域发展现状• 产业界

– Nuance：全球最大的语音识别技术提供商– IBM：具有强大数学底蕴的老牌语音识别研究机构– Microsoft: Windows Phone和Kinect– Google: GOOG-411电话查询，语音搜索– 科大讯飞，中科信利，百度，腾讯，华为

• 学术界– Cambridge：HTK工具对学术界研究推动巨大– CMU：SPHINX系统– 中科大，清华大学，声学所，自动化所

• 关于实用化的两种论调

演示者演示文稿备注Nuance是业界最好的语音识别软件提供商，Siri的语音识别部分就是Nuance做的。现在的Nuance其实是在2005年的时候由ScanSoft和Nuance合并而成，之前二者在语音应用领域是竞争对手。最初的Nuance是在1994年由SRI STAR（Speech Technology and Research）演变而来的，Nuance的产品遍布各个领域，比如PC桌面的语音识别引擎，车载语音导航，呼叫中心，医疗（语音转录）。IBM也是老牌语音研究机构，从上世纪50年代末就开始语音识别研究，大家可能还记得IBM在PC桌面上的语音识别引擎ViaVoice。微软语音组从1992年开始由比尔盖茨发起，盖茨本人非常看好语音交互，所以持续投入研发，期间收购过TELLME（电话语音识别），语音输入和语音搜索在Windows Phone和Kinect上都有应用。Google，集中他们在互联网搜索中的巨大优势，GOOG-411电话查询服务，语音搜索。国内做识别最好的两家公司以前是科大讯飞和中科信利，其中讯飞是中国唯一一家上市的语音技术公司，他们都自己拥有核心技术，但比较大的问题是没有自己的平台，只能和一些巨头合作，比如讯飞就和腾讯华为还有中移动有过合作，中科信利和百度有过合作但随着语音现在越来越热，百度，腾讯和华为自己也开始投入研发力量。学术界语音识别的知名机构主要有剑桥，卡内基梅隆等等，其中剑桥提供的HTK工具对语音识别领域的研究推动巨大，CMU的SPHINX系统和李开复。并且产业界这些公司的大牛大多数也都是这些机构产生的（比如微软做语音的大部分来自CMU，IBM中很多则来自剑桥）。这些机构的研究方向不管是在理论还是应用方面都是最有影响力的。国内语音做的比较好的主要有清华大学，声学所，自动化所和中科大。最后我们来讲讲大家对语音识别实用化方面的看法，有两种论调，第一种比较悲观，认为语音识别现在的鲁棒性还远远不够，有人说，语音识别的各种应用演示三十年前就有了，直到现在每次演示还是在炒冷饭，差别并不大；第二种乐观论调则认为，Nuance做的这么成功，而且对大规模数据的处理能力也不断增强，另外各种无线互联网的语音应用会形成对技术推动的良性循环。我个人觉得两种论调都有道理，语音识别的鲁棒性问题中个个都是硬骨头。

语音领域会议及期刊• 国际会议

– ICASSPInternational Conference on Acoustics, Speech and Signal Processing

– INTERSPEECHAnnual Conference of the International Speech Communication Association

– ASRUIEEE Automatic Speech Recognition and Understanding Workshop

– ISCSLPInternational Symposium on Chinese Spoken Language Processing

• 顶级期刊– IEEE Transactions on Audio. Speech and Language Processing– Computer Speech and Language– Speech Communication

演示者演示文稿备注下面介绍一些语音领域的国际会议和顶级期刊，如果对语音有兴趣的同学可以从这些会议期刊论文中获得语音领域最新的一些进展。语音领域有两大国际会议，ICASSP和INTERSPEECH，每年一次，其中ICASSP是盛会型，语音是其中一个较大的研究领域，而INTERSPEECH则是专门的语音会议。另外ASRU也是语音领域比较有名的一个会，类似于兴趣小组的形式，范围不大，但论文入选的难度不小，甚至超过ICASSP和INTERSPEECH。ISCSLP关注中文自然语言处理，所以参会的多是亚洲人，会议总体水平低一些。顶级期刊共有三个，其中以IEEE Transaction水平最高，难度也最大，后两者水平则相当。

语音识别传统应用• 电脑桌面应用（听写机）

– IBM ViaVoice，Microsoft Whisper，Nuance Dragon• 通信应用（自动呼叫中心）• 医疗应用（语音转录）• 车载应用（语音导航）

• 传统应用早期在国内没有普及– 识别率不够，无法达到用户预期– 国内人工成本低，无法普及

演示者演示文稿备注安徽联通智能客服

语音识别新兴应用（移动终端）• 语音搜索

• 语音助理– 苹果Siri– Google Now– 讯飞语点

演示者演示文稿备注第一个应用是iPhone4S上最牛的一个应用，Siri，大家应该都知道。这就是一个简单的人机语音交互应用，人用语音提问，然后手机做出应答。Siri是做英文的，那么中文当前做的最好的是科大讯飞，应用叫讯飞语点，下面这个视频很有意思，它罗列了讯飞语点应用的很多场景。还有一类应用就是语音搜索，也就是将语音识别和搜索结合起来，现在这样的应用有自己搜索引擎的公司来做最为合适，Google很早的时候就已经推出语音搜索应用，然后是微软，最近百度也出了中文语音搜索，我的手机上装了一个，效果还不错，大家有机会也可以体验一下。刚才大家看到的这些视频里面的应用，核心技术除了语音识别，当然还有语义理解，后者不在我们今天的讨论范围。

语音识别新兴应用• 手机输入法

– 讯飞输入法用户已过亿

• 可穿戴式设备– 谷歌眼镜– 苹果手表

• 语音到语音的翻译

演示者演示文稿备注洪小文院长视频里所说语音三个部分

语音应用爆发原因语音合成、识别等基础技术已经成熟，达到实用门槛

移动终端、无线网络、云平台等环境条件基本完备

演示者演示文稿备注那么是什么促进了语音的大爆发呢？总结一下主要是三方面，一是技术成熟，二是大规模数据的处理能力，三是无线互联网的推动。大家可能都知道80年代末的时候李开复同学已经做出来世界上第一个大词汇量语音识别系统，那为啥当时语音没火？因为没有处理大规模数据的能力。那么到了2000年以后，在PC上也陆续开始有了像IBM和Nuance这些大公司出的语音识别应用，但是用的人却很少。直到最近几年云计算和移动互联网的兴起，各种手机上的语音应用真正让用户好玩或是有用，看到了希望。所以说这三方面对于语音的爆发都非常重要。

移动终端上语音输入更加方便快捷

语音识别难点• 人是天生就能听懂别人说话吗？

– 每个人都要经历学习语言的过程

• 人在什么情况下听不懂（清）别人说话？– 外国语言：听不懂，需要重新学习– 方言口音：听不清，发音发生变化– 语速过快：听不清，发音不够饱满– 噪声环境：听不清，被噪声所掩盖

• 机器同样存在这些问题

机器和人的差距

识别任务词汇量机器识别错误率(%) 人识别错误率(%)

连续数字串 11 0.5 0.009

华尔街日报(干净) 5000 3 0.9

华尔街日报(带噪) 5000 9 1.1

Switchboard 65000 20 4

演示者演示文稿备注表格中大概给出错误率的对比

语音识别系统总体框架

演示者演示文稿备注最后我们来看一看音识别的总体框架图。语音识别做为一种特殊的模式识别，包含经典的三大模块：前端，训练和解码。前端就是对输入的语音信号进行处理，包括端点检测，特征提取以及降噪等等。现在实用化的识别系统都是基于统计建模方法，训练部分最关键的是训练声学模型，采用了经典的隐马尔科夫模型，调整模型参数是基于最大似然准则。语言模型一般和识别任务相关，有时是简单的语法网络比如命令词网络，有时需要从海量文本当中统计N-Gram模型。解码时就是将测试特征去和由声学和语言模型决定的每一条文本串进行匹配，最后输出最像的一条，即为识别结果有的时候识别结果作为反馈还可以进行自适应后多遍解码。通过这个图，大家可以看到语音识别是一个典型的交叉学科，涉及到语音语言学知识，信号处理，统计建模等等。今天关于语音识别部分就说这么多，让大家先有个感性认识，关于相关的理论部分将在后面加以介绍。

手写识别

单字/叠写单行连写任意写

屏幕小屏幕大

演示者演示文稿备注手写识别我想大家也都不陌生，大多数时候是用来作为输入法。

光学字符识别（OCR）• 传统场景OCR

• 新场景OCR

演示者演示文稿备注Google Book

户外场景OCR非常困难

文字检测和文字识别

演示者演示文稿备注对于一幅图,首先是文字位置的检测，然后再进行识别。那么检测和识别哪个更难呢？其实当背景特别复杂时，这两部分都很难。如果文字区域相对干净，那么显然是检测更难得！关于文字检测，还专门有个比赛，从现实场景中拍了很多含有文字的图片，现在最好的检测算法检出率也不到70%！

手写识别和OCR领域发展现状• 产业界

– ScanSoft（Nuance），ABBYY– Vision Objects，Quest Visual， Vicarious– 汉王，微软亚洲研究院– 摩托罗拉（上海），科大讯飞

• 学术界– 清华大学，自动化所，华南理工

手写识别和OCR会议及期刊• 国际会议

– ICDARInternational Conference on Document Analysis and Recognition

– ICPRInternational Conference on Pattern Recognition

– ICFHRInternational Conference on Frontiers in Handwriting Recognition

• 顶级期刊– PAMI

IEEE Transactions on Pattern Analysis and Machine Intelligence– PR

Pattern Recognition– IJDAR

International Journal on Document Analysis and Recognition

演示者演示文稿备注PR对应ICPR，IJDAR对应ICDAR

手写识别应用• MyScript Notes (From Vision Objects)

• 基于Kinect的空中手写系统 Leap Motion

OCR应用• Word Lens （iPhone App from Quest Visual ）

– 增强现实

• Translator （Windows Phone App)– 国外旅行必备

演示者演示文稿备注谷歌眼镜也有OCR功能

OCR应用• Vicarious的反验证码技术

– Recursive Cortical Network

手写识别和OCR难点• 手写识别

– 单字识别：如何进行用户自适应– 连续识别：如何让切分更加准确– 自由识别：如何矫正旋转变换

• OCR

演示者演示文稿备注低对比度，背景复杂，几何变换，字体类型

推荐一篇文章：You and Your Research by Richard Hamming 培养自己做研究的品味

信号统计建模概述自我介绍课程信息及考核课程知识架构课时初步安排课程定位参考资料概述自然用户界面（NUI）多模态技术相关子方向什么是语音识别语音识别领域发展现状语音领域会议及期刊语音识别传统应用语音识别新兴应用（移动终端）语音识别新兴应用语音应用爆发原因语音识别难点机器和人的差距语音识别系统总体框架手写识别光学字符识别（OCR）幻灯片编号 23手写识别和OCR领域发展现状手写识别和OCR会议及期刊手写识别应用OCR应用OCR应用手写识别和OCR难点

信号统计建模概述 - ustchome.ustc.edu.cn/~nnf8185/ppt/no.1.pdf · 信号统计建模概述...

Documents